באחת מפגישות ההכוונה לכניסה לתחום ניתוח הדאטה שערכתי השבוע, הודיע הבחור שהוא יאחר כנראה בכ-10 דקות, לפחות ככה אמר הוויז.

כאשר הגיע, הוא טען שבדק מבעוד מועד בוויז כמה זמן ייקח לו להגיע, ובהתאם לזמן הזה הוא יצא ממקום העבודה הנוכחי שלו.
העניין הוא, שבמהלך הדרך וויז דיווח ש"מתפתח פקק בהמשך הדרך", ושיבש לו את התוכניות…

העניין הזה מייד הזכיר לי נושא מאוד חשוב בעולם הדאטה, והחלטתי לכתוב פוסט חדש בדיוק על זה:

תחזיות.

אז במסגרת המאמר נדבר קצת על מהן תחזיות, מהם הסוגים השונים של תחזיות שניתן לבצע, ונראה אפילו איך ליצור תחזית בסיסית.

ובשביל שזה יהיה מעניין, בסוף המאמר ניתן גם טיפ חשוב מדוע אפילו וויז עדיין יכול לפספס את זמן ההגעה ליעד…

 

מהי בעצם תחזית ומדוע היא נדרשת?

המטרה של תחזיות היא טריוויאלית לכולנו:
נניח שאנחנו רוצים לצאת מהבית, אבל להימנע מלהירטב בגלל שיש גשם.
וברור שאם קיימת תחזית שיירד גשם – נוכל לקחת מטריה מבעוד מועד.

באותה הצורה, תחזית לגבי התנהגות מסוימת של לקוחות של החברה, משתמשים באפליקציה, עובדים – או אפילו מכונות מסוימות – יכולות לעזור לנו לתכנן בצורה טובה יותר את הצעדים שלנו – במטרה לשפר את הביצועים של החברה.

ובמילים אחרות:

תחזיות עוזרות לנו לקבל החלטות בצורה מדויקת יותר, ובהתבסס על דאטה.

 

בהתאם לכך, תחזית היא בעצם הערכה של מדד מסוים בנקודת זמן מסוימת בעתיד.

 

חשוב להדגיש: הערכה היא איכותית, ותחזית אמורה להיות כמותית – כלומר ערך מספרי.

ועדיין, למרות שהתחזית היא כמותית, ותתבסס על דאטה, היא עדיין מטבעה משהו לא מדויק, ואין כלל ודאות שהיא אכן תתממש.

 

סוגי תחזיות

בעולם החיזוי האנליטי (Predictive Analytics) מקובל להתייחס לשני מקרים של מתן תחזיות:

תחזית מבוססת תוצאה

בתחזית זו יש לנו רק מדד מספרי על פני הרבה תקופות זמן (נקרא גם 'סדרה עיתית' – TIME SERIES), שעבורה נרצה לחזות ערכים בעתיד.

מאחר וערכי המדד ההיסטוריים הם המידע היחיד שיש לנו (כמובן בתוספת התאריך עצמו של כל תצפית) – תהליך החיזוי יתבסס על שיטות מתמטיות/סטטיסטיות בלבד.

המשמעות היא, שנרצה לחפש נוסחה אשר תואמת בצורה הטובה ביותר לנתוני האמת שיש לנו.

 

תחזית מבוססת גורמים

בנוסף למדד עצמו ולנקודת הזמן, יהיו זמינים גם פרמטרים נוספים – שעשויים לנבא את ערכי המדד בצורה מדויקת יותר – כמו מאפיינים של הלקוח/משתמש (גיל/ותק/התנהגות בעבר וכיו"ב).
סוגים שונים של לקוחות עשויים להביא לתחזית שונה, וכאן העוצמה של שימוש בפרמטרים נוספים.

דוגמה טובה לכך היא חיזוי מחירים של טיסות, המושפעים כמובן מחברת התעופה, זמינות המושבים במחלקות השונות, האם נדרש לשלם על מזוודות וכיו"ב.

מאחר וישנם מאפיינים נוספים של כל תצפית, דיוק החיזוי בתחזית מבוססת הגורמים עשוי להיות גבוה באופן משמעותי לעומת תחזית מבוססת תוצאה.

 

תחזית מבוססת גורמים היא מורכבת יותר לניתוח ומימוש – ולכן פחות נעסוק בה כאן.

 

 

איך יוצרים תחזית?

תחזית של ערך מדד מסוים תצריך לרוב דאטה היסטורי על אותו המדד.

בהתאם לערך המדד בנקודות זמן קודמות, נפעיל שיטות סטטיסטיות (כגון רגרסיה) על מנת ללמוד מה היתה המגמה בעבר, ולנבא את הערך בעתיד – בהתבסס על אותה המגמה.

לדוגמה: אם ניקח את המונח "Data Analyst" ונחפש אותו ב-Google Trends (כלי של גוגל שמאפשר לקבל דאטה על מגמות של מילות חיפוש), נוכל לקבל את התרשים הבא:

 

 

לפי התרשים, מדובר במגמה עולה לכמות החיפושים בתחום (מה שעשוי לשקף עליה גבוהה בביקוש אליו).

לשים לב: מדובר בכמות חיפושים משוקללת (כלומר – יחסית בין 0 ל-100), ולא בכמות החיפושים האמיתית.

 

בשלב הזה, אם נרצה לחזות את כמות החיפושים בשנת 2020 , נוכל לייצא את הדאטה לאקסל, וליצור קו מגמה, עם תחזית של 12 תקופות קדימה (חודשים ביחס לסוף שנת 2019 – מועד המאמר).

להלן דוגמה לקו מגמה אקספוננציאלי (שיפוע הולך וגדל), אשר חוזה ערך משוקלל של כ-105 בסוף שנת  2020.
כמובן שאפשר להשתמש בקו מגמה לינארי או אחר – בהתאם למגמה שנראית לנו הכי סבירה.

 

שיקולים ביצירת תחזית מבוססת תוצאה

בגדול, קיימים 2 היבטים מרכזיים ביצירת תחזית: מגמה ועונתיות.

 

על המגמה כבר שוחחנו – במידה וקיימת מגמה מסוימת (עולה/יורדת), ניתן לבצע תחזית על סך המגמה הזו. זה הבסיס.

בנוסף למגמה, בתופעות מסוימות שנרצה לחזות תהיה קיימת גם תופעה של עונתיות.

לדוג': אם נחזור ל-Google Trends ונחפש מצד אחד משקפי שמש או סנדלים, ומולם מעילים או מגפיים – נוכל להבחין בקלות בקפיצה בחיפושים בחודשי הקיץ/חורף – בהתאמה.

 

הרעיון לביצוע תחזיות במקרה הזה הוא קודם כל לזהות את המגמה, ועליה "להלביש" את העונתיות.

 

 

הקשר ל-Waze

אז ממש לפני סיום, כמו שהבטחתי – התשובה לשאלה מדוע אפילו וויז טועים לפעמים…

ובכן, וויז לוקחת מידע של מיקום מהרבה מאוד רכבים, וממפה למעשה עומסים בכבישים בזמן אמת.

המיפוי הזה מאפשר לוויז לנתב את התנועה בזמן אמת לנתיבים חלופיים, שבהן אין עומסים.

זו הגדולה של וויז.

 

אבל…

אמרנו כבר בהתחלה שתחזית היא דבר לא מדויק ברמה העקרונית.

ובמציאות, מה לעשות – תמיד ניתקל בסיטואציות שקשה מאוד לחזות, בין אם בכלל שאין מספיק דאטה, או בגלל שעולם הבעיה דינמי מאוד, ומה שחזינו על סמך הנתונים של לפני שעה או אפילו מספר דקות – כבר לא רלוונטי לעכשיו.

 

זה יכול לנבוע ממצב שבו רק מספר יחסית קטן של נהגים משתמש בוויז ברחוב ספציפי, בעיות ברשת או אפילו חסימה של כבישים שטרם דווחה.

לא תמיד ניתן לנתח את הדאטה הזה ולהסיק מסקנות לגבי עיכובים אפשריים בדרך, למרות שזה היה יכול להיות נחמד לקבל טווח סטייה מזמן ההגעה המשוער.

 

לסיכום

עד כאן ההסבר הבסיסי על נושא התחזיות.

התחום הזה מורכב למדי, ויש אנשים שלומדים בו תארים שלמים – אבל זה הבסיס.

הוא תחום מרתק מאוד, והאפשרויות הטמונות בו לטובת שיפור ביצועים של חברות הוא בלתי נתפס, ולכן מומלץ מאוד להיכנס אליו בשלב זה או אחר במהלך הקריירה כאנליסטים.

 

אז בפעם הבאה שאתם יוצאים לפגישה – קחו לכם 10-15 דקות ספייר לעומת מה שוויז אומר.

כי למרות הגאוניות של הכלי הזה והמהפך שהוא יצר לכולנו בחיים – עדיין מדובר באתגר קשה מאוד לחיזוי…

 

בהצלחה!

השארת תגובה