הפוסט הפעם יעסוק פחות בתחום מסוים בעולם הדאטה, אלא יותר בתופעה מאוד נפוצה שבה אני נתקל השכם וערב אצל אנליסטים:
תופעת 'השטח המת' (Blind Zone).
התופעה הזו גורמת להרבה מאוד אנשים, למען האמת כמעט לכולם – פשוט להיכנס לקיבעון מסוים כאשר מנתחים דאטה, מה שגורם להסקת מסקנות לא נכונות.
ובשביל להמחיש את התופעה בצורה מעניינת – אתן דוגמה מתחום שכולנו מכירים – חיפוש טיסות.
מהו 'שטח מת'?
בואו נניח שאנחנו נוהגים ברכב, ורוצים לבצע עקיפה.
אנחנו מסתכלים במראות, מאותתים – ופתאום שומעים צפצוף:
ומשום מקום מגיע רכב – בדיוק בנתיב אליו התכוונו לעבור!
בצורה כלשהי, הוא "השתחל" לנתיב הזה בלי שבכלל נראה אותו.
איך זה בכלל אפשרי?
אז ברכב ישנה רצועה צרה מכל צד של הרכב, שבה לא קיים כיסוי מלא של שדה הראייה שלנו.
זה קיים בתפר שבין המראות (ימנית, אחורית ושמאלית), וגם בין המראה הימנית/שמאלית לקצה הראייה שלנו ללא מראות.
השטח המת הוא תופעה מאוד נפוצה, ולכן ברכבים החדשים אף הומצאה מערכת המתריאה על רכב שנכנס ל'שטח המת'.
ואיך זה קשור לאנליזה של דאטה??
ובכן, גם בניתוח של דאטה קיימים 'שטחים מתים'.
אבל כאן, בשונה מעולם הנהיגה, 'שטחים מתים' מתייחסים לקבעונות מסוימים שיש לנו לגבי הנתונים.
הקיבעון הנפוץ ביותר הוא שהנתונים הם מלאים ושלמים – כלומר – מייצגים בצורה מושלמת את המצב במציאות.
וזה כמו שהבנתם – לא תמיד נכון!
מדוע הטיסות הכי זולות לא תופענה במנועי החיפוש
ניקח לדוגמה את תחום חיפוש הטיסות, שרובנו מכירים. זהו תחום מאוד עשיר בדאטה – למעשה הדאטה הוא זה שמניע את כל תהליך החיפוש דרך מנועי חיפוש עוצמתיים, שתוך מספר שניות סורקים את כלל הטיסות הקיימות ומחזירים לנו את כל הטיסות הרלוונטיות.
חיפוש טיסה (כמובן זולה) היום הוא אמנות בפני עצמה, אבל ברמה הבסיסית הוא כולל כניסה למנוע חיפוש כלשהו (לדוג': Skyscanner, Google Flights וכיו"ב) וביצוע חיפוש.
בשלב הזה, אנחנו בטוחים שהמנוע סורק את כלל הטיסות הקיימות בחברות התעופה, ומתוכן יציג את האפשרויות הזולות ביותר.
וזה נכון ברוב המקרים.
אבל…
קיימים מקרים שבהם המנוע פשוט לא רואה את כל הטיסות.
ותתפלאו כמה הם נפוצים…
איך זה יכול להיות שמנועי חיפוש עיוורים לחלק מהטיסות??
ובכן, מנוע חיפוש, כמו כל חברה בעצם – עובדים על משהו שנקרא כלל 20:80 ("כלל פרטו").
לפי הכלל הזה, יש בעצם מעין יחס עלות-תועלת, והרעיון הוא לעבוד הכי מעט בשביל להביא את הכי הרבה תועלת.
במנועי החיפוש, זה יתבטא ביצירת ממשק למאגר הטיסות הכי גדול (מאגר = בסיס נתונים של טיסות), שהכי קל להתממשק אליו – מצד אחד;
וזניחת מאגרי טיסות או חברות תעופה קטנות – שההשקעה בהתממשקות אליהן פשוט לא כדאית – מאידך.
וכאן בדיוק ההיבט שקריטי להבין בתור אנליסטים (וגם בתור "ציידי טיסות זולות"):
אם המטרה שלנו היא להגיע לתוצאה מסוימת (לדוג': מציאת הטיסה הכי זולה ללונדון בחודש מסוים) – אנחנו חייבים להכיר את כל הנחות העבודה והמגבלות של הנתונים שיש בידינו.
זה כולל הנחות עבודה על היכן הנתונים חסרים, האם הם אמינים וכיו"ב.
ובהחלט קיימים מאגרי טיסות קטנים יותר – שלמנועי החיפוש פשוט פחות כדאי להתממשק אליהם.
רוצים דוגמה?
בחברת הלואו קוסט Wizzair קיים "כרטיס הנחות" שיכול להוזיל טיסה בעד 50 ש"ח לכיוון.
זה אומר, שאם מצאתם טיסה ללונדון ב-600 ש"ח הלוך ושוב (ובהחלט אפשר למצוא מחירים כאלה), בתוספת שנתית של כ-160 ש"ח – תוכלו לרכוש את אותה הטיסה ב-440 ש"ח.
ומאותה הנקודה שיש לכם את הכרטיס, כל טיסה עתידית באותה השנה גם תאפשר הנחה במחיר הכרטיס.
ואת המחירים האלה לא תוכלו למצוא במנועי החיפוש, ולא משנה כמה פעמים תחפשו!
התופעה, כמובן, לא קיימת רק בתחום חיפוש הטיסות, אלא גם בתחומים נוספים.
לדוגמה: לא כל ההצעות ייכללו במנועי חיפוש לצרכנות כמו זאפ או דומים.
כבר יצא לי לקנות כמה פעמים מוצרים בסדר גודל של חצי מחיר לעומת המחיר הכי זול בזאפ.
איך? פשוט כי ידעתי היכן לחפש את המבצעים.
שלא לדבר על חיפוש באתרים בחו"ל, שלעיתים יכולים להיות זולים בעשרות אחוזים…
מה אפשר לקחת מזה לגבי העיסוק כאנליסטים?
ובכן, כמו בעולם הצרכנות או חיפוש הטיסות, כאנליסטים עלינו להטיל תמיד ספק באמינות הנתונים.
נתונים הם לא דבר סטרילי – הם תוצאה של מציאות דינמית, והם נוטים להיות מלוכלכים, שגויים, מוטים ושאר מרעין בישין.
מצד שני, זה לחלוטין לא אומר שאי אפשר להשתמש בהם…
העניין הוא שעלינו לחפש כל הזמן מצד אחד את ההטיות והשגיאות בנתונים, ואחרי שטיפלנו בהן – לנתח את הנתונים ולקבל מסקנות – תחת ההנחה שעדיין ייתכן שהנתונים מוטים.
בנוסף, תמיד שווה לחפש איזה נתונים חסרים, ולשאוף תמיד להוסיף עוד נתונים, על מנת שיהיה אפשר לנתח אותם בעתיד.
כבר יצא לי ללוות הרבה חברות, שבהן הוזכרה מילת הקסם "Machine Learning", אבל לא היה כלל דאטה שיאפשר להם להריץ אלגוריתמים…
לכן, חשוב להבין שניתוח דאטה זה תהליך, לא משהו חד פעמי, וברוב המקרים לא אלגוריתם מתוחכם – הוא זה שיביא לתובנה המנצחת;
ומה כן יביא ל"תובנה מנצחת"?
פשוט – הוספת פריט מידע מסוים שיאפשר ניתוח של הדאטה בהקשר חדש.
אז לסיכום:
בתור אנליסטים חשוב שנכיר את תופעת 'השטח המת'.
כמו שהבנו במהלך המאמר – היא קריטית להבנת המגבלות של הדאטה שאיתו אנחנו עובדים, ולצורך הימנעות מהטיות והסקת מסקנות שגויה.
ואיך מפתחים את היכולת הזאת?
הצעד הראשון הוא לפתח מודעות לנושא – שידע טכני הוא חשוב, אבל הוא רק חצי ממה שנדרש על מנת להפוך ל-Data Analysts טובים.
ומעבר לזה אין ממש 'גלולות קסם לזיהוי שטחים מתים'…
הדרך הכי טובה היא בעיקר ניסיון בעבודה עם דאטה ופיתוח חוש בריא של ביקורתיות והטלת ספק באמיתות הנתונים.
ואם יש לידכם אנליסטים שיודעים להפעיל את צורת החשיבה הזו – זה מאוד עוזר.
אז בפעם הבאה שאתם מחפשים טיסות זולות לחו"ל או מוצר מסוים, מיד לאחר החיפוש "הסטנדרטי" – תחשבו באילו אתרים נוספים יכולים להיות מבצעים מעניינים.
בהצלחה!