כמה שבועות אחרי שוירוס הקורונה "התפרץ" בסערה לחיינו, והדריכות בישראל ובעולם בשיאה.

לאחר שקבוצת צליינים מקוריאה ביקרה בארץ, התגלה כי חלק מחבריה חלו בקורונה – מה שמעלה את רמת החשש שהם כבר היו חולים בזמן הביקור בארץ – והספיקו להדביק אזרחים.

 

מי שקורא בימים האחרונים את הכתבות הרבות בנושא, ואת הטוקבקים שלאחריהם, יכול לשים לב לשני קצוות הפוכים מבחינת דעות:

בקצה אחד ישנן דעות בצד "הפאניקה" – צריכים לסגור את הגבולות, לשים את כולם בבידוד, מה יהיה וכיו"ב.

ובקצה השני – יש את אלה שטוענים שאף אחד לא הודבק, והצעדים של משרד הבריאות קיצוניים שלא לצורך – והם מעוררים פאניקה.

 

אז איפה האמת? כנראה שרק ימים יגידו…

 

אבל מה שבטוח, הוא שיש כאן תופעה מעניינת – שרלוונטית מאוד כמובן גם בהיבט האנליטי, והיא תהיה במוקד של הפוסט הזה:

סוגי טעויות סטטיסטיות.

 

בנוסף – נדבר גם על איך מתמודדים עם 2 הקצוות האלה – של פאניקה מצד אחד, או אסון מצד שני בהיבטים האנליטיים – במסגרת התחום של "ניהול סיכונים".

 

 

שיעור היסטריה (הטעות במקור…)

 

בשלהי שנות ה-90 העולם עמד מלכת.

פייסבוק עדיין לא קיימת, גם גוגל עדיין לא ממש מוכרת;
האינטרנט עדיין עובד עם מודמים שמחייגים עם צלילים, סטיב ג'ובס כבר נשכח.
נוקיה היא אימפריה, וגם מוטורולה.

אנשים עדיין נפגשים אחד עם השני ומדברים…

 

אבל יש תופעה אחת שמפחידה את כולם:

באג 2000 (Y2K)!

 

באג מה??

באג 2000אז בקצרה:
אנחנו לפני שנת 2000, וכל המערכות פותחו עם שדה של שנה עם 2 תווים (כי זכרון הוא עדיין משאב יקר מאוד).

ואף אחד לא יודע איך המערכות הולכות לתפקד כשהשנה תתחלף מ-99 ל-00.

מנהלים פחדו שכל הכסף בחשבון הבנק שלהם ייעלם, אנשי מערכות מידע היו בטוחים שמטוסים יתרסקו, עתידנים חזו את סוף העולם – ועוד שאר מרעין בישין.

וכמובן שבהוליווד הגדילו לעשות – ויצרו סרטי אימה על סוף העולם – שכמובן שברו שיאי הכנסות.

 

ובהתאם, הושקעו סכומים אדירים בהתאמת מערכות המידע לעידן השנה ה-4 ספרתית.

פרויטים שלמים נפתחו מבעוד מועד – והכינו את המערכות מכל כיוון אפשרי לאירוע.

 

 

פיאסקו המילניום

 

ב-31/12/1999 עבדכם הנאמן יצא למסיבה לחגוג את המילניום עם חברים, עם חששות לא מועטות.

בכל זאת – אף אחד לא יודע מה יקרה כשהתאריך יתחלף. אם יהיה חשמל או לא, אולי משהו אחר.

אבל בכל זאת – מחכים בתור.

 

ומרוב שהמסיבה היתה מלאה – אלפי אנשים עמדו בתור.

כבר היה ברור שאת המילניום אני חוגג בחוץ.

 

השניות עוברות, כבר יש ספירה לאחור.

וברגע האמת – הכל משתתק.

 

כלום לא קורה!

 

בבת אחת, התברר שכל החשש מהמילניום החדש היה מוגזם לחלוטין, וכנראה שחלק גדול מהפרויקטים והתקציבים שהושקעו בהכנה לקראת האירוע היו מיותרים.

 

בקיצור:

פספוס המילניום!

 

 

אבל מה בעצם היה כאן ואיך זה קשור לראיון עבודה לתפקיד דאטה אנליסט??

 

ובכן, כאשר יש לנו אירוע בעל משמעות שלילית מסוימת – אפילו אסון – חייבים להיערך אליו בצורה זו או אחרת.

 

אבל כאשר נערכים במטרה למנוע אסון או אירוע לא רצוי אחר – קריטי להבין באיזו מידה נדרש לעשות את זה.
במילים אחרות – כמה היערכות היא "מספיק טובה"?

מצד אחד, אפשר להשקיע תקציבי ענק, ולבצע צעדים דרסטיים בשביל להבטיח שכמעט ואין סיכוי שתרחיש הקיצון יתממש.

אבל מצד שני ישנן עלויות אדירות, ואי אפשר באמת להבטיח 100% הצלחה.

ומצד שלישי – האפשרות שלא לעשות כלום תחסוך אמנם הרבה כסף – אבל עשויה להסתיים באסון (כמו לדוגמה מלחמת יום כיפור, אסון הכרמל וכיו"ב).

 

אז איפה עובר הגבול ואיך מחליטים מה לעשות?

 

התשובה נמצאת בתחום ניהול הסיכונים – שהוא תת תחום בכלכלה.

 

בחינת חלופות - Trade Offהרעיון הוא, לכמת את הסיכוי לאירוע מסוים, ולהכפיל אותו בפוטנציאל הנזק בהינתן שאותו האירוע מתרחש.

בשפה הכלכלית זה נקרא "תוחלת" (Expectancy).

 

את זה נדרש לבצע עבור כל תרחיש בנפרד, להבין את ה-Tradeoff ולהשוות את החלופות, במטרה לזהות "נקודת עבודה" שתיתן פשרה יחסית טובה בין התרחישים.

 

ניקח לדוגמה את הקורונה:

אם מצד אחד נסגור עכשיו את הגבולות – כנראה שזה יאט את ההתפשטות ויציל חיים, אבל מצד שני המשמעויות הכלכליות יהיו אדירות – ויוכלו להכניס את המדינה/כלכלה למיתון (תיאורטית).

ואם מצד שני לא נעשה דבר בהיבט בידוד וכו' – כנראה שבטווח הקצר המשק ימשיך לפעול כרגיל, אבל ישנו סיכון שתהיינה הידבקויות ומצב לא פשוט לאחר מכן – שיצריך צעדים אפילו יותר דרמטיים.

 

איזה תרחיש עדיף? במקרה הזה לא ברור, ולכן מבצעים צעדים מדורגים (אזהרות מסע, בידוד לחוזרים ממדינות מסוימות, החזרת תיירים ממדינות מסוימות וכיו"ב).

צעדים שמצד אחד הם לא דרסטיים מדי, ומצד שני אמורים להקטין משמעותית את הסיכון להדבקה בארץ.

 

 

סליחה – טעות סטטיסטית

 

ולאחר שהבנו את נושא חישוב תוחלת הנזק/ רווח של כל חלופה, ישנו היבט נוסף שחשוב להכיר בתור אנליסטים:

סוג הטעות הסטטיסטית.

 

בעולם הסטטיסטיקה קיימים 2 סוגים של טעויות:

טעות מסוג ראשון / False Positive

טעות מסוג שני / False Negative

 

 

טעויות שהורסות את הסיכוי להפוך לדאטה אנליסטמאחר והסיכוי לאירוע מסוים הוא לרוב הערכה/ אומדן סטטיסטי, לעולם לא נצליח באמת להיערך ל-100% מהמקרים.

לכן, מקובל להתבסס בניתוחי דאטה על רמת ודאות של 95% או 99% מהמקרים בתופעה מסוימת – ולהחליט שהנקודה הזו היא מספיק טובה.

בעולמות של ניהול סיכונים, אגב, מקובל לבחור אפילו ברמת ודאות של 99.9% או ב-99.99% מהמקרים (כי "מחיר" התרחיש שבו האירוע מתממש הוא מאוד גבוה);

הטעות במקרה הזה תהיה 0.01% / 0.001%, בהתאמה.

 

לדוג': זמן ההדבקה בנגיף הקורונה נקבע על 14 ימים – ולכן תקופת הבידוד היא 14 ימים.

איך קבעו אותה?

ככל הנראה, בדקו התפלגות של זמני ההדבקה (נניח כרגע שהיה מידע לגבי הדבקה של החולה, והדבקה שלו חולים אחרים), וראו איפה עבר הסף של 95%/99% (או יותר).

 

 

טעות מסוג ראשון (False Positive) –

היא מה הסיכוי שחזינו מקרה מסוים – והוא לא אירע בסופו של דבר.

נניח שבדקו מהו הסיכוי שזמן ההדבקה הוא מעל ל-14 ימים (למי שמכיר מבחני השערות בסטטיסטיקה – זוהי השערת האפס – H0).

אם נגלה, שרק ב-1% מהמקרים שזוהו כהדבקה הזמן היה מעל ל-14 ימים, נוכל להסיק שזמן בידוד של 14 ימים למי שנמצא בסיכון (לדוג': חוזרים מסין) – אמור לכסות 99% מהמקרים.

 

במקרה הזה, קיים סיכוי של 1% שטעינו בהערכה שזמן ההדבקה הוא תוך 14 יום.

זוהי בדיוק הטעות מהסוג הראשון – או ה-FALSE POSITIVE.

 

המשמעות – קיים סיכוי של 1% (בדוגמה כאן) שאנשים יסיימו את תקופת הבידוד ועדיין יוכלו להדביק אחרים.

 

עכשיו, נשאלת השאלה אם 1% זה אכן סיכוי "מקובל" לטעות, כי בהחלט ייתכן ומחיר הטעות הוא התפרצות רבתי.

במקרה הזה נוכל להחליט על טעות של 0.1% או אפילו 0.01% (רמת ודאות/בטחון של 99.9% / 99.99% בהתאמה).

וכמובן, שככל שנחליט ללכת "על בטוח יותר" – זמן הבידוד יגדל, כך שיש כאן Trade-off בין הסיכון להדבקה ובין זמן הבידוד.

 

בעולם של בעיות סיווג (Classification) כמו האם לקוח ינטוש כן/לא, יחלה כן/לא, יחלים כן/לא, יצליח להחזיר הלוואה כן/לא, ירכוש כן/לא – טעות מסוג ראשון נקראת גם FALSE POSITIVE, כלומר הסבירות שנטעה כאשר נסווג את המקרה כ"חיובי".

וחשוב לשים לב ש"חיובי" זו הגדרה סמנטית – ומתייחסת לפרמטר שנרצה לחזות. לדוג' כשלון בהחזר הלוואה הוא מה שנרצה לחזות ולכן ייחשב כתוצאה "חיובית" מי שנכשל בהחזר, לעומת סיכוי לרכישה שגם יהיה תוצאה "חיובית" מבחינת התחזית.

 

 

טעות מסוג שני (False Negative)

היא הסיכוי שחזינו שמקרה מסוים לא יקרה, אבל בסוף הוא כן התרחש.

בדוגמה של חלון הזמן להדבקה, הבנו שקיים סיכוי של 1% שזמן ההדבקה גדול מ-14 יום, וזוהי הטעות מהסוג הראשון.

 

טעות מסוג שני, או FALSE NEGATIVE, היא המקרה ההפוך: הסיכוי שהסקנו שזמן ההדבקה יהיה מעל ל-14 יום, כאשר הסתבר בפועל שהוא היה קטן מ-14 ימים.

 

או בהיבט המשמעות של זה: מה הסיכוי שנכניס אנשים לבידוד של 28 ימים, כאשר היו מספיקים רק 14 ימים.

 

לסיכום – בדוגמה של הקורונה:

 

טעות מסוג ראשון / FALSE POSITIVE – מה הסיכוי שתהיה הדבקה לאחר 14 ימי בידוד?

טעות מסוג שני / FALSE NEGATIVE – מה הסיכוי שהחמרנו שקבענו שנדרשים 21/28 ימי בידוד, כאשר בפועל היו נדרשים רק 14 ימי בידוד?

 

כמובן, שלא תמיד נוכל לכמת ברמה מדויקת את 2 סוגי הטעויות, ולכן מה שקריטי כאן הוא העיקרון של השוואת התרחישים והערכת פוטנציאל הנזק/ תועלת בכל תרחיש (או סוג טעות);

פוטנציאל הנזק/ תועלת יהיה שווה ל:

הסיכוי לטעות מסוג ראשון, כפול המחיר שלה;

ועוד הסיכוי לטעות מסוג שני כפול המחיר שלה.

 

ובדוגמה של נגיף הקורונה: הסיכוי לפספס אדם שנדבק, כפול הנזק (הדבקת אנשים נוספים);

ועוד הסיכוי שהכנסנו לבידוד אנשים שכלל לא חלו – כפול הנזק (אובדן ימי עבודה, נזק למשק, כעס וכו').

 

כמובן, שבעולם הרפואי הרבה יותר קשה להעריך את זה, אבל בעולמות עסקיים כמו שיווק או ניהול סיכונים המידע יהיה הרבה יותר נגיש ומדיד.

ולכן – בתור אנליסטים אנחנו חייבים לחשוב במונחים של הסתברויות ותוחלות.

 

 

ומה הקשר לראיונות עבודה לתפקיד דאטה אנליסט?

 

ובכן, בדיוק באותו הרעיון כמו ניהול סיכונים, ייתכן ותיתקלו בראיונות עבודה לתפקיד דאטה אנליסט בשאלות שידרשו מכם להשוות בין חלופות.

זה יכול להיות או בעולם ניהול הסיכונים, אבל ברוב המקרים דווקא בעולם השיווק.

לדוג':

יש נתונים של משתמשים באפקליציה.

חלקם מגיעים מקמפיין א', שעולה X (נניח 2 ש"ח לקליק), וחלקם מקמפיין ב' שעולה Y (נניח 2.5 ש"ח לקליק).

מקמפיין א' סיכוי הרכישה הוא 1%, ומקמפיין ב' סיכוי הרכישה הוא 1.5%.

ונניח שהמוצר בשני הקמפיינים זהה (אותו המחיר).

השאלה: איזה קמפיין עדיף?

 

אז בדיוק כמו עם ניהול הסיכונים, גם כאן הכוונה היא להעריך את הרווחיות פר קמפיין:

הכנסות (מכירות) פחות הוצאות (עלות הקמפיינים) – פר משתמש שרכש.

הכנסה למשתמש היא בדיוק הסיכוי שמבקר שהגיע מהקמפיין ימשיך לרכישה, כפול סכום הרכישה.

הוצאה לרכישה היא בדיוק עלות קליק (מבקר), לחלק בסיכוי לרכישה.

 

הקשר: תוחלת התועלת/נזק = סיכוי לאירוע מסוים כפול פוטנציאל תועלת/נזק בהינתן שהתרחיש קרה.

 

 

לסיכום

 

הפוסט עסק בשני מונחים אנליטיים מעניינים – ניהול סיכונים וטעויות סטטיסטיות, והקשר שלהם להתפרצות הנוכחית של נגיף הקורונה.

 

אני חוזר ומדגיש, שהמטרה כאן היא לא לתת הערכות על לאן הולכת ההתפרצות הנוכחית של הנגיף – את זה כנראה אף אחד לא באמת יודע בודאות…

 

המטרה היא לתת את ההקשרים מולנו כאנליסטים, וללמוד מתוך המקרה הזה על עולמות תוכן בתחום הדאטה.

 

אז נקווה שההתפרצות תיבלם, ושמקרי ההדבקה בישראל לא יגדלו.

 

ולמי שמשעמם בינתיים ורוצה לנתח בעצמו את נתוני ההתפרצות של הקורונה בעולם – יש אותם באתר Kaggle, בלינק כאן.

 

 

שיהיה לכולנו שבוע טוב ובריא!

 

השארת תגובה