בוקר, השמיים בהירים, שמש חורפית נעימה. עבדכם הנאמן ממתין בתור לבדיקת קורונה.
"כן", חשבתי לעצמי, "זה תפס גם אותי"…
לאחר יומיים של של כאבי ראש, שרירים, עייפות ושאר סימפטומים –
שאת התיאור הגרפי שלהם אחסוך מכם –
החלטתי שהספיק לי, ואחרי חצי שנה של מגיפה הגיע גם הזמן שלי להידבק/להיבדק.
למזלי, התור במתחם ה"היבדק וסע" בפארק הירקון היה יחסית קצר,
ותוך משהו כמו עשר דקות הגעתי לתחנה הראשונה:
מסירת פרטי זיהוי (ת"ז, מספר טלפון וקופת החולים בה אני מבוטח).
לאחר כעשר דקות נוספות הגעתי לתחנה השניה של הבדיקה עצמה (היכרות מעמיקה עם המטוש…) – והחוויה הגיעה לסיום.
בשלב הזה, לאחר כ-20 דקות של כל התהליך – התחילה למלא אותי הרגשה אדירה של פספוס…
אתם בטח שואלים מדוע (מעבר לציפיה המפוקפקת לבלות שם שעה פלוס…)
ובכן – בתור איש דאטה – פשוט לא האמנתי ששאלו אותי רק את הפרטים המזהים שלי;
הרי יש כאן אפשרות אמיתית לחקור את הטריגרים שמניעים אנשים לבוא ולהיבדק,
ולהבין את הסימפטומים שעשויים לנבא טוב יותר הידבקות במחלה.
זה יכול לעזור בהורדת העומס על הבדיקות, להקדים את האבחון ובכלל – לייעל את התהליך.
לצפות פני עתיד
בעולם האנליטי שאלות מהסוג הזה שייכות לתחום מרתק בשם Predictive Analytics – או "ניתוח צופה פני עתיד".
התחום שייך לעולם ה-Data Science, ובעצם מאפשר ללמוד מתופעות בעבר לטובת ביצוע חיזוי בעתיד.
במקרה הזה: האם סימפטום של כאב ראש, שיעול, הקאות וכיו"ב יכולים לנבא הידבקות – ובאיזה סיכוי?
בעולמות החיזוי האלה ישנם מספר סוגים של בעיות –
לדוגמה סיווג (Classification), פילוח (Clustering), חיזוי מגמה (Forecasting) וכיו"ב;
במקרה של בדיקות הקורונה מדובר בבעיית סיווג (האם הבדיקה תאובחן כהדבקה כן/לא).
כאן, בשביל לאפשר חיזוי – נרצה לבחון קשר של סיבה-תוצאה בין משתנה מסביר מסוים, למשתנה מוסבר מסוים.
לדוג': כיצד סימפטום של כאב ראש (יש/אין), או חום (יש/אין) משפיע על הסיכוי להיות מאובחן בקורונה.
בשביל לבצע את התהליך, נדרש קודם כל לאסוף נתונים:
גם על המשתנה המסביר (סימפטום), וגם על משתנה המטרה (תוצאות הבדיקה).
בעולמות היותר עסקיים, התהליך הזה מבוצע על מגוון יישומים לחיזוי;
לדוג' : האם תהיה נטישה של משתמש מסוים באפקליקציה לאחר מספר ימים – בהתאם לפעולות שביצע במהלך הביקור שלו.
או לחשב מהם הסיכויים שלקוח פוטנציאלי יהפוך ללקוח משלם – בהתאם לתכונות שלו.
ובהתאם לתעדף את מאמצי אנשי המכירות בלקוחות עם סיכוי גבוה.
איך זה עובד בפועל?
ובין – ישנם חמישה שלבים עיקריים לעשות את זה:
שלב ראשון – לתכנן את תהליך החיזוי (Model Design).
בשלב הזה ישנו חלק מתודולוגי מסיבי – יכולת שלעיתים לוקחת שנים לפתח…
לצורך הפשטות – במסגרת הפוסט נתמצת את זה למשפט אחד:
אפיון של מהם המשתנים המסבירים ומהו משתנה המטרה, ובהתאם החלטה איך נזהה את הקשר ביניהם (רגרסיה/עץ החלטה וכיו"ב).
שלב שני – איסוף נתוני המקור.
בשלב הזה נוודא שהנתונים הרלוונטיים אכן קיימים, נשלוף ונעבד אותם לטבלה שנוכל לנתח.
שלב שלישי – ניתוח הנתונים.
בשלב הזה נבצע את המניפולציות הסטטיסטיות או האנליטיות, ונחשב את נוסחת החיזוי.
שלב רביעי – תיקוף/ חישוב עוצמת הניבוי.
בשלב הזה נבדוק את עוצמת הניבוי – כלומר באיזו מידה נוסחת הניבוי יודעת לחזות את התוצאה.
שלב חמישי – שימוש שוטף בנוסחה.
אז היכן היה הפספוס בבדיקות הקורונה?
אם אין נתונים רלוונטיים הנוגעים או למשתנים המסבירים, או למשתנה המוסבר/מטרה – אי אפשר לבצע את הניתוח…
המשתנה המוסבר מן הסתם קיים – תוצאות הבדיקה.
אבל הבעיה היתה במשתנים המסבירים…
עצם העובדה שכלל לא שאלו אותי מה הסימפטומים שחוויתי, ומה היתה בכלל הסיבה שהגעתי לבצע את הבדיקה – גרמה להיעדר משתנים מסבירים משמעותיים.
ובנקודה הזו – איבדנו את היכולת לבצע את הניתוח האנליטי – שיכול לשפוך אור על התנהגות המחלה.
הרי ישנו הבדל עצום בין מי שמגיע להיבדק ללא סימפטומים – בגלל שהוא מעוניין לטוס לחו"ל…
ובין מישהו שחש בסימפטומים ורוצה להבין אם עליו להיכנס לבידוד.
אז בפעם הבאה שתלכו לבדיקת קורונה – תזכרו את המשל של המשתנה המסביר והמוסבר.
וכמובן – שתצאו שליליים!
אה, ואגב… יום לאחר הבדיקה קיבלתי את התשובה:
יצאתי שלילי…
ככה שאמנם יצא שהרגשתי על הפנים כמה ימים.
וגם הייתי ממורמר מהיעדר היכולת לפתח מודל אנליטי…
אבל לפחות קורונה – אין לי (נכון למועד כתיבת הפוסט ליתר דיוק.)
נאחל בהצלחה לכולנו עם החיסונים – ונקווה שנחזור במהרה לשגרה!
אייל