משימות של דאטה אנליסט – ניתוח מגמות

המאמר הפעם ייתן דוגמה קצרה לעבודה אנליטית טיפוסית מסוג קצת אחר – ניתוח מגמה בתרשימים.
ומה יותר מתאים למאמר מאשר מגמות בתחום ניתוח הנתונים?…

"מגמה ריאלית"

לפני כבר לא מעט שנים, הוציאה גוגל מוצר מעניין מאוד בשם Google Trends. המוצר מאפשר מיפוי של כמות החיפושים שביצעו משתמשים בחתכים שונים – למול מונחים אחרים. כך, אפשר לזהות מגמות ברמת על העולות מתוך הנתונים, ולהשוות בין עולמות תוכן שונים – לפחות בהיבט העניין שהם מעוררים אצל אנשים.
אז נכון – זה לא מדויק, וישנן לא מעט הטיות.
ועדיין – ניתוח כזה יכול לעזור לנו להציף רעיונות לתופעות מסוימות המתרחשות במקרה – או שלא.
ואם קצת נקדים את המאוחר – אפשר לומר כבר עכשיו, שבניתוחים מהסוג הזה ישנו דבר אחד שהוא לב העניין – לתת הקשר עסקי לנתונים.

במקרה הזה, רציתי להציג כמה מונחים בעולם ניתוח הנתונים – כל אחד משקף תחום מעט שונה.
אז נתחיל עם מקצועות בתחום – בדגש על Data Analyst ו-Data Scientist.

כאשר נעלה אותם על הגרף – נוכל לראות שהמגמה של שני המקצועות דומה מאוד. אצל האנליסט ישנה צמיחה משמעותית בעשור האחרון.
ובאופן לא ממש מפתיע – Data Scientist רק התחיל את דרכו לפני כעשור, ומאז זוכה לצמיחה חסרת תקדים – שאוטוטו עוקפת את מקצוע העל – דאטה אנליסט.

"חדר ניתוח”

אז הבנו של-Data Scientist יש יותר באז מאנליסט – לא ממש מפתיע…
אבל האם ישנן מגמות גם לגבי מה שאנשי ניתוח נתונים עושים? בואו נבדוק!
הפעם, נמפה את תחומי הפעילות הבאים – חלקם ותיקים מאוד – וחלקם חדשים (לכאורה):

  • Data Analysis – ניתוח נתונים – תחום כללי.
  • Data Science – מדע הנתונים.
  • Machine Learning – אחד מ-Buzzwords המובילים היום בתחום.
  • Data Mining – כריית מידע – תחום של אלגוריתמים לזיהוי דפוסים ומגמות (נשמע מוכר, נכון?…)
  • Business Intelligence – בינה עסקית – תשתית טכנולוגיות להפצת נתונים ודוחות להרבה משתמשים בארגון. לשים לב – לא "BI" לאור רגישות אפשרית לטעויות חיפוש או תחומים אחרים.

התוצאות מעניינות למדי:

אז קודם כל, מעניין לראות את הירידה הגורפת בכלל התחומים בין השנים 2004-2008. עוד מעט נציג הסברים אפשריים לכך.
התחומים הותיקים של BI ו-Data Mining נמצאים בירידה מתמשכת וארוכה, כאשר האחרון נראה ממש כאילו הוא "יורד מגדולתו".
Data Science – התחיל לפרוץ בצורה משמעותית במהלך חמש השנים האחרונות, ו-Machine Learning אפילו יותר משמעותי.
Data Analysis מתאושש וחוזר לעצמו לאחר הירידה ב-2004-2008, ובצורה יחסית יציבה. זה לא ממש מפתיע לאור העובדה שמדובר בתחום על – הרלוונטי גם לאנליסטים וגם ל-Data Scientists, ולמקצועות אחרים כמו כלכלנים.

 

אז מה כל זה אומר?

ועכשיו מתחילה העבודה האנליטית האמיתית – פרשנות והשערות…
אחד הדברים שאנחנו רוצים להתחיל לבדוק, הוא האם הנתונים עקביים. אם לא – יש לנו כאן איתות למשהו שצריך לבדוק.
במקרה שלנו – אחד הדברים שהכי ‘צועק’ הוא הירידה הדרמטית ב-Data Mining למול העלייה הדרמטית ב-Data Science.
למען האמת – זה לא ממש מפתיע – מדובר בתחומים מאוד דומים. ככל הנראה זה בדיוק אותו התחום – אבל בשם אחר.
אותה הגברת בשינוי אדרת…

נושא נוסף הוא העלייה התמשכת והעקבית בעולם ה-Data Analysis בעשור האחרון – למרות שלכאורה מדע הנתונים ו-Machine Learning תופסים תאוצה.
ככל הנראה, ישנה 'תחייה' בכל תחומי ניתוח הנתונים בעשור האחרון וזה מושך גם את תחום העל – ניתוח נתונים.
מה יכול להסביר את התחייה בעשור האחרון ואת ההיחלשות בתחילת העשור הקודם (2004-2008)?
מה שאפיין את תחילת העשור הייתה סטגנציה יחסית בעולם ניתוח הנתונים מבחינת טכנולוגיות.
אבל עם התפתחות מחשוב ה-Cloud והקוד הפתוח, כמו גם עולם ה-Big Data – כל תחום ניתוח הנתונים קיבל זריקת מרץ – שמשתקפת בממצאים.

נושא אחרון הוא הירידה המתמשכת בעולם ה-BI לאחר שיא בעשור הקודם.
נשאלת השאלה – איך ייתכן שתחום כ"כ גדול נמצא בירידה?
ובכן – התחושה הזו אכן מגובה גם בפועל;
הפרויקטים הגדולים של BI -הקמת תשתית מחסני נתונים (Data Warehouses) ומערכות דוחות – הסתיימו כבר לפני לא מעט שנים.
זה לא אומר כמובן שהתחום נעלם – אבל זה כן עשוי להעיד על כך שנדרש קפיצה לשלב הבא בהתפתחות שלו – שלב של להפוך את הנתונים לתובנות עמוקות היוצרות שיפור בביצועים.
אגב, ייתכן שקיימת כאן הטיה מסוימת שחשוב להכיר: כמעט כולם קוראים לתחום "BI”. העניין הוא, שחיפושים של המחרוזת הזו עשויים להיות לא ייחודיים לתחום הספציפי.

 

מה באמת צריכים ללמוד מהמאמר?

הפרשנות שניתנה כאן לממצאים לכאורה היא ראשונית, ומבוססת על היכרות עם התחום.
סביר להניח שאנליסטים שונים יביאו פרשנות שונה לדברים – וזה מצוין.
הדבר שבאמת חשוב לקחת מהמאמר הוא לא בהכרח הפרשנות האישית שהוצגה בנוגע לממצאים, אלא התהליך. הוא כולל מספר שלבים:

  • הגדרה של מה שרוצים לנתח – מטרה, נתוני מקור ושיטת הניתוח.
  • הפקה של הנתונים – במקרה הזה מ-Google Trends.
    חשוב לשים לב שחלק גדול מהממצאים והמסקנות אליהם נגיע נגזרים בכלל מהמונחים עליהם החלטנו – ופחות מהפרשנות…
    אם לדוגמה היינו מחפשים "סטטיסטיקאי" – ייתכן והיינו מגיעים לתוצאות אחרות. לכן – להיכרות עם עולם התוכן העסקי של הבעיה ישנו חלק אדיר בתוצאות.
  • זיהוי המגמות – עליה/ירידה – והאם המגמה הזו לינארית או הולכת ומתעצמת (כמו במקרה של Machine Learning).
    לחילופין – האם המגמה היא עולה עד לנקודת שיא מסוימת – ואז יורדת (כמו עם ה-BI).
  • מתן הקשר ופרשנות למגמות – זה לרוב מתבצע באופן אינטואיטיבי, או לפי היכרות מעמיקה עם התחומים.

סיכום

כמו שצוין קודם – השורה התחתונה במאמר היא המיקוד של הניתוח.
מה שבאמת חשוב בניתוחים מסוג כזה הוא להתחיל להפעיל את ה-Common Sense, כי בסופו של יום – זהו הכלי הכי חשוב שלנו כאנליסטים. יותר אפילו מהיכרות טכנית עם כלי זה או אחר.
אימון של "השריר" הזה – חשיבה אנליטית – הוא שמבדיל בין אנליסט בינוני לאנליסט תותח.
זה נכון אפילו יותר אצל Data Scientist שמפתח אלגוריתמים מורכבים – שנוטים להיות מאוד רגישים להנחות עבודה והגדרות.
לעתים קרובות, התוצאה של הסתכלות טכנית מאוד על הנתונים היא חוסר תקפות של המודל/ניתוח.
ובמקרים רבים – הגורם היחיד שיכול למנוע תוצאות לא הגיוניות הוא בדיוק היכולת האנליטית והיכולת לתת הקשר עסקי-תהליכי לנתונים.

אז בשביל לסיים את המאמר בתרגול – אעביר את הכדור אליכם:
מה אתם חושבים על הממצאים ועל הפרשנות? האם יש לכם פרשנות אחרת למה שהוצג?

אם כן – מצוין! אתם בדרך הנכונה.

 

השארת תגובה