מזל טוב! התחלת את צעדיך הראשונים בתור מדען נתונים.
התיישבת על הכסא בעמדה שלך, נכנסת למחשב, העלית את הטבלה ששלפת לצורך ניתוח.ומה עכשיו? איך מתחילים לנתח נתונים?אז קודם כל, ניתוח נתונים הוא מקצוע, וכמו בכל מקצוע – יש מסלול ארוך מאוד שנדרש לבצע עד שמפתחים בו מיומנות.
שפר עליך מזלך, והמקצוע שבחרת הוא אחד המקצועות המורכבים ביותר כיום.
מדוע אתה שואל?
ובכן, בשונה ממה שהיה קיים עד לפני 10 שנים, אנחנו חיים בעידן שבו הנתונים הפכו למצרך בסיסי.
כל אחד מאיתנו יכול לאסוף נתונים בהיקף ובקצב גבוה מאי פעם, והנתונים זמינים וממתינים לנו.
הידע של העולם נמצא במרחק נגיעה, ונתונים מ-Wikipedia, Twitter, Facebook, LinkedIn, Google, YouTube, Github ואחרים הם רק קצה הקרחון.וכשהשגת הנתונים הופכת לקלה כ"כ, הדגש בתהליך מופנה לשאלה מה עושים עם הנתונים.
למען האמת, קיימים אינסוף יישומים אפשריים לנתונים – כך שהאפשרויות הן מצד אחד הן אדירות. מצד שני, עודף הנתונים גורם לרוב האנשים לקושי אמיתי במיקוד של מה לעשות קודם – וזו הבעיה הגדולה ביותר בתחום – הצפה של נתונים, בצורת של מידע – מרוב נתונים לא רואים את הערך העסקי.
הבעיה נוגעת בכולם – החל מסטארט-אפים וכלה בחברות ענק.
וכאן בדיוק נכנס לתמונה מדען נתונים – המקצוע שלנו.
להלן 8 טיפים חשובים עבור כמעט כל אנליסט נתונים / מדען נתונים – מתחיל או מנוסה – על מנת למקד את יכולותיו ביצירת ערך עסקי מהותי מתוך הנתונים הקיימים בארגון.
SQL First, NoSQL Later
אחד הצעדים הראשונים של כל מדען נתונים הוא ללמוד על בוריה את שפת SQL.
חשוב להתחיל בלימודי ה SQL כבר בתחילת הקריירה – זהו הבסיס לכל עבודת תחקור וניתוח נתונים בה אתה הולך לעסוק; ידיעת השפה תאפשר לך תוך זמן קצר יכולת להציג תוצאות ותובנות.
חשוב לציין, כי גם בעידן ה-Big Data, בו צצות חדשות לבקרים טכנולוגיות חדשות לבסיסי נתונים, אקסל ו-SQL הם עדיין הכלים הבסיסיים והנפוצים ביותר לניתוח נתונים.
ברוב המוחלט של הארגונים, בין אם מדובר בסטארט-אפ, או בין אם מדובר בבנק, ייעשה שימוש בשני הכלים הללו באופן מהותי. בנוסף, סביר מאוד להניח שיישומים רבים של ניתוח נתונים ימשיכו להתבסס על מבנה טבלאי בסיסי, כך שמוקדם להספיד את שפת ה-SQL, ואת כלי ה-SQL הבסיסיים.
בחברות אינטרנט בינוניות ומעלה, בהן קיימת תשתית Big Data המטפלת בהיקפי הנתונים הגדולים, יהיו בסיסי נתונים שאינם במבנה הטבלאי המוכר (NoSQL Databases). גם בהם, עדיין מומלץ עבור כל מדען נתונים ללמוד את הבסיס של תפיסת הנתונים הטבלאית – ורק לאחר מכן לעשות ממנה הסבה לתפיסות אחרות – גם לצורך הבנה מעמיקה של התחום, וגם לצורך ניתוח הנתונים עצמו, שכמעט תמיד מתבצע מתוך טבלה.
להקשיב לאנשי הביזנס
חשוב תמיד לזכור, שכל נתון הנשמר במערכת כלשהי, הוא תוצר של התנהגות של אדם או מערכת, תהליכי עבודה ותהליכי זרימת נתונים.
מעבר להתנהגות, אותה אתה חוקר בתור מדען נתונים, קריטי לקחת בחשבון גם את תהליכי העבודה בארגון, ואת הנחות העבודה ותפיסת העולם של מי שקבע אותם.
אנשי הביזנס, השיווק, התפעול וה-Support עושים עבודה יומיומית על מנת להגדיל את פעילות הארגון – ובסופו של יום זה ישתקף בנתונים שאנו חוקרים.
לרוב, הם מכירים הכי טוב את לקוחות או פעילויות הארגון, חיים את הנתונים ברמת המיקרו, ויכולים לסייע רבות למדעני הנתונים באפיון נכון של מאפיינים ודפוסי התנהגות.
חשוב לזכור, כי בסופו של דבר כל מחקר נתונים צריך לתמוך בפעילות העסקית ובאנשים העוסקים בכך, ולכן מומלץ להיעזר בהם כמה שיותר להבנת ההקשר העסקי של הנתונים, ובמילים אחרות: ניתוח מערכות.
הדרך בה מעבירים את התובנות חשובה לא פחות מאשר התובנות עצמן
לעיתים קרובים מוצא את עצמו מדען נתונים טיפוסי בסיום מחקר מרתק, כאשר אינו מצליח להעביר את תוצאותיו למנהלים – שאמורים להבין מה לעשות איתן.
מיותר לציין, כי המחקר האמור יסיים את דרכו בתור מסמך סיכום – שרק יתפוס מקום בדיסק ולעולם לא יוטמע בארגון.
לא בכדי הומצא המונח 'מחקר ופיתוח' – מחקר שמטרתו להציג ערך רב לחברה חייב להגיע בשלב מוקדם ככל הניתן למימוש במערכות ובתהליכי העבודה בחברה.
לצורך כך, חשוב ביותר שכל מחקר יוצג בצורה מספיק פשוטה למנהלים – על מנת שיבינו את הערך העסקי הטמון בו, ויתעדפו את משאבי הארגון לטובת הטמעתו.
מומלץ עבור כל מדען נתונים לעשות צעד לא טריוויאלי, ולפתח, במקביל לצד המקצועי, יכולות הצגת תובנות מול מנהלים בכירים.
Keep It Simple and Stupid
אחת התופעות הנפוצות ביותר בתור מדען נתונים, היא לחפש אלגוריתם או שיטה סטטיסטית מתוחכמת, שתביא ליכולת חיזוי גבוהה יותר.
מצד אחד, אין בכל פסול – כמובן שנרצה לשפר את היכולות. ומצד שני, חשוב לא פחות להעריך את יחס העלות-תועלת של המהלך, והאם הפתרון המשופר עדיין תומך בתהליך העסקי.
במקרים רבים מאוד, בשם המחקר הסטטיסטי נוטים החוקרים לשכוח את המטרה העסקית, ולכפות שיטה מורכבת מדי לבעיה פשוטה – שעשויה אפילו להסיט את המיקוד מבעיות מהותיות יותר (לדוגמה: שינוי ב-Target Audience של החברה, בתהליכי העבודה או העלאת גרסה – שייצרו הטיה בנתונים ועשויים לגרום לתוצאות שגויות – Garbage In Garbage Out).
ברוב המקרים, יהיה עדיף להשתמש בשיטה סטטיסטית פשוטה שנותנת פתרון מידי, קל לזהות בה שגיאות ולבחון את הנחות העבודה שלה, ולתקשר אותה למנהלים, מאשר שיטה מתוחכמת ומורכבת, שיהיה קשה לממש אותה, לבדוק אותה ולצאת איתה לשוק באופן מהיר.
העולם המופלא של קוד פתוח
אחת המגמות המהפכניות ביותר בשנים האחרונות היא קוד פתוח. אם עד לפני 10 שנים רק ארגונים גדולים יכלו להרשות לעצמם להקים בסיס נתונים ויישומי BI מתקדמים, הרי שהיום כל אחד יכול להקים כמעט כל פתרון שירצה.
בנוסף, בתשלום מזערי אפשר להעלות את הפתרון על שרת מפלצתי ב-Cloud – ולקבל כוח חישוב המתקרב בעוצמתו לזה של ענקיות אינטרנט כמו Facebook.
בין כלי קוד פתוח, כמו גם כלים חינמיים אחרים, ניתן למצוא את R – שפה לניתוח סטטיסטי, Python כשפת סקריפט, בסיסי נתונים MySQL או SQL Server Express, ועד לכלי Big Data כמו Hadoop, MongoDB, Elasticsearch ואחרים.
שימוש בקוד פתוח הוא לעיתים מורכב, ודורש גמישות מחשבתית רבה, יכולת לימוד עצמי גבוהה וזמן, אך ללא ספק התועלת בכניסה לתחום עבור כל מדען נתונים עולה בסדרי גודל על האתגרים, ויפה שעה אחת קודם.
היכולת ללמוד לבד
סוגיית הלימוד העצמי כבר הוזכרה, ועדיין – היא אחת הקריטיות עבור כל מדען נתונים כיום.
עידן המידע ועליית כלי קוד פתוח גרמו לתוכן מקצועי לצמוח למימדים בלתי נתפסים. כיום, אפשר להניח באופן יחסית ודאי, שכמעט כל בעיה בה ניתקל במהלך הקריירה – כבר עלתה בעבר אצל מישהו אחר בעולם, והפתרון עבורה מתועד אי שם בעולם הוירטואלי. הדבר נכון לא פחות בכל הנוגע ללימוד טכניקות, מתודולוגיות, שפות או כלים חדש שצף הצורך להיחשף אליהם. מומלץ להצטרף ולהשתתף בפורומים מקצועיים, אתרי שאלות ותשובות (דוגמת Quora ו- Stackoverflow), וסרטונים שיסייעו ללמוד בקלות.
אפשר לעשות הכל לבד, אבל יש לזה מחיר
כאשר ניתן למצוא כלי כמעט לכל צורך, וללמוד אותו בעצמנו, אנו עשויים לקבל את התחושה שאפשר לעשות הכל לבד – בין אם מדובר במחקר, פתרון קוד נקודתי או מערכת.
התחושה הזו אכן נכונה. ועדיין, ישנם שני מחירים עיקריים לביצוע משימות מקצה לקצה לבד: רמת המקצועיות של הפתרון, הגורמת לזמן מימוש ארוך, ואובדן יכולת המיקוד במהות הפתרון – כנובע מהצורך לסגור את הצד הטכני מקצה לקצה.
חשוב ללמוד לסגל הרגלים של התייעצות עם מומחים לכל רכיב בפתרון אותו אנו הוגים, מדען נתונים טוב יודע להחליט במה כדאי עבורו להתמחות, ובמה כדאי לו להיעזר באחרים.
החוליה החזקה בשרשרת
אנשי הביזנס ואנשי הטכנולוגיה חיים לעיתים בשני יקומים מקבילים. לאחד יש תפיסת עולם מאוד 'רכה' ומפוזרת, ולשני תפיסה 'קשה' ומובנית, האחד מדבר 'ביזנסית', והשני מדבר 'מחשבית'. קשה מאוד לאחד להבין את השני, מה שגורם לפער מובנה בתהליכי העבודה וקבלת ההחלטות בארגון, ומתורגם לחוסר יעילות.
מאחר ונתונים הם מהנכסים היקרים ביותר בארגון, אחד התפקידים העיקריים של מדען נתונים, הוא להכיר את שתי השפות, להיות מסוגל לדבר עם שני הגורמים ולתווך ביניהם. לעיתים קרובות, בשינוי קטן מאוד של דרישה עסקית לא קריטית, נוכל לקצר זמן פיתוח במספר חודשים, לחסוך כסף רב ולצאת לשוק בזמן מהיר ביותר.
אם נשכיל ונדע לבצע ניתוח מערכות כראוי, וכך לתווך בצורה טובה בין שני הצדדים, נוכל להקפיץ מדרגה את רמת החדשנות – אשר ארגונים גדולים משוועים לה.
סיכום
מקצוע מדען הנתונים הוא אחד מהמקצועות הכי צומחים והנחשקים ביותר בשנים האחרונות, כאשר עפ"י מספר חברות, בראשן 'גרטנר' ו-'מקינזי', צפוי במהלך השנים הקרובות מחסור מהותי באנשים עם הידע הדרוש להפוך את הנתונים הרבים לבעל ערך עסקי.
בחרנו במקצוע הנכון, ואנחנו חיים בזמן הנכון. עכשיו נותר לנו לסגל את ההרגלים הנכונים על מנת להוציא מעצמנו כמה שיותר ולהצעיד קדימה את עולם המידע.
אני לפני הלימודים האקדמאיים והייתי מעוניין לדעת מה עלי ללמוד באקדמיה על מנת לעסוק במדע נתונים. איזה מסלולים עליי לבחור, האם אצטרך השלמות רבות מלבד התואר, מה האוניברסיטה הממולצת, האם יש ערך לתואר שני בתחום? כמו כן אני מתלבט בין מדעי המחשב/הנדסת מערכות מידע בטכניון לבין מסלול לתואר שני (5 שנים) בבאר שבע בהנדסת מערכות מידע (בהתמחות בכריית נתונים ומידע). מה הייתם ממליצים? תודה!