כאן, הצורך בעבודת דאטה מסיבית הופך להכרח, ואותה כבר קשה מאוד ואפילו לא אפשרי לעשות רק בעזרת כלי דוחות וויזואליזציה. הנה כמה דוגמאות:
🛠 יצירת תשתית BI מיושרת עם מודל נתונים יציב.
🎨 דוחות אד-הוק בהם נדרש לאפיין ולממש לוגיקה ייעודית שלא קיימת בתשתית ה-BI. לדוגמה: הגדרת לקוחות נוטשים.
🔮 מודלי ML או Predictive Analytics המחייבים הגדרות ולוגיקות ספציפיות או מבנה נתונים ייעודי.
⚙ לוגיקות מורכבות. לדוגמה:
• חישוב ביצועים בתקופה הקודמת עבור כל לקוח. לדוג': אילו פעולות במהלך השבוע הראשון לפעילות של המשתמש מנבאים המשך שימוש בכלי;
• הגדרת זהויות לקוח – מכשיר מול משתמש (כל משתמש יכול להשתמש באתר בהרבה מכשירים/דפדפנים וכמה משתמשים יכולים לגשת לאתר מאותו המכשיר);
• אגרגציה מורכבת – לדוג': עבור כל לקוח מועד ביקור הראשון שבו קרתה פעולה ספציפית – לא הראשון או האחרון מתוך כלל הביקורים.
✂ טיוב נתונים בהתאם למשימה – אפיון וטיפול בערכים חסרים, חריגים (כמו מיקוד '99999'/,'11111'), ערכי 0, אחוזונים וכיו"ב.
לרוב, אין את זה באופן מובנה בתשתית ה-BI אלא רק את הדאטה הגולמי.
וכאמור, זה יכול להשתנות פר משימה.
חשוב לציין, שעבודת תשתית דאטה מסיבית היא לא התפקיד לא של business analyst ולא של data analyst, אלא של מפתחי BI / Data engineers.
הכוונה בפוסט כאן היא יותר לעבודת אפיון הנוגע לטיוב הדאטה, מחקר עומק שלו והפקת תובנות וערך – ופחות להקמת תשתית הדאטה.