'מרוסיה באהבה' – כיצד לנטרל נתונים חריגים וספאם בגוגל אנליטיקס

user country anoamlyהאם נתקלת לאחרונה בגוגל אנליטיקס של האתר שלך בנתונים מוזרים של גולשים מרוסיה או ממדינה אחרת – שאינך יודע/ת להסביר?
את/ה לא לבד. לאחרונה אני פוגש יותר ויותר שאלות של בעלי אתרים, הנתקלים בגוגל אנליטיקס שלהם בביקורים של גולשים, שהקשר בינם לבין תוכן האתר אינו ברור. הגולשים החריגים מגיעים לרוב ממדינות מתפתחות, והתנהגותם משקפת דפוסי גלישה 'אנושיים' לכאורה – מספר דפים בביקור, עם משך זמן של מספר דקות שונה בכל ביקור – מה שהופך את התופעה למסתורית אף יותר.

התופעה מהווה תזכורת לצורך החשוב בבקרת איכות הנתונים של אתר האינטרנט שלנו, מאחר והם מהווים בסיס לקבלת החלטות נכונות ומדויקות שלנו כבעלי עסקים.

גשש בלש בפעולה

למען האמת – נתקלתי באופן אישי בתופעה לפני כחודשיים, מה שגרם לי להסתקרן מאוד. לאחר בדיקה ועיון במספר רב של פורומים, להלן תרחיש סביר להסבר התופעה.

המדובר בתופעה הנקראת Referral Spam, והיא עובדת באופן הבא:
user city anoamly 1גורם מסוים (במקרה זה – ביישוב בשם Samara Oblast ברוסיה) ככל הנראה מגריל מספר אקראי של קוד גוגל אנליטיקס – המוכר לנו מקוד ה-Javascript אשר שתלנו ב-header של האתר.

לאחר מכן הוא שותל את הקוד באתר דמה שלו, ומתחיל ליצור Pageviews מזויפים. מאחר וגוגל אנליטיקס מאפשר לשתול
את הקוד הייחודי של כל משתמש במספר אתרים (לדוגמה – באתר ובדפי נחיתה הקשורים אליו) – הוא לא מנטרל את הנתונים האלה והם נכנסים לסטטיסטיקות המשתמשים הנורמליים באתר.

אז מה האינטרס של יוצר הספאם? ובכן, בתור בעלי האתר אנו סקרנים מאוד לגלות את מהות הביקורים החריגים, וכאשר אנו בוחנים את ה-Referral של הצפיות בדף, אנחנו מוצאים לינק מוזר מאוד, ולאחר שאנו לוחצים עליו – אנו מופנים לאתר מסחר אלקטרוני מסוים. ברגע שהתהליך בוצע – יוזם הספאם נהנה מתשלום עבור הקליק…
איך מתמודדים עם התופעה?

קודם כל חשוב לסנן או לצבוע את ה-Pageviews הבעייתיים ולנכות אותם מהסטטיסטיקות. אם האתר בעברית – אז אפשר פשוט לסנן לפי מדינה.
אם האתר מכוון לשוק הבינ"ל, אפשר לסנן את העיר Samara Oblast. לאלו מבינכם החוששים מאיבוד תנועה אמיתית – בדיקה קצרה מעלה שהמחוז הזה נמצא במקום 11 מבחינת גודל האוכלוסייה ברוסיה (מעט יותר מ-3 מיליון תושבים) – כך שאובדן התנועה האמיתית יהיה ככל הנראה מינורי.
מומלץ לסנן לפי ספק השירות של הגולש (Service Provider), או ה-Referral שלו.

איך מתמודדים עם התופעה בטווח הארוך? חשוב לבחון באופן תכוף את ה-Pageviews על פני מספר רב של מימדים, ולאתר ולסנן ממצאים שאינם נראים הגיוניים. להלן מספר דוגמאות לאופן זיהוי ממצאים חריגים:

  • מספר רב יחסית של Pageviews בעלי תכונה שהסבירות שתתרחש – נמוכה.
    בדוגמה שציינתי לגבי Samara Oblast עבור הבלוג 'אנשי נתונים' – הרבה משתמשים מעיר מסוימת, שלא סביר שיש בה ריכוז של קהל היעד הרלוונטי (אלא אם כן פתחו קהילה של ישראלים לשעבר במרכז רוסיה, שהם גם חובבי תחום האנליטיקס…)
  • דפוס פעולה החוזר על עצמו (לדוגמה: ביקור אחד ליום בעמוד אחד בלבד, מספר רב של סשנים כאשר בכל אחד מהם ה'יוזר' מבקר בדף אחד בלבד). בדרך זו איתרתי את התופעה לאחר 3 ימים (בהתאם למשפט הצבאי הידוע: "פעם ראשונה – מקרה; פעם שניה – צירוף מקרים; שלוש פעמים – תופעה").
  • משכי ביקור עם זמן ממוצע באתר = 0 בחתך של תכונה מסוימת (לדוגמה: עיר) צריכים להעלות חשד מסוים.
  • Refferals שאינם מוכרים.
  • "מצפון תיפתח הרעה" – קיימים איזורים ה'מועדים לפורענות' מבחינת יצירת נתונים מזוייפים – בעיקר מדינות מתפתחות. תנועה מהמדינות הללו צריכה להיבחן באופן קפדני יותר מאשר יתר האיזורים.
  • אם מזהים נתון חריג ממדינה מסוימת, ניתן להשוות אותו ליתר האיזורים באותה המדינה. אם מזהים 'פיק' למול יתר האיזורים – סביר מאוד שמדובר בנתון פיקטיבי.

סיכום

הנתונים הם חומר הגלם החשוב ביותר שיש לרשות כמעט כל ארגון היום.
שימוש בנתונים לא מטויבים, או בנתונים הרגישים לטעויות, רעשים, ספאם או עיוותים, עשויה להוביל להסקת מסקנות לא נכונות, ולנזקים לא מבוטלים כתוצאה מכך.

חשוב לנהל תהליך מסודר של בקרת איכות הנתונים באופן מובנה ובתדירות גבוהה, ולעשות שימוש במתודולוגיות אפקטיביות לזיהוי בעיות בנתונים וטיפול בהן. תהליך כזה יאפשר תהליך קבלת החלטות המבוססות על על נתונים אמינים ומדויקים – ויוביל להחלטות נכונות אשר יובילו את העסק קדימה.

 

2 תגובות
  1. יוני להגיב

    נחמד מאוד! שאלה רלוונטית: בעיה קונקרטית שאני רואה כרגע היא Bounce Rate גבוה משמעותית למדינה מסוימת. בתאוריה, זו יכולה להיות בעיית שיווק או פרסום. בפועל, אני חושד שמדובר בסתם רעש, מה גם שמדובר במדינה מתפתחת.

    גם אם ה-Bounce Rate גבוה מסיבה טובה, אני מעריך שאנחנו מפסידים סכום זניח לגמרי, אבל הייתי שמח לוודא את הבעיה. אבדוק שוב את ה-referrals למרות שאני לא זוכר שם נתון חריג. יש לך המלצות נוספות?

  2. eyal להגיב

    כמה הצעות:
    1. עוד לפני ה-Bounce Rate הייתי בודק קודם כל אם החשיפה במדינה הרלוונטית היא אכן הגיונית (לפי מספר התושבים בה), או גבוהה מדי. אתה מעוניין להתמקד בתנועה המסיבית, ולא במקרי קצה – לכן בשלב הזה שווה לקבוע סף של Pageviews שרק מעליו נתמקד בזיהוי חריגים.
    2. אינדיקציה נוספת לתנועה חשודה היא Bounce Rate כמעט מלא + זמן אפסי באתר.
    3. תבדוק כמה משתמשים ייחודיים יצרו את התנועה (משתמש אחד עם 50 צפיות אמור להעלות חשד).
    4. לאחר מכן לבדוק Refferals – אם אתה מקבל redirect – חשוד מאוד.

    לאחר שעברנו את כל המסננים האלה, אפשר להתחיל לבדוק באופן מעמיק יותר מדוע יש Bounce Rate נמוך עבור הסגמנט החריג – כמובן במידה והסגמנט אכן מעניין אותנו ברמה העסקית.

השארת תגובה