ט"ו באב עבר חלף לו בחמישי האחרון, ואיתו עוד שנה של הרבה רווקות ורווקים שעדיין לא מצאו את החצי השני שלהם.
ובתור רווק תל אביבי גם עבדכם הנאמן מכיר את כל הסיפורים והסטיגמות על תל אביב.
וגם אשקר אם אטען שלא "השתעשעתי עם הרעיון" להישאר בת"א או לעזוב.
אז אחרי שחבר שלח לי כמה נתונים של הלמ"ס לגבי אחוזי הרווקים בארץ, החלטתי לקחת את הנושא צעד אחד קדימה – ולהעביר דרכו דוגמה לאיך פרויקט אנליטי וניתוח נתונים יכולים לשנות חיים של אנשים.
ובמילים קצת יותר ברורות:
לנסות לתת תשובה יותר מבוססת לשאלה האם מקום המגורים אכן משפיע על הסיכוי למצוא זוגיות? (או האם כדאי להמשיך לגור בת"א…)
התשובה במאמר!
(לפני שנתחיל – חשוב לי להדגיש, שהמטרה של הפוסט היתה לתת כיוון ראשוני לשלבים של פרויקט אנליטי ודרך חשיבה אנליטית בשביל למדל בעיה.
לאור זאת, הממצאים לא נכונים בהכרח, מאחר והם מתבססים על נתונים מוערכים וחלקיים, ועל הנחות עבודה שאינן בהכרח נכונות, שלמות או תקפות.
זה כמובן נכון כמעט לכל פרויקט אנליטי – שבו תמיד יש Trade-off בין רמת הדיוק והעומק של הניתוח, לבין היכולת להוציא אותו לפועל בזמן סביר.
לכן – בהחלט ייתכן שהממצאים והמסקנות לא בהכרח נכונים וישתנו אם נוסיף לניתוח מידע נוסף.)
פרויקט אנליטי: מה אפשר לעשות עם נתונים יבשים על רווקים ורווקות?
השלב הראשון בכל פרויקט אנליטי מתחיל עם רעיון.
במקרה הזה – מאחר והניתוח מבוסס על נתוני למ"ס – חשוב היה להבין בדיוק אילו נתונים קיימים.
http://cbs.gov.il/reader/newhodaot/hodaa_template.html?hodaa=201811220
לאחר חיפוש קצר, הגעתי לנתונים האמורים, והיו כמה כאלה:
- אחוז רווקים ורווקות ביישובים מעל 10,000 איש בגילאי 25-29 ובגילאי 45-49.
- פער הגילאים בין החתן והכלה לזוגות בנישואין ראשונים
היו עוד מספר נתונים, אבל אלה העיקריים.
(מקור: אתר הלמ"ס).
בין הנתונים היבשים הללו עלו כמה ממצאים מאוד מהירים:
דבר ראשון – מעיון בנתוני אחוז הרווקים בגילאי 45-49 עולה, שת"א, גבעתיים ורמת גן "מככבות" בראש הרשימה גם עבור גברים וגם עבור נשים:
ת"א עם כ-29% רווקים בגילאים האלה, וכ-26% רווקות, גבעתיים עם כ-22%-23% ורמת גן עם כ-20%.
מאחר וההשערה הראשונית היא שהסבירות להתחתן בגילאים האלה כבר יחסית נמוכה – כנראה שהערים הללו מייצגות אחוז גבוה של רווקים – שכנראה כבר לא יתחתנו בעתיד.
רק לצורך ההשוואה:
קיימות ערים, שבהן אחוז הרווקים בגילאים האלה נמוך יותר בחצי – כמו רעננה, כפר סבא, פתח תקווה, רמת השרון, ראשל"צ וערים אחרות.
אז האם לחיות בת"א באמת מוריד לי את הסיכוי להתחתן?
יכולים להיות לא מעט הסברים אפשריים למצב של אחוז רווקים גבוה בגילאים "מאוחרים":
מצד אחד: יכול להיות שמשהו בערים הללו יוצר סביבה שבה נוטים הרבה פחות להתחתן (אולי כתוצאה משפע גדול מדי של בני זוג אפשריים).
מצד שני: יכול להיות שמראש מי שמגיע לגור בערים הללו לא רוצה להתחתן.
מצד שלישי: יכול בכלל להיות שתמונת המצב היא תוצאתית;
מי שלא הצליח להתחתן לאחר שגר ביישוב אחר – מגיע לגור בת"א – אולי אפילו בלי כוונה למצוא זוגיות אלא פשוט לגור בה;
או שאולי דווקא באים לת"א, מוצאים שם זוגיות ואז עוברים ליישוב אחר (כי לגור בת"א עם משפחה זה מאוד יקר).
אפשרות נוספת, היא שיש הרבה אנשים בת"א בגילאים הללו המקיימים זוגיות קבועה אך בלי חתונה, זוגות חד מיניים וכיו"ב.
ודאי קיימות עוד שלל סיבות אפשריות – אבל אלו העיקריות שעלו לי…
התשובה לא ברורה, והדבר היחיד הבטוח הוא שכל אחת מהאפשרויות אכן תורמת לממצא…
אבל כאן נמצאת אחת מהתובנות החשובות לגבי מקצועות ניתוח הנתונים:
כנראה שממצאים או נתונים ראשוניים לא יאפשרו להגיע למסקנה חד משמעית.
במצבים כאלה – מה שבאמת חשוב הוא להימנע מלקפוץ למסקנות נמהרות שאינן בהכרח נכונות;
במקום זה – חשוב להתמקד בהעלאת השערות שנוכל לבדוק בהמשך באמצעות ניסויים בעולם האמיתי.
אז החלטתי להמשיך עם ההשערה הראשונה, ולהניח שבת"א יותר קשה למצוא זוגיות מאשר במקומות אחרים מסיבה סביבתית.
ובהינתן ההשערה הזו – לבדוק לאיזה יישוב הכי כדאי לעבור – בשביל למקסם את הסיכויים למצוא בן/בת זוג.
הדרך האנליטית לבחור מקום מגורים
אז אחרי שהחלטתנו לבדוק את הסוגיה כמו פרויקט אנליטי, השלב הראשון הוא לחשוב על איך עושים את זה, או במילים אחרות – על המתודולוגיה.
אז כמו בכל פרויקט אנליטי – צריך קודם כל לחשוב על המטרה.
ובמקרה הזה – המטרה היא למצוא את היישובים, שבהם סיכוי מציאת הזוגיות היא הגבוהה ביותר.
או במילים אחרות – איפה נקטין בצורה המשמעותית ביותר את הסיכוי להישאר רווקים בגיל מאוחר (45-49).
אבל כמו שראינו קודם, יש הרבה סיבות אפשריות הגורמות ליישוב מסוים להיות "גן עדן לרווקים", או אולי דווקא "גיהנום למציאת זוגיות".
הגורם הבעייתי ביותר הוא סוגיית הסיבתיות. במקרה הזה – עובדתית התוצאה היא שאחוז הרווקים בת"א הוא גבוה מאוד ביחס לכל יישוב אחר.
אך האם זה באמת אומר שבכל יישוב אחר – שבו אחוז הרווקים נמוך – הסיכוי למצוא זוגיות הוא גבוה יותר? בכלל לא בטוח.
מה קורה, לדוגמה, אם באותו היישוב יש יותר גברים מנשים? במקרה הזה, ייתכן שיש עזיבה של היישוב מצד נשים – ואז לא ממש יעזור לשקול לעבור אליו…
המסקנה המתבקשת: צריך להסתכל על גורם נוסף – של יחס הגברים-נשים בקבוצת הגיל הרלוונטית באותו היישוב;
היכן שיש יחס עדיף עם אחוז רווקים/ות נמוך בגילאים 45-49 – לשם נרצה לכוון.
מדוע? פשוט – היצע וביקוש
כאשר יש יותר גברים מנשים במקום מסוים נוצרת תחרות גדולה יותר בין הגברים על כל אישה – מה שגם משפר את הרצון של הגברים לזכות בה, וגם מאפשר לאישה לבחור את בן הזוג המתאים לה ביותר. במילים אחרות – הערך שלה עולה.
כמובן שהכלל הזה נכון גם לגברים.
בשלב הזה חלקכם ודאי שואל מה לגבי גרושים וגרושות? הלא הם יכולים לשנות את התמונה…
אז אתם צודקים – הדבר הכי מדויק לעשות היה לקחת רק את אחוז הרווקים בכל קבוצת גיל בכל יישוב.
אבל חיפוש זריז באתר הלמ"ס לא העלה נתון זמין כזה (נתון כזה קיים רק ברמת סה"כ ארצי – ללא פילוח ליישובים – ובעייתי להפעיל אותו ברמת יישוב כי בודאות קיימות שונות בין היישובים – כמו שראינו בגילאים 45-49).
לכן, החלטתי להסתפק ביחס הכולל של נשים מול גברים בכל יישוב.
המספרים האלה יחסית אמינים (מבוססי למ"ס ויחסית גדולים), ולכן היחס הזה יוכל לשקף ממצא משמעותי.
בשלב הזה פשוט נניח שאחוז הגרושים ביישוב מסוים הוא עם מתאם גבוה לאחוז הרווקים, ונניח שחישוב יחס הגברים והשנים ברמת סה"כ ייתן כיוון מספיק טוב עבור ניתוח ראשוני.
(בעתיד הרחוק מאוד נבדוק את הנושא יותר לעומק – עם אחוז הרווקים/ות בכל יישוב).
אז איך אפשר לחשב את יחס הנשים והגברים לפי יישוב?
בשביל זה צריך לחפש קצת יותר באתר הלמ"ס.
חיפוש מהיר החזיר בדיוק נתון כזה – אמנם נכון ל-2016 – אבל עדיין מספיק טוב בשביל הניתוח שלנו.
http://www.cbs.gov.il/reader/cw_usr_view_SHTML?ID=629
סוגיה אחרונה בשלב המתודולוגיה היא להבין האם נכון להשוות את יחס הגברים לנשים בקבוצת גיל מסוימת;
בהיבט הזה – אולי צריך להשוות קבוצות גילאים שונות, שהרי גיל החתונה הראשונה שונה בין גברים לנשים (הפרש הגילאים הממוצע עומד על כשנתיים לטובת הגברים).
חיפוש זריז בלקט הנתונים לט"ו באב (הלינק מקודם) – יציג לנו את התפלגות הפרשי הגילאים.
ניתן לחשב בקלות שבכ-80% מהמקרים ההפרש עומד על עד 5 שנים לטובת הגברים (כאמור – הממוצע הוא כשנתיים).
בשביל לנטרל הטיות של קבוצות גילאים והפרש גילאים בחתונה – נחשב יחס עבור טווח הגילאים 30-34 ועבור הטווח 35-39 בנפרד.
אם נזהה עקביות ביחס – נוכל להסיק שהפער אכן עקבי בין גברים לנשים.
זה כמובן "כלל אצבע", אך במסגרת הנתונים הוא מתקבל על הדעת.
אפשר כמובן להרחיב ולהעמיק את הבדיקה בעתיד עם גילאים מעט מדויקים יותר.
ואחרי ה'חפירות' – עכשיו לחלק המעניין…
בשביל לזהות את היישובים "המעניינים", ניקח את קובץ האקסל של האוכלוסייה ביישובים לפי גיל ומין, ונסנן יישובים בעלי מעל ל-10,0000 תושבים.
לצורך הדוגמה, ניקח את הגילאים 30-39 בכל יישוב ונחשב את היחס בין גברים לנשים.
לאחר מכן – ניקח רק את היישובים בעלי היחס העוצמתי ביותר לטובת נשים או גברים, ונסנן שוב יישובים שבהם יש פער נמוך בין מספר הגברים למספר הנשים.
לבסוף – נוסיף עבור כל יישוב את אחוז הרווקים בגילאים 45-49 כמנבא את הקטנת הסיכוי להישאר רווק – ונוכל לקבל החלטה לאיזה יישוב הכי כדאי לעבור.
מאחר התפקיד של דאטה אנליסט הוא לא רק לספק נתונים, אלא גם להעביר את הממצאים והמסקנות בצורה ברורה – החלטתי "לווזוול" (תרגום מאנגלית – "to visualize") את הממצאים לתרשים על היישובים המעניינים (מומלץ לצפות במחשב ולא במובייל, אפשר ללחוץ על כל אחד מהעיגולים לפרטים נוספים):
הסברים לגבי התרשים:
- ציר X של התרשים מתאר כמה גברים יש יותר מנשים כחלק יחסי מאחוז הנשים. או למי שאוהב נוסחאות: כמות הגברים לחלק בכמות הנשים בגילאי 30-39 – פחות 1.
- ציר Y של התרשים מתאר את הסיכוי להישאר רווק/ה אחרי גיל 45 (נתוני טווח הגילאים 45-49, נניח שאין נישואין לאחר מכן).
- הנתונים נחלקים ל-3 קבוצות: יישובים עם חוסר בגברים (בכחול) – בהם הפער בין נשים לגברים הוא מעל 5% ; יישובים עם חוסר בנשים (באדום) – בהם הפער בין גברים לנשים הוא מעל 5%; ויישובים עם מספרים דומים (הפער בין גברים לנשים הוא בטווח 5% אחד מהשני).
- עבור נשים – היישובים המעניינים הם אלה עם המחסור בנשים (אדום) ובעלי אחוז רווקים נמוך; עבור גברים – היישובים המעניינים הם אלה עם המחסור בגברים (כחול) ובעלי אחוז רווקים נמוך.
- גודל העיגול מצביע על כמות התושבים ביישוב.
- בשביל לא להעמיס על התרשים, מופיעים בתרשים רק יישובים בעלי יותר מ-100,000 תושבים, או פער של לפחות 7.5% בין הנשים לגברים.
אז עבור רווקים בגילאים 30-39 התמונה יחסית ורודה עם הרבה מאוד יישובים שבהם רוב נשי מובהק. הנה כמה דוגמאות מייצגות:
בשביל לסכם את הממצאים עבור רווק תל אביבי טיפוסי – כנראה שאם יעבור לגור בגן יבנה – הוא יקטין את הסיכוי שיישאר רווק תוך 10 בלא פחות מפי 10. בנוסף, מאחר ועל כל גבר יש בגן יבנה 1.27 נשים – תהיה לו יכולת בחירה גבוהה מאוד בבת הזוג המתאימה לו ביותר.
הכל כמובן ברמה הסטטיסטית…
ומה לגבי הנשים?
אז כאן העניינים נהיים קצת פחות ורודים…
הממצאים מפתיעים למדי, כאשר לא היו כ"כ הרבה ערים עם רוב גברי ברור בגילאים 30-39.
הערים בעלות הרוב הגברי נחלקות ל-2 סוגים שמיד קופצים לעין:
- ת"א.
- פריפריה ועיירות פיתוח.
ומאחר והממצאים מאוד חדים כאן, עולה השאלה מדוע רק בעיירות הפיתוח ישנו רוב כל כך מהותי של גברים: אולי הנשים שם מחפשות עתיד במרכז? בעיות תעסוקה של הגברים? משהו אחר?
התשובה לא ברורה, וזו נקודה חשובה (ואפילו מטרידה מאוד ברמה לאומית) ששווה להעמיק בה במחקר נפרד.
אבל הממצאים ברורים: אם את בגיל 30-39 – כנראה שהמקומות היחידים שבהם הגברים יתחרו עלייך הוא או בת"א או בפריפריה. בת"א זה כנראה לא יוביל לחתונה (שיאנית אחוזי הרווקים והרווקות בארץ בגילאי 45-49), בהנחה שהנתונים אמינים (קיימת השערה שיש בת"א הרבה מאוד גברים מקהילת הלהט"ב וזה מה שגורם לכאורה למחסור בנשים, שווה לבחון אותה בעתיד).
מה שמשאיר אותנו עם הפריפריה – ושם כנראה גם יתחרו עלייך הרבה גברים, והם גם ירצו שזה יוביל לחתונה. העניין הוא שפריפריה לא מתאימה לכל אחת…
מה עושים עכשיו?
אז ראינו שמבחינת הנשים אין הרבה מה לעשות – מקום המגורים יכול להקטין את הסיכוי להישאר רווקה, אבל אין מקום שיהיה אפשר לבחור מתוכו את האביר על הסוס הלבן.
שוב – הכל בהיבט הסטטיסטי. אפשר כמובן להתנחם בעובדה שמדובר בלא יותר מאשר פרויקט אנליטי;
בשורה התחתונה לא הכל ניתן למידול באמצעים כמותיים – כמו הגישה והרצון שלנו למצוא זוגיות.
במילים אחרות – לעיתים המציאות מתעלה על כל סטטיסטיקה…
אבל זה שהנתונים לא ממש עוזרים לנשים לא אומר שאין מה לעשות.
אז גברים – קדימה, הכדור בידיים שלכם: הגיע הזמן לעבור לערים שבהן יש הרבה נשים.
זה יעשה כנראה טוב גם לכם וגם להן, בין אם אתם מבינים סטטיסטיקה ודאטה – וגם אם לא.
וברמה האישית – אני חייב להודות: פתאום לעזוב את ת"א לא נשמע נורא כל כך…
בהצלחה!
חשוב להדגיש: הנתונים הם נתוני למ"ס, הכוללים הערכות ואומדנים, ואינם בהכרח תואמים למציאות – כמו בכל פרויקט אנליטי טיפוסי.
בנוסף – חלק מהניתוחים עשויים להיות לא מדויקים ו/או נכונים תחת הנחות עבודה מסוימות שאינן בהכרח משקפות את המציאות. לכן הם עשויים להוביל למסקנות שאינן חד משמעיות או נכונות בכל מצב.
השימוש במסקנות הוא באחריותכם בלבד (וכמו תמיד – בהתאם לתקנון האתר…)
לינקים לנתונים נוספים:
- פער הגילאים בין החתן לכלה בנישואין ראשונים 2016 – http://www.cbs.gov.il/hodaot2018n/11_18_220t4.pdf
- אחוז הנשארים רווקים לפי גיל ושנה – http://cbs.gov.il/publications17/1693/pdf/t04.pdf