יש כאן מישהו מתל אביב? סטטיסטיקה ושיטות מחקר לעיתונאים
פוסט של ניבה שושי ואייל בר חיים
בעיתונאות האמריקאית קוראים להם “מטריקס” (Metrics), שימוש נבון בנתונים סטטיסטיים כדי להסביר מידע שבדרך כלל לא נגיש לציבור הרחב. הדוגמא היפה ביותר שנתקלנו בה היא זו. אנשי הגרפיקה של מערכות העיתונים הנחשבות יודעים לעשות שימוש בנתונים סטטיסטיים ולגלות מידע חדש. בארץ, לעומת זאת, עיתונאים מעטים (שלא לדבר על אנשי גרפיקה) רואים בסטטיסטיקה כלי עבודה משמעותי.
ההשלכות מצערות במיוחד כשעיתונאים מופגזים בנתונים מספריים, שמופצים להם על ידי דוברים ואנשי יח”ץ: מצד אחד, הם לא מסוגלים לזהות מניפולציות שנעשות עליהם בעזרת הנתונים. מצד שני, הם לא מסוגלים להשתמש בהם בשביל להפיק ממצאים מענייינים. אחד המקרים שחוזר על עצמו בערך פעם בשנה הוא צה”ל ופרסום שיעור הגיוס.
כבר כמה שנים שאנחנו נחשפים לירידה מדאיגה בשיעור הגיוס לצה”ל. מספר המתגייסים והמוטיבציה לשירות קרבי הולכים ויורדים. משנתון לשנתון מתגייסים פחות ופחות צעירים ישראליים לשירות סדיר, ובהתאמה עולים גם שיעורי הפטורים הניתנים מסיבות שונות.
אבל מה שבאמת מדאיג את צה”ל הוא הפערים בחברה הישראלית. על פי הטבלאות והגרפים, ההשתמטות איננה תופעה אקראית, אלא מתרכזת בערים ובתי ספר ספציפיים, ומחלקת את ה”עם” לשתי מדינות: אלו שמשתתפים ואלו שמשתמטים. בראש הכותרות בעיתונים: תל אביב ובני ברק. דוסים ושמאלנים לא מתגייסים ולא מתים מספיק במלחמות.
ימנים משתמטים יותר
כשעיתונאים בוחרים להציג אך ורק את שמות הערים ודירוגם ביחס למספר המתגייסים, הם משתתפים במופע סטנדאפ. שם העיר כבר אומר הכל, אם לא באופן ישיר אז ברמיזה ובקריצה שברורה לכולם. תל אביב של אלוף במילואים אלעזר שטרן היא לא מיקום גאוגרפי, אלא תופעה. תל אביבים הם שם קוד צה”לי לשמאלנים מפונקים שיושבים בבתי קפה וצוחקים על הלוחמים. זו הסיבה שהם לא מתגייסים.
אבל בסטטיסטיטקה אפשר לשחק בהמון דרכים (קובץ הנתונים המלא כאן). לדוגמה, שמאלנים. ככל ששיעור ההצבעה לגוש השמאל-מרכז (קדימה+עבודה+מרצ) גבוה יותר, כך שיעור הגיוס גבוה יותר, גם כשהורדנו ערים חרדיות מאוד (קליק על הגרף לגודל קריא יותר):
או שותי קפה. יש פער של מעל 5% בגיוס לטובת יישובים שבהם יש סניף של ארומה.
אלו נתונים שקריים, לא בגלל שאינם נכונים סטטיסטית, אלא בגלל שלהשליך מאחוז ההצבעה בעיר מסויימת, או משתיית האספרסו בה, על הסיבות לשיעור הגיוס, לא אומר לנו כלום על פרופיל המתגייסים.
בלי נאמנות אין שכר מינימום
יש דברים שכן אפשר לדעת מבדיקת שיעור המתגייסים ביחס לערים שונות. למשל: כיצד המצב הכלכלי-חברתי בעיר משפיע על אחוזי הגיוס. הנתון הזה הוא זה שדובר צה”ל והעיתונאים בוחרים להתעלם ממנו. הרבה יותר קל לדבר על תל אביב ולהניח שאנחנו שומעים תל אביבים וחושבים על שמאלנים שותי קפה.
הקשר בין מצב כלכלי-חברתי לאחוז הגיוס לצבא נראה כך (קליק על הגרף לגודל קריא יותר):
כלומר, 40% מהשונות בגיוס לצה”ל בערים שאינן חרדיות מוסבר על ידי המצב הסוציו-אקונומי של העיר (אם מוסיפים גם ערים חרדיות, אחוז השונות המוסברת עולה). ייתכן מאוד שהנתונים שצה”ל רצה שנראה, מלמדים על הפערים הסוציו-אקונומיים במדינה הרבה יותר מעל שתיית הקפה או על הנכונות למות בעד ארצנו.
שמונים וארבעה אחוזים
לפי הבדיחה שמספרים במחלקה לסטטסטיקה, 84% מהסטטיסטיקות מומצאות במקום. זה נכון רק באופן חלקי. הסטטיסטיקה לא יוצרת את הטענות ולא מעידה על קשרים סיבתיים בין תופעות, היא רק מציעה מודל שמתאר אותן, ולכן פרסום של שיעורי הגיוס ביחידות סגורות כמו ערים ובתי ספר הוא ביטוי לרטוריקה סטראוטיפית ופופוליסטית של צה”ל, ולא חדשות.
עד שיהיו לנו נתונים ברמת הפרט לא נוכל לדעת מאיפה נובעת הבעיה של צה”ל, וגם לא אם באמת יש לו בעיה. אבל ניתוח ברמת הפרט לא נקבל מהצבא משום שהוא מאוד לא נוח לו. בינתיים מה שאפשר לעשות זה לא לפרסם באופן אוטומטי נתונים שהצבא, או כל גוף אינטרסנטי אחר, מאכיל אותנו בהם , אלא לבצע עליהם פעולות סטטיסטיות פשוטות שיכולות לגלות דברים הרבה יותר מעניינים.
______________________________________
ניבה שושי היא תלמידת מחקר במחלקה לסוציולוגיה באוניברסיטת וירג’יניה. אייל בר חיים הוא דוקטורנט בחוג ללימודי עבודה באוניברסיטת תל אביב. שושי ובר חיים כתבו על “מכתב מחייל פשוט” בגליון נובמבר 2010.
תגובות
21 תגובות לפוסט “יש כאן מישהו מתל אביב? סטטיסטיקה ושיטות מחקר לעיתונאים”
פרסום תגובה
עליך להתחבר כדי להגיב.
יפה, אבל בכל זאת כמה נקודות:
1. למה שבאנגלית קוראים Metrics בעברית קוראים מטריצות.
2. במקרה הזה, מה שהצגתם פה הוא לא באמת מטריצה, אלא רגרסיה לינארית.
3. המבחן של הרגרסיה הלינארית (r^2) יצא לכם די נמוך ככל שהוא נמוך יותר המשמעות היא שהקשר הוא פחות מובהק (ואם אתם רוצים להעביר את זה גראפית, הקו צריך להיות הרבה יותר רחב).
4. בתל אביב יש 400,000 תושבים, במודיעין יש 74,000. אצלכם בגרף שתיהן מופיעות כנקודות בעלות גודל שווה (ואני מניח שגם בחישוב הרגרסיה לא התחשבתם בגודל) למעשה על מנת שהתוצאה תהיה בעלת משמעות צריך לשקלל את גודל האוכלוסיה (בעצם, רק את מספר בני ה-18 באוכלוסיה). גראפית זה אומר שככל שהעיר גדולה יותר הנקודה שמייצגת אותה צריכה להיות גדולה יותר, ומבחינת החישוב זה פשוט רגרסיה לינארית עם משקל.
[…] This post was mentioned on Twitter by חדר 404. חדר 404 said: יש כאן מישהו מתל אביב? סטטיסטיקה ושיטות מחקר לעיתונאים http://ow.ly/1aB7R8 […]
הגרפים שלך מראים את תל־אביב בפירוש מחוץ למגמה (ישובים מבוססים יותר נוטים להיות בעלי שיעור גבוה יותר. אבל לא תל־אביב). נראה שהאבחנה של ראש אכ”א נכונה.
לגבי החרדים: מעבר לעניין הכלכלי, יש גם איזה פטור קטן.
(Metrics הין מטריקות. מטריצה היא יצור שונה. במקור זו היתה מילה לרחם)
כשמספרים את הבדיחה, מאוד חשוב לא להשתמש באותו המספר פעמיים, כך שההתמקדות שלך ב-“שמונים וארבע” נראית מוטעית.
כמו כן, עדיף להשתמש במספרים שנשמעים יותר מדוייקים, כמו “92.3 אחוז מהסטטיסטיקות המצוטטות מומצאות בו במקום”.
שחר
אני תוהה איך תראה הקורלציה בין אחוז מקבלי הפטור מצה”ל לבין מדד ג’יני של ישראל…
יואב: מטריקס לשון מטרולא מלשון מטריצה:
“Metrics,” a periodic Sunday feature that uses smart data analysis and visualization to illuminate business trends.
http://apple.copydesk.org/2010/07/31/nyts-hannah-fairfield-named-graphics-director-of-the-washington-post/
לגבי שקילה לפי גודל האוכלוסיה הצעירה, צריך לזכור שחישוב האינדקס הסוציואקונומי קונס ערים בעלות אוכלוסייה צעירה (בין השאר דרך חישוב הכנסה ממוצעת לנפש ). בכל מקרה , שקילה כזו הולכת שוב לכיוון של התייחסות לפרטים ולא לערים, שזו הטענה המרכזית שלנו כלפי צה”ל
וביחס לR^2: הוא נע בין 20% ל40% בגרפים שהצגנו, אם היינו מכניסים גם את הערים החרדיות, היינו מקבלים אחוזים שבין 40% ל60%. החלטנו להתייחס לערים החרדיות כאאוטלייר, בעיקר כי לא מעניין אותנו להגיד שוב פעם ש”החרדים משתמטים” אלא ליצור דיון על שימוש בנתונים עצמם.
באמת? ברהט היו רק 12%~ מצביעים לגוש השמאל? כלומר רע”מ-תע”ל, שזכתה ב-80% מהקולות שם, שייכת לגוש הימין?
כלומר היו פה נתונים, אבל מאחר שאתם גם קוראי מחשבות החלטתם שכל האנשים במדינה מפרשים לא נכון את הנתונים….
אני מצטער אבל אני מעדיף שהעיתונאי שלי יתן לי נתונים וישאיר לי את הפרשנות האישית (כמו שנעשה בנענע) ולא ישחק לי בחיפוש קורלציות בלי שהוא יעבור קודם כל לפחות את 3 יחידות הבגרות במטמטיקה.
היה מענין לקרוא מאמרים שלכם ולבדוק את המאימנות של הטכניקות הסטאטיסטיות שלכם….
ובהמשך לסעיף 4 של יואב – אני מניח שגם האחוזים לישובים עם סניף של ארומה לא משוקללים לפי מספר תושבים, אלא לקחתם ממוצע פשוט… וזו ללא ספק הטעיה מהזן הנחות ביותר (הרי מראש ישוב עם פחות תושבים הוא מועד פחות לכלול סניף של רשת ארצית)
מרק: הנתונים שחסרים לך, כמו שחסרים לכולנו (חוץ מלצה”ל) הם נתונים ברמת הפרט. ללא נתונים ברמת הפרט, הדבר היחיד שניתן לעשות הוא להסיק ברמת היישוב דרך מאפייני היישוב עצמו.המסקנות שצה”ל ניסה ליחס לתוצאות היו ברמת הפרט.
יובל: דווקא השקילה לפי גודל היישוב ביחס לכמות סניפי ארומה היא פשוטה מאוד (ולא משנה את התוצאות), ההנחה שעומדת מאחורי הטענה שלך היא שאחוז המתגייסים קשור לגודל האוכלוסיה. בהנחה וזו לא הטענה, אתה חוזר שוב לרעיון שלא ניתן להסיק מסקנות ברמת היישוב אלא ברמת הפרט, שזו הטענה שלנו בפוסט.
הבעיה המאוד בסיסית עם תל אביב היא שמשמעותית יותר מערים אחרות, היא כוללת ים של תושבים שהיגרו אליה אחרי הגיוס. לכן כל סטטיסטיקה ברמה מינימלית של רצון למדל את המציאות הסוציואקונומית צריכה להעריך רק את המיועדים לשרות שגרים בעיר לפחות כמה שנים טובות, ואת משפחותיהם.
אגב, גם בעברית המינוח הוא מטריקה, לא מטריצה.
צפריר צודק ואני טעיתי, לא מטריקס ולא מטריצות, מטריקות.
זה שדוברי צה”ל (הרישמי והוולונטרים) מעוותים את הנתונים על מנת להציג תמונה שונה מהמציאות לא מצדיק שימוש כזה מהצד השני. אין שום סיבה לפחד מהאמת.
אייל, בעניין ארומה, בחרת מטריקה אחת שבמקרה מתאימה לך.
היא קשורה היטב למצב הכלכלי של העיר ולגודלה (כמוכן קיימת ההטיה של החרדים ושל הבדווים בנגב? או שזה בערך אותו הדבר?). אתה יכול לתת את רשימת הערים שבהן יש ורשימת הערים שבהם אין סניף של ארומה?
אתה מתעלם מהנתונים שכבר יש לך. אתה גם מתעלם מהנתונים שכבר יש ברמת בית הספר.
תל־אביב היא חריג ברור לגרף ההתאמה למצב הכלכלי. גם אחוזי הגיוס מבתי הספר של השכונות היותר מבוססות בה נמוכים יחסית.
אתה יכול לבקר את ההחלטה לדון על הנתון הזה. אבל במקרה זה לא ברור לי למה אתה נכנס לפרטים הטכניים.
יש סיבה שהשמטתם את ירושלים? גם בניכוי חרדים וערבים זאת אוכלוסיה די גדולה.
פוסט יפה ומעורר מחשבה. האמת היא שזה קצת מוזר שסטטיסטיקה נמצאת לחלוטין מחוץ לתחומי ההשכלה של האדם הממוצע (אני מתייחסת בעיקר להשכלה תיכונית, כי זה הזמן היחיד שכולם חייבים ללמוד מתמטיקה). במובנים מסויימים, מדובר בכלי כל כך שימושי וכל כך פוליטי שההתעקשות בתוכנית הלימודים לתיכונים על עיסוק במתמטיקה “טהורה” נראית די טיפשית.
תודה. נהניתי לקרוא.
לכל המגיבים הביקורתיים, נראה לי שפספסתם את הפואנטה, הטענה המרכזית היא שמרמת העיר אי אפשר להגיע לטענות ברמת הפרט כפי שמוצג בעיתונות (מי ששותה קפה משתמט) ללא סדרה של הנחות שהפוסט הזה מפרק.
בנוגע לנתונים ברמת העיר.להבנתי, העניין המרכזי של הכותבים הוא לחשוף את המניפולציה ולא לייצר את ה-נתון ה-מעניין. ובכל אופן, 40% שונות מוסברת רק על בסיס המצב הסוציואקונומי זה המון. וזה דווקא כן נתון מעניין.
מתן משקולות לערים אכן היה יכול לייצר קירוב טוב יותר לרמת הפרט שחסרה ולהפוך את הרגרסיה למעניינת יותר כנתון ולא רק כדוגמא לטענה שלא ניתן לייצר נתונים מעניינים. אבל זה לא מצדיק את הווליום של התגובות, שנראה שנשען על מקורות אחרים.
אגב, גם ככה בולט שבתל אביב, ביחס למצבה הסוציואקונומי שיעור גיוס נמוך. נקווה שהיא מובילה מגמה כללית.
צפריר ברור שהמסקנות ביחס לסניפים של ארומה או של אחוז ההצבעה לשמאל הן בעיתיות זה בדיוק העניין (יש לינק לנתונים על מיקומים של סניפים בתוך הפוסט). לגבי בתי ספר, אתה מוזמן לבדוק את המתאם בין אחוזי הגיוס לאחוז הזכאות לבגרות, אני מאמינה שמתצא נתונים שקרובים למה שמצאנו ביחס למצב הסוציו אקונומי.
הפוסט שלכם מעניין. עם זאת, במיוחד ממי שטוען נגד אופן הצגת הסטטיסטיקה בעיתונות ניתן לצפות שיציג את כל הנתונים, כולל אלה שאינם תומכים בתזה שלו.
הגרפים שלכם בעייתיים בגלל נקודות החיתוך:
א. ירושלים, אלעד, בית”ר עלית ובני-ברק נקטמו מהגרפים המציגים מתאם, אני מניח שכדי “שהגרף ייכנס לדף”, מה שמעוות את הגרפים.
ב. גבולות הגרף על ארומה מצומצמים, מה שמגדיל את האפקט המוצג בו.
מומלץ לקרוא בספריו של אדוארד טאפטי איך מציגים סטטיסטיקות בגרפים שיספרו את הסיפור המלא:
http://www.edwardtufte.com/tufte
זאת, מבלי להיכנס לדיון העקרוני, בו נראה לי שאני מסכים עם הטענה שלכם.
המניפולציות שלכם לא שונות מהמניפולציות של התקשורת!
לדוגמא, טענתם שאין קשר בין מספר בתי קפה בעיר מסויימת לאחוז הגיוס בה, וכהוכחה ציינתם את מספר הסניפים של ארומה בערים מסויימות.
אבל מה לגבי קפה-נטו וקופי-בין? מי שאוהב קפה שותה רק בארומה?!
הציבור לא מטומטם!!!
[…] של עידו קינן חדר 404, עומד על הקשר בין אחוזי גיוס למצב הכלכלי חברתי בערים השונות. בהמליצו על […]