יום ראשון, 5 באוגוסט 2018

פרדוקס סימפסון (סטטיסטיקה)

הפרדוקס מדבר על היפוך המסקנה הסופית במחקרים שונים, כאשר עושים zoom in או zoom out לנתונים שבונים את המחקר. דוגמה קלה להסבר הוא תחום מחירי הדיור.

נניח עיר עם 2 שכונות. אחת חדשה ויקרה והשניה ותיקה וזולה. בשנה הראשונה בה השכונה החדשה נבנית, נמכרות יותר דירות בשכונה החדשה מאשר בשכונה הותיקה ולכן בממוצע של אותה שנה לעומת שנה קודם לכן, מחירי הדירות עלו פלאים. בשנה לאחר מכן, השכונה כבר בנויה ולכן נמכרו בה יחסית מעט דירות. באותה שנה ובעקבות בניית השכונה החדשה, נמכרו יותר דירות דווקא בשכונה הישנה. מכיוון שהשכונה הישנה זולה יחסית לשכונה החדשה, המחיר הממוצע בו נמכרה דירה נמוך יותר מאשר בשכונה החדשה.

כאשר נבדוק בסוף השנה השניה ונסתכל במימד של העיר, נגלה שמחירי הדיור ירדו אבל פה בדיוק נכנס הפרדוקס. אם נעשה zoom in לנתונים ונבדוק במימד של שכונה, נגלה שבעצם המחירים עלו, גם בשכונה הזולה. מכיוון שרוב הדירות שנמכרו באו מהשכונה הישנה, הסך הכל הראה על ירידה במחירים לעומת שנה קודם לכן, בה נמכרו יותר דירות מהשכונה החדשה.

דבר דומה אפשר למצא כאשר משווים בין קופות הגמל/קרנות ההשתלמות. כאשר השוויתי ממוצעי תשואות של שתי חברות ב 1, 3 ו 5 השנים האחרונות, חברה מסויימת הייתה טובה יותר מהשניה, כלומר על פניו מבדיקה לאורך זמן, היה שווה לבחור בה. כאשר בדקתי את אותן 5 שנים אבל הפעם כל שנה בנפרד, הסתבר שרק שנה 2 ו 3 היו טובות יותר ואילו שנה 1, 4 ו 5 היו טובות פחות. כלומר גם מבחינת כמות השנים ובעיקר בשנים האחרונות, החברה הפחות טובה במימד של 5 שנים, הייתה טובה יותר. העיוות הסטטיסטי (ממוצע) גרם לכך, שבגלל שנתיים (מתוך 5) טובות לחברה אחת, היא הייתה מועדפת על השניה. כמובן שאפשר להתווכח על איזו שיטת בדיקה טובה יותר. הסטטיסטיקה באה על מנת להקל עלינו, אך היא עלולה לייצר כאב ראש חדש כאשר הסתכלות על הפרטים, מוציאה מסקנה שונה, שלא לומר הפוכה, מאשר הסתכלות על המכלול.

יש המון פרדוקסים וסתירות כאשר באים לנתח מידע סטטיסטי. המידע הוא אמיתי, העובדות הן נכונות, מה אנחנו נסיק מאותו מידע ומאותם גרפים יפים שיציגו לנו, תלוי במה שרוצים "למכור" לנו.

אין תגובות:

הוסף רשומת תגובה