שְׁאֵלָה:
האם יש הסבר אינטואיטיבי מדוע מולטיקולינאריות היא בעיה ברגרסיה לינארית?
user28
2010-08-03 03:42:33 UTC
view on stackexchange narkive permalink

הוויקי דן בבעיות המתעוררות כאשר רב-קולינאריות היא נושא ברגרסיה ליניארית. הבעיה הבסיסית היא תוצאות רב-קולינאריות בהערכות פרמטרים לא יציבות שמקשות מאוד על הערכת ההשפעה של משתנים בלתי תלויים על משתנים תלויים.

אני מבין את הסיבות הטכניות העומדות מאחורי הבעיות (אולי לא אוכל להפוך $ X 'X $, $ X' X $ וכו ') אבל אני מחפש הסבר אינטואיטיבי יותר (אולי גיאומטרי?) לנושא זה.

האם יש צורה גיאומטרית או אולי אחרת הסבר מובן מדוע רב-קולינאריות בעייתית בהקשר של רגרסיה לינארית?

באמת שאלה נהדרת. הדרך הטובה ביותר להבין משהו היא מכיוון הסבר מרובה.
ראה גם שאלה קשורה והסבר חזותי http://stats.stackexchange.com/q/70899/3277
תֵשַׁע תשובות:
#1
+97
Rob Hyndman
2010-08-03 03:59:09 UTC
view on stackexchange narkive permalink

שקול את המקרה הפשוט ביותר שבו $ Y $ נסגר נגד $ X $ ו- $ Z $ וכאשר $ X $ ו- $ Z $ מתואמים באופן חיובי ביותר. אז ההשפעה של $ X $ על $ Y $ קשה להבדיל מההשפעה של $ Z $ על $ Y $ מכיוון שכל עלייה ב- $ X $ נוטה להיות קשורה לעלייה ב- $ Z $.

דרך נוספת להסתכל על כך היא לשקול את המשוואה. אם אנו כותבים $ Y = b_0 + b_1X + b_2Z + e $, אז המקדם $ b_1 $ הוא העלייה ב- $ Y $ עבור כל עלייה ביחידה ב- $ X $ תוך החזקת $ Z $ קבוע. אך בפועל, לעיתים קרובות אי אפשר להחזיק קבוע של $ Z $ והמתאם החיובי בין $ X $ ל- $ Z $ פירושו שעליית יחידה ב- $ X $ מלווה בדרך כלל בעלייה כלשהי ב- $ Z $ במקביל.

הסבר דומה אך מסובך יותר קשור לצורות אחרות של רב-קולינאריות.

+1 המקרה הפתולוגי ביותר שבו $ X = Z $ מדגיש זאת עוד יותר. לא ניתן להבחין בין $ Y = b_0 + b_1 X + b_2 Z + e $ ו- $ Y = b_0 + (b_1 + b_2) X + 0 Z + e $.
+1 אני אוהב את התשובה הזו מכיוון שאחת משאלות העזרה הנפוצות ביותר היא מדוע אז $ b_1> 0 $ ו- $ b_2 <0 $. מסקנה צריכה להסביר תשומות מציאותיות.
#2
+32
Snackrifice
2010-08-10 13:04:22 UTC
view on stackexchange narkive permalink

אכלתי סושי פעם וחשבתי שזה עשוי להדגים אינטואיטיבית טובה של בעיות לא טובות. נניח שרצית להראות למישהו מטוס באמצעות שני מקלות שנוגעים בבסיסיהם.

סביר להניח שאתה מחזיק את המקלות מאונך זה לזה. ההשפעה של כל סוג של רעד של הידיים שלך על המטוס גורמת לו להתנדנד מעט סביב מה שקיווית להראות לאנשים, אבל אחרי שצפית בך זמן מה הם מקבלים מושג טוב על איזה מטוס התכוונת להפגין.

אבל נניח שאתה מקרב את קצוות המקלות ומתבונן בהשפעת הידיים שלך רועדות. המטוס שהוא יוצר יתנשא בפראות הרבה יותר. הקהל שלך יצטרך לצפות זמן רב יותר כדי לקבל מושג טוב באיזה מישור אתה מנסה להפגין.

+1 אני חושב שזה עונה ישירות על השאלה. כי למרות שרב-קולינאריות משפיעה על הפרשנות. מדוע זה נושא imho הוא היציבות בהערכה.
+1 לפרסום תגובה זו (ורק תגובה זו אי פעם בהיסטוריה של Stackoverflow) תחת שם המשתמש Snackrifice.
קראתי את ההערה הזו כנראה עשר פעמים במשך כמה שנים שנקלעתי אליה ועדיין לא בטוח מה אתה אומר.על איזה סוג של "מטוס" אתה מדבר?למה אתה מתכוון "[המטוס] שהתכוונת להפגין?"
#3
+21
ars
2010-08-03 04:26:03 UTC
view on stackexchange narkive permalink

הגישה הגיאומטרית היא להתחשב בהקרנת הריבועים הנמוכה ביותר של $ Y $ על שטח המשנה המשתרע על ידי $ X $.

נניח שיש לך דגם:

$ E [Y | X] = \ beta_ {1} X_ {1} + \ beta_ {2} X_ {2} $

שטח ההערכה שלנו הוא המישור שנקבע על ידי הווקטורים $ X_ {1} $ ו- $ X_ { 2} $ והבעיה היא למצוא קואורדינטות המתאימות ל- $ (\ beta_ {1}, \ beta_ {2}) $ שיתארו את הווקטור $ \ hat {Y} $, הקרנת ריבוע מינימאלית של $ Y $ עד המטוס הזה.

עכשיו נניח $ X_ {1} = 2 X_ {2} $, כלומר הם קולינריים. לאחר מכן, שטח המשנה שנקבע על ידי $ X_ {1} $ ו- $ X_ {2} $ הוא רק קו ויש לנו רק דרגת חופש אחת. לכן איננו יכולים לקבוע שני ערכים $ \ beta_ {1} $ ו- $ \ beta_ {2} $ כפי שהתבקשנו.

הצבעתי לפני זמן רב, אך קראתי מחדש את תשובתך. היא הזכירה לי שתמיד אהבתי * תשובות מטוס לשאלות מורכבות * מאת כריסטנסן (http://j.mp/atRp9w).
@chl: מגניב, בהחלט הולך לבדוק את זה אז. :)
כל תשובה המתחילה ב"תחשבו בהקרנת הריבועים הנמוכה ביותר על שטח המשנה המשתרע על ידי "אינה אינטואיטיבית.
#4
+14
Charlie
2012-08-20 22:23:47 UTC
view on stackexchange narkive permalink

שני אנשים דוחפים סלע במעלה גבעה. אתה רוצה לדעת עד כמה כל אחד מהם דוחף. נניח שאתה צופה בהם דוחפים יחד במשך עשר דקות והסלע נע 10 מטר. האם הבחור הראשון עשה את כל העבודה והשני פשוט זייף את זה? או להפך? או 50-50? מכיוון ששני הכוחות פועלים באותו זמן בדיוק, אינך יכול להפריד בין כוחו של אחד מהם בנפרד. כל מה שאתה יכול לומר הוא שהכוח המשולב שלהם הוא מטר אחד לדקה.

עכשיו דמיין שהבחור הראשון לוחץ לרגע בעצמו, ואז תשע דקות עם הבחור השני, ודקה אחרונה היא רק הבחור השני דוחף. עכשיו אתה יכול להשתמש באומדני כוחות ברגע הראשון והאחרון כדי להבין את הכוח של כל אדם בנפרד. למרות שהם עדיין עובדים במידה רבה באותו זמן, העובדה שיש מעט הבדל מאפשרת לך לקבל אומדנים של הכוח עבור כל אחד.

אם ראית כל גבר דוחף באופן עצמאי במשך עשר דקות שלמות , שיעניקו לך הערכות מדויקות יותר של הכוחות מאשר אם יש חפיפה גדולה בכוחות.

אני משאיר כתרגיל לקורא להרחיב את המקרה הזה לאיש אחד שדוחף במעלה הגבעה והשני דוחף במורד (זה עדיין עובד).

רב צבעוניות מושלמת מונעת ממך לאמוד את הכוחות בנפרד; קרוב לרב-צבעוניות נותן לך שגיאות תקן גדולות יותר.

#5
+6
Abhijit
2010-08-04 20:37:41 UTC
view on stackexchange narkive permalink

הדרך שבה אני חושב על זה באמת מבחינת מידע. נניח שלכל $ X_ {1} $ ו- $ X_ {2} $ יש מידע על $ Y $. ככל ש- $ X_ {1} $ ו- $ X_ {2} $ מתואמים יותר זה עם זה, כך יותר תוכן המידע על $ Y $ מ- $ X_ {1} $ ו- $ X_ {2} $ דומה או חופף, ל הנקודה שעבור $ X_ {1} $ ו- $ X_ {2} $ בקורלציה מושלמת, זה באמת אותו תוכן מידע. אם כעת שמנו $ X_ {1} $ ו- $ X_ {2} $ באותו מודל (רגרסיה) כדי להסביר $ Y $, המודל מנסה "לחלק" את המידע ש ($ X_ {1} $, $ X_ {2} $) מכיל כ- $ Y $ לכל אחד מ- $ X_ {1} $ ו- $ X_ {2} $, באופן שרירותי במקצת. אין דרך טובה באמת לחלק את זה, מכיוון שכל פיצול של המידע עדיין מוביל לשמירה על המידע הכולל מ ($ X_ {1} $, $ X_ {2} $) במודל (עבור $ X $ בקורלציה מלאה " s, זה באמת מקרה של אי-זיהוי). זה מוביל לאומדנים לא יציבים של המקדמים האישיים של $ X_ {1} $ ו- $ X_ {2} $, אם כי אם מסתכלים על הערכים החזויים $ b_ {1} X_ {1} + b_ {2} X_ {2 } $ על פני ריצות רבות והערכות של $ b_ {1} $ ו- $ b_ {2} $, אלה יהיו יציבים למדי.

#6
+4
Tal Galili
2010-08-03 07:28:37 UTC
view on stackexchange narkive permalink

האינטואיציה ההדיוטית (מאוד) שלי לכך היא שמודל ה- OLS זקוק לרמה מסוימת של "אות" במשתנה X על מנת לזהות אותו נותן "טוב" חיזוי ל- Y. אם אותו "אות" מתפשט על פני מספר רב של איקסים (מכיוון שהם מתואמים), אז אף אחד מהאיקסים המתואמים אינו יכול לתת מספיק "הוכחה" (מובהקות סטטיסטית) לכך שהוא מנבא אמיתי. עבודה נהדרת בהסבר מדוע זה המקרה.

#7
+3
Young
2012-08-20 20:24:55 UTC
view on stackexchange narkive permalink

נניח ששני אנשים שיתפו פעולה וביצעו גילוי מדעי. קל לדעת את התרומות הייחודיות שלהם (מי עשה מה) כאשר שניים הם אנשים שונים לחלוטין (אחד הוא בחור תיאוריה והשני טוב בניסוי), בעוד שזה קשה כדי להבחין בהשפעות הייחודיות שלהם (מקדמים ברגרסיה) כאשר הם תאומים שפועלים באופן דומה.

#8
+2
Mitch Flax
2010-08-03 07:20:32 UTC
view on stackexchange narkive permalink

אם שני רגרסורים מתואמים באופן מושלם, אי אפשר לחשב את המקדמים שלהם; כדאי לשקול מדוע יהיה קשה לפרש את אם נוכל לחשב אותם . למעשה, זה מסביר מדוע קשה לפרש משתנים שאינם מתואמים באופן מושלם, אך גם אינם עצמאיים באמת. לכלול אחד לשאלה האם יורד גשם באותו יום ואחד לכמות הפיתיון שנרכש באותו יום. מה שאנחנו לא מבינים כשאנחנו אוספים את הנתונים שלנו הוא שבכל פעם שירד גשם, הדייגים לא רוכשים פיתיון, ובכל פעם שהם לא רוכשים כמות פיתיון קבועה. אז פיתיון וגשם הם בקורלציה מושלמת, וכשאנחנו מריצים את הרגרסיה שלנו, אנחנו לא יכולים לחשב את המקדמים שלהם. במציאות, פיתיון וגשם כנראה אינם מתואמים באופן מושלם, אך לא נרצה לכלול את שניהם כגורמים רגרסורים מבלי לנקות אותם איכשהו מהאנדוגניות שלהם.

#9
+1
Christoph Hanck
2015-12-30 14:48:19 UTC
view on stackexchange narkive permalink

אני חושב שמלכודת המשתנה הדמה מספקת אפשרות שימושית נוספת להמחיש מדוע רב-קולינאריות היא בעיה. נזכיר שזה מתעורר כשיש לנו קבוצה קבועה ומלאה של בובות במודל. ואז, סכום הדומיות מסתכם באחת, הקבועה הרב-קולינארית כל כך.

למשל, דמה לגברים ואחת לנשים:

$$ y_i = \ beta_0 + \ beta_1Man_i + \ beta_2Woman_i + u_i $$

הפרשנות הסטנדרטית של $ \ beta_1 $ הוא השינוי הצפוי ב- $ Y $ הנובע משינוי $ Man_i $ מ- 0 ל- 1. כמו כן, $ \ beta_2 $ הוא השינוי הצפוי ב- $ Y $ הנובע משינוי $ Woman_i $ מ- 0 ל -1.

אבל, מה אמור $ \ beta_0 $ לייצג ...? זה $ E (y_i | Man_i = 0, Woman_i = 0) $, כך שהתוצאה הצפויה לאנשים שאינם גבר ולא אישה ... זה כנראה בטוח לומר שלמעשה לכל מערכי הנתונים שתיתקל בהם, זה אינה שאלה שימושית לשאול :-).



שאלה ותשובה זו תורגמה אוטומטית מהשפה האנגלית.התוכן המקורי זמין ב- stackexchange, ואנו מודים לו על רישיון cc by-sa 2.0 עליו הוא מופץ.
Loading...