שְׁאֵלָה:
מדוע אנו מדגמנים רעש ברגרסיה לינארית אך לא ברגרסיה לוגיסטית?
kennysong
2020-08-04 08:03:49 UTC
view on stackexchange narkive permalink

הפרשנות ההסתברותית הקנונית לרגרסיה לינארית היא ש $ y $ שווה ל $ \ theta ^ Tx $ , בתוספת משתנה אקראי של רעש גאוסי $ \ epsilon $ .

עם זאת, ברגרסיה לוגיסטית סטנדרטית, אנו לא רואים רעש (למשל סיבובי סיביות אקראיים עם הסתברות p) של התווית y.למה זה?

האם זה עונה על שאלתך?[האם ניתן לדמות רגרסיה לוגיסטית ללא אקראיות?] (Https://stats.stackexchange.com/questions/282804/is-it-possible-to-simulate-logistic-regression-without-randomness)
@HaitaoDu תודה, שתי התשובות שם קשורות למדי, אך אין להן תשובה מפורשת לשאלתי (לפחות לא תשובה שאני יכול להבין).
[שאלה נוספת בנושא יסודות שירות של מודלים לבחירה בינארית נוספת] (https://stats.stackexchange.com/a/112058/7071).
ועוד: [רגרסיה לוגיסטית - מונח שגיאות והתפלגותה] (https://stats.stackexchange.com/questions/124818/logistic-regression-error-term-and-its-distribution)
כהערה צדדית, אם היה לך משהו בסגנון הטרוסקדסטיות ברגרסיה הלוגיסטית (למשל, ערך חיובי של משתנה אינדיקטור הציג כל כך הרבה רעש נוסף שרוב התחזיות יהיו קרובות לבסיס ללא קשר למשתנים עצמאיים אחרים), היית עושה זאתצריך להשתמש באפקט אינטראקציה שיכול לאפס את ההשפעות של המשתנה.לאינטראקציות מסובכות יותר, אני מתאר לעצמי שתצטרך להשתמש במודל מסוג אחר.
שתיים תשובות:
Stephan Kolassa
2020-08-04 11:23:56 UTC
view on stackexchange narkive permalink

תשובה קצרה: אנחנו כן, פשוט במשתמע.


דרך אולי מאירה יותר להסתכל על הדברים היא הבאה.

בריבועים הקטנים הרגילים, אנו יכולים לשקול כי איננו מדגמנים את ה שגיאות או את הרעש כ $ N (0, \ sigma ^ 2) $ מופץ, אך אנו מודלים את ה תצפיות כמ $ N (x \ beta, \ sigma ^ 2) $ מופץ.

(כמובן, זה בדיוק אותו דבר, רק להסתכל על זה בשתי דרכים שונות.)

כעת ההצהרה האנלוגית ל רגרסיה לוגיסטית מתבררת: כאן אנו מדגמים את התצפיות כ ברנולי מופץ עם פרמטר $ p (x) = \ frac {1} {1 + e ^ {- x \ beta}} $ .

אנו יכולים להעיף דרך זו של חשיבה אחרונה אם אנו רוצים: אנו יכולים אכן לומר כי אנו מדגמנים את השגיאות ברגרסיה הלוגיסטית. כלומר, אנו מדגמנים אותם כ"ההבדל בין משתנה מבוזר של ברנולי עם פרמטר $ p (x) $ ו- $ p (x) $ עצמו ".

זה פשוט מאוד לא מסורבל, ולפיזור הזה אין שם, ובנוסף השגיאה כאן תלויה במשתנים העצמאיים שלנו $ x $ (בניגוד להומוסקדסטיות הנחה ב- OLS, כאשר השגיאה אינה תלויה ב $ x $ ), לכן בדרך זו של הסתכלות על דברים פשוט לא משתמשים בתדירות גבוהה.

(+1) ההבנה שלי במודלים של רגרסיה השתפרה באופן דרסטי לאחר שהפסקתי לחשוב על דוגמנות ה"התפלגות + שאריות "והתחלתי לחשוב על דוגמנות ההתפלגות המותנית (הפסקה השנייה שלך).
@Stephan Kolassa: הגעתי לכאן מאיזה שרשור אחרון ורק רציתי להגיב שזה הסבר עצום.תמיד הייתי מבולבל ביחס למקום שהיה הרעש ועכשיו אני לא.תודה.
[בעזרת GLM אנו למעשה מסובבים אותו] (https://stats.stackexchange.com/a/466262) והופכים אותו לבלתי מסוגל על ידי חשיבה על ההבדל בין הערך הנצפה לערך המודל.אבל אכן.לא הגיוני כל כך לראות את זה ככה (זה לא שהרעש הוא מנגנון תוסף כלשהו ונקודת המוצא אינה כזו), וזה יותר טריק מתמטי למזער את הסבירות על ידי מזעור הריבועיםשל שאריות משוקללות (שיש לה פתרון אלגברי פשוט).
Yibo Yang
2020-08-07 10:17:19 UTC
view on stackexchange narkive permalink

כדי להשלים את תשובתו של סטפן, בדומה לאופן שבו ברגרסיה ליניארית היעד $ y $ מחושב על ידי פעולה כלשהי הכוללת $ x $ וקצת רעש $ \ epsilon $ , ברגרסיה לינארית (וסיווג באופן כללי יותר) אתה יכול למעשה לחשוב על היעד $ y $ כמחושבת על ידי הפעולה הבאה הכוללת $ x $ וקצת רעש:

$$ y = \ arg \ max_ {i \ in \ {0, 1 \}} \ alpha_i + \ epsilon_i $$

איפה $ \ alpha_0 = 0, \ alpha_1 = \ theta ^ T x $ , ו- $ \ epsilon_0, \ epsilon_1 $ שני משתני "רעש" עצמאיים בעקבות $ \ text {Gumbel} (0,1) $ הפצה; אתה יכול לבדוק שככה $ y $ עוקב אחרי ברנולי עם $ \ mathbb {P} (y = 1 | x) = 1 / (1 + e ^ {- \ theta ^ T x}) $ לפי הצורך.

דרך דגימה זו מתפוצה קטגורית (במקרה זה ברנולי) ידועה בתור הטריק Gumbel-max בלימוד מכונה: https://lips.cs.princeton.edu/the-gumbel-max -טריק-להפצות-דיסקרטיות / (הרעיון הבסיסי נובע מהטריק הרפרמטריזציה. יש גם טריק Gumbel-softmax שקשור באופן הדוק, שבעצם הופך את $ \ arg לעיל. \ max $ הפעלה של Gumbel-max מובחנת).



שאלה ותשובה זו תורגמה אוטומטית מהשפה האנגלית.התוכן המקורי זמין ב- stackexchange, ואנו מודים לו על רישיון cc by-sa 4.0 עליו הוא מופץ.
Loading...