הפרשנות ההסתברותית הקנונית לרגרסיה לינארית היא ש $ y $ שווה ל $ \ theta ^ Tx $ , בתוספת משתנה אקראי של רעש גאוסי $ \ epsilon $ .
עם זאת, ברגרסיה לוגיסטית סטנדרטית, אנו לא רואים רעש (למשל סיבובי סיביות אקראיים עם הסתברות p) של התווית y.למה זה?
הפרשנות ההסתברותית הקנונית לרגרסיה לינארית היא ש $ y $ שווה ל $ \ theta ^ Tx $ , בתוספת משתנה אקראי של רעש גאוסי $ \ epsilon $ .
עם זאת, ברגרסיה לוגיסטית סטנדרטית, אנו לא רואים רעש (למשל סיבובי סיביות אקראיים עם הסתברות p) של התווית y.למה זה?
תשובה קצרה: אנחנו כן, פשוט במשתמע.
דרך אולי מאירה יותר להסתכל על הדברים היא הבאה.
בריבועים הקטנים הרגילים, אנו יכולים לשקול כי איננו מדגמנים את ה שגיאות או את הרעש כ $ N (0, \ sigma ^ 2) $ מופץ, אך אנו מודלים את ה תצפיות כמ $ N (x \ beta, \ sigma ^ 2) $ מופץ.
(כמובן, זה בדיוק אותו דבר, רק להסתכל על זה בשתי דרכים שונות.)
כעת ההצהרה האנלוגית ל רגרסיה לוגיסטית מתבררת: כאן אנו מדגמים את התצפיות כ ברנולי מופץ עם פרמטר $ p (x) = \ frac {1} {1 + e ^ {- x \ beta}} $ .
אנו יכולים להעיף דרך זו של חשיבה אחרונה אם אנו רוצים: אנו יכולים אכן לומר כי אנו מדגמנים את השגיאות ברגרסיה הלוגיסטית. כלומר, אנו מדגמנים אותם כ"ההבדל בין משתנה מבוזר של ברנולי עם פרמטר $ p (x) $ ו- $ p (x) $ עצמו ".
זה פשוט מאוד לא מסורבל, ולפיזור הזה אין שם, ובנוסף השגיאה כאן תלויה במשתנים העצמאיים שלנו $ x $ (בניגוד להומוסקדסטיות הנחה ב- OLS, כאשר השגיאה אינה תלויה ב $ x $ ), לכן בדרך זו של הסתכלות על דברים פשוט לא משתמשים בתדירות גבוהה.
כדי להשלים את תשובתו של סטפן, בדומה לאופן שבו ברגרסיה ליניארית היעד $ y $ מחושב על ידי פעולה כלשהי הכוללת $ x $ וקצת רעש $ \ epsilon $ , ברגרסיה לינארית (וסיווג באופן כללי יותר) אתה יכול למעשה לחשוב על היעד $ y $ כמחושבת על ידי הפעולה הבאה הכוללת $ x $ וקצת רעש:
$$ y = \ arg \ max_ {i \ in \ {0, 1 \}} \ alpha_i + \ epsilon_i $$
איפה $ \ alpha_0 = 0, \ alpha_1 = \ theta ^ T x $ , ו- $ \ epsilon_0, \ epsilon_1 $ שני משתני "רעש" עצמאיים בעקבות $ \ text {Gumbel} (0,1) $ הפצה; אתה יכול לבדוק שככה $ y $ עוקב אחרי ברנולי עם $ \ mathbb {P} (y = 1 | x) = 1 / (1 + e ^ {- \ theta ^ T x}) $ לפי הצורך.
דרך דגימה זו מתפוצה קטגורית (במקרה זה ברנולי) ידועה בתור הטריק Gumbel-max בלימוד מכונה: https://lips.cs.princeton.edu/the-gumbel-max -טריק-להפצות-דיסקרטיות / (הרעיון הבסיסי נובע מהטריק הרפרמטריזציה. יש גם טריק Gumbel-softmax שקשור באופן הדוק, שבעצם הופך את $ \ arg לעיל. \ max $ הפעלה של Gumbel-max מובחנת).