שְׁאֵלָה:
מהן ההנחות של רגרסיה בינומית שלילית?
Carly
2013-06-03 21:31:52 UTC
view on stackexchange narkive permalink

אני עובד עם מערך נתונים גדול (חסוי, כך שאני לא יכול לשתף יותר מדי), והגעתי למסקנה שיהיה צורך ברגרסיה דו-שלומית שלילית. מעולם לא עשיתי רגרסיה בעבר ולא מצאתי שום מידע ברור לגבי ההנחות. האם הם זהים לגבי MLR?

האם אוכל לשנות את המשתנים באותה צורה (גיליתי כבר שהפיכת המשתנה התלוי היא קריאה גרועה מכיוון שהוא צריך להיות מספר טבעי)? כבר קבעתי שההתפלגות הבינומית השלילית תעזור לפיזור יתר בנתונים שלי (השונות היא בסביבות 2000, הממוצע הוא 48).

תודה על העזרה !!

שתיים תשובות:
Glen_b
2013-06-04 04:32:41 UTC
view on stackexchange narkive permalink

אני עובד עם מערך נתונים גדול (חסוי, אז אני לא יכול לשתף יותר מדי),

יתכן ויהיה יכול ליצור ערכת נתונים קטנה מכיל כמה מהמאפיינים הכלליים של הנתונים האמיתיים ללא שמות המשתנים ולא אף אחד מהערכים בפועל.

והגיע למסקנה יהיה צורך ברגרסיה דו-שלומית שלילית. מעולם לא עשיתי רגרסיה בעבר ולא מצאתי שום מידע ברור לגבי ההנחות. האם הם זהים לגבי MLR?

ברור שלא! אתה כבר יודע שאתה מניח שהתגובה היא בינומית שלילית, ולא תקינה. ( כמה הנחות משותפות. עצמאות למשל.)

תן לי לדבר על GLM יותר באופן כללי יותר.

GLM כולל רגרסיה מרובה אך מכליל בכמה דרכים :

1) ההתפלגות המותנית של התגובה (משתנה תלוי) היא מה משפחה מעריכית , הכוללת את ההפצות Poisson, בינומי, גמא, נורמליות ורבות אחרות.

2) התגובה הממוצעת קשורה למנבאים (משתנים בלתי תלויים) באמצעות פונקציית קישור . לכל משפחת התפלגויות פונקציה משויכת ל קישור קנוני - למשל במקרה של פויסון, הקישור הקנוני הוא ה יומן. הקישורים הקנוניים הם כמעט תמיד ברירת המחדל, אך ברוב התוכנות בדרך כלל יש לך כמה אפשרויות בכל בחירת הפצה. עבור הבינום הקישור הקנוני הוא הלוגיט (החיזוי הליניארי מדגמן $ \ log (\ frac {p} {1-p}) $, הסיכויים ליומן להצלחה, או "1") ולגמא הקישור הקנוני הוא ההפוך - אך בשני המקרים משתמשים לעתים קרובות בפונקציות קישור אחרות.

אז אם תגובתך הייתה $ Y $ והמנבאים שלך היו $ X_1 $ ו- $ X_2 $, עם רגרסיה של Poisson עם קישור היומן שיש לך לתיאור שלך כיצד הממוצע של $ Y $ קשור ל- $ X $:

$ \ text {E} (Y_i) = \ mu_i $

$ \ log \ mu_i = \ eta_i $ ($ \ eta $ נקרא 'מנבא לינארי', וכאן פונקציית הקישור היא $ \ log $, הסמל $ g $ משמש לעתים קרובות לייצוג פונקציית הקישור)

$ \ eta_i = \ beta_0 + \ beta_1 x_ {1i} + \ beta_2 x_ {2i} $

3) השונות של התגובה אינה קבועה, אלא פועלת באמצעות פונקציית שונות (פונקציה של הממוצע, אולי פעמים פרמטר קנה מידה). לדוגמא, השונות של פואסון שווה לממוצע, ואילו עבור גמא הוא פרופורציונלי לריבוע הממוצע. (ההתפלגויות המעין מאפשרות מידה מסוימת של ניתוק פונקציית השונות מהתפלגות משוערת)

-

אז אילו הנחות יסוד משותפות למה שאתה זוכר מ- MLR?

  • העצמאות עדיין קיימת.

  • כבר אין להניח כי הומוסקדסטיות היא; השונות היא בפירוש פונקציה של הממוצע ולכן באופן כללי משתנה עם המנבאים (לכן בעוד שהמודל בדרך כלל הטרוסקדסטי, ההטרוסקדסטיות לובשת צורה מסוימת).

  • לינאריות: המודל עדיין ליניארי בפרמטרים (כלומר המנבא הליניארי הוא $ X \ beta $), אך התגובה הצפויה לא קשורה אליהם באופן לינארי (אלא אם כן אתה משתמש בפונקציית קישור הזהות!).

  • התפלגות התגובה כללית באופן מהותי

פרשנות הפלט היא במובנים רבים די דומה; אתה עדיין יכול להסתכל על מקדמים משוערים חלקי השגיאות הסטנדרטיות שלהם למשל, ולפרש אותם באופן דומה (הם נורמליים מבחינה סימפטומית - מבחן Wald z - אך נראה שעדיין אנשים מכנים אותם יחסי T, גם כשאין תיאוריה שגורמת אותם $ t $ - מופץ באופן כללי).

השוואות בין מודלים מקוננים (באמצעות 'anova-table' כמו הגדרות) הן מעט שונות, אך דומות (הכוללות בדיקות ריבועיות צ'י אסימפטוטיות). אם אתה מרגיש בנוח עם AIC ו- BIC, ניתן לחשב אותם.

סוגים דומים של תצוגות אבחון משמשים בדרך כלל, אך קשה יותר לפרש אותם.

חלק גדול מהאינטואיציה המרובתית של הרגרסיה הליניארית שלך תעבור אם תשמור על ההבדלים.

הנה דוגמה למשהו שאתה יכול לעשות עם מחלה שאי אפשר לעשות עם רגרסיה לינארית ( אכן, רוב האנשים ישתמשו ברגרסיה לא לינארית לשם כך, אך GLM קל יותר ונחמד יותר עבורו) במקרה הרגיל - $ Y $ הוא נורמלי, מעוצב כפונקציה של $ x $:

$ \ text {E} (Y) = \ exp (\ eta) = \ exp (X \ beta) = \ exp (\ beta_0 + \ beta_1 x) $ (כלומר קישור יומן)

$ \ טקסט {Var} (Y) = \ sigma ^ 2 $

כלומר, ריבוע קטן ביותר של יחס אקספוננציאלי בין $ Y $ ל- $ x $.

האם אוכל לשנות את המשתנים באותה צורה (גיליתי כבר שהפיכת המשתנה התלוי היא שיחה גרועה מכיוון שהוא צריך להיות מספר טבעי)?

אתה (בדרך כלל) לא רוצה לשנות את התגובה (DV). לפעמים אתה אולי רוצה לשנות מנבאים (IVs) על מנת להשיג ליניאריות של המנבא הליניארי.

כבר קבעתי שההתפלגות הבינומית השלילית תסייע להתפזרות יתר בנתונים שלי (השונות היא בסביבות 2000, הממוצע הוא 48).

כן, זה יכול להתמודד עם פיזור יתר. אך הקפידו לא לבלבל בין פיזור ה מותנה לבין פיזור ה ללא תנאי.

גישה נפוצה נוספת - אם קצת יותר עמומה וכל כך פחות מספקת בעיניי - היא רגרסיה מעין פואסונית (רגרסיה מוגזרת של פואסון).

עם הבינומי השלילי, זה נמצא את המשפחה האקספוננציאלית אם אתה מציין אחד מהפרמטרים שלה (הדרך שבה בדרך כלל הוא מתוקן מחדש עבור GLMS לפחות). חלק מהחבילות יתאימו לו אם תציין את הפרמטר, ואחרים יעטפו את אומדן ה- ML של הפרמטר הזה (נניח באמצעות סבירות פרופיל) סביב שגרה של GLM, וכך אוטומציה של התהליך. חלקם יגבילו אותך לקבוצת הפצות קטנה יותר; אתה לא אומר באיזה תוכנה אתה יכול להשתמש ולכן קשה לומר שם הרבה יותר.

אני חושב שבדרך כלל קישור היומן נוטה לשמש עם רגרסיה בינומית שלילית.

ישנם מספר מסמכים ברמת היכרות (שנמצאים בקלות דרך google) שמובילים דרך איזור Poisson GLM בסיסי ואז ניתוח GLM דו-ממדי שלילי, אך ייתכן שתעדיף להסתכל בספר על GLM ואולי קודם לעשות רגרסיה קטנה של פואסון רק כדי להתרגל לכך.

+1 אני מסכים עם COOLSerdash. המון מידע טוב כאן! בנוסף לחיפוש המומלץ בגוגל, הייתי ממליץ ספציפית על ספר לימוד בשם Econometrics מאת דוגמה מאת גוג'ראטי. פרק 12 מכסה את מודל הרגרסיה של פואסון ואת מודל הרגרסיה השלילית-בינומית. כפי שמציע כותרת הספר, יש דוגמאות. הנתונים המשמשים בספר זמינים באתר הספר הנלווה, וכך גם [סיכום פרק 12] (http://www.palgrave.com/economics/gujarati/students/chaptersummaries/chapter12.html) עצמו. אני ממליץ ל- OP לבדוק זאת.
אני מאחר למסיבה ... אבל התשובה הזו עזרה לי להבין מודלים לינאריים כלליים יותר מאשר ערימה שלמה של ספרים בספרייה.
Todd D. Johnson
2019-02-25 09:22:43 UTC
view on stackexchange narkive permalink

כמה הפניות מצאתי כמועילות בניתוח נתונים בהתפלגות הבינומית השלילית באופן ספציפי (כולל הנחות רישום) ו- GLM / GLMM בדרך כלל הן:

בייטס, ד.מ., ב 'מאכלר, ב' בולקר וס 'ווקר.2015. התאמת מודלים של אפקטים מעורבים לינאריים המשתמשים ב- lme4.ג'יי סטאט.תוכנה 67: 1-48.

Bolker, B.M., M. E. Brooks, C. J. Clark, S.W.Geange, J.R. Poulsen, M.H.H.סטיבנס וג'יי ווייט.מודלים מעורבים לינאריים כלליים: מדריך מעשי לאקולוגיה ואבולוציה.מגמות באקולוגיה ואבולוציה 127-135.

Zeileis A., C. Keleiber C ו- S. Jackman 2008. מודלים של רגרסיה לנתוני ספירה ב- R. J. Stat.תוֹכנָה.27: 1-25

צור A.F., E.N.Iene, N. Walker, A.A.סבלייב וג.מ.נַפָּח.2009. מודלים של אפקטים מעורבים והרחבות באקולוגיה עם R. Springer, NY, USA.



שאלה ותשובה זו תורגמה אוטומטית מהשפה האנגלית.התוכן המקורי זמין ב- stackexchange, ואנו מודים לו על רישיון cc by-sa 3.0 עליו הוא מופץ.
Loading...