שְׁאֵלָה:
מדוע משתמשים ברגרסיה של פואסון לנתוני ספירה?
zaxtax
2010-09-24 00:38:40 UTC
view on stackexchange narkive permalink

אני מבין שעבור מערכי נתונים מסוימים כגון הצבעה זה מתקדם יותר. מדוע משתמשים ברגרסיה של פואסון על פני רגרסיה לינארית רגילה או רגרסיה לוגיסטית? מה המניע המתמטי לכך?

ראו את תשובתי לפוסט זה לנקודת מבט נוספת: http://stats.stackexchange.com/questions/142338/goodness-of-fit-and-which-model-to-choose-linear-regression-or-poisson/142353#142353
חָמֵשׁ תשובות:
#1
+56
Stephan Kolassa
2010-09-24 01:42:46 UTC
view on stackexchange narkive permalink

נתונים המופצים על ידי פואסון הם בעלי ערך שלם מהותי, וזה הגיוני לנתוני ספירה. ריבועים קטנים יותר רגילים (OLS, שאתה מכנה "רגרסיה לינארית") מניחים שערכים אמיתיים מתפזרים בדרך כלל סביב הערך הצפוי ויכולים לקחת כל ערך אמיתי, חיובי או שלילי, שלם או חלקי, שיהיה. לבסוף, רגרסיה לוגיסטית פועלת רק עבור נתונים בעלי ערך של 0-1 (מוערך TRUE-FALSE), כמו "יש מחלה" לעומת "אין מחלה". לפיכך, התפלגות פואסון הגיונית ביותר לנתוני ספירה.

עם זאת, התפלגות נורמלית היא לעיתים קרובות קירוב טוב למדי לפויסון לנתונים עם ממוצע מעל 30 לערך. ובמסגרת רגרסיה, בה יש לך מנבאים המשפיעים על הספירה, OLS עם ההתפלגות הנורמלית שלו עשוי להיות קל יותר להתאמה ולמעשה יהיה כללי יותר, מכיוון שהתפלגות הפואיסון והרגרסיה מניחים שהממוצע והשונות שווים, בעוד OLS יכול להתמודד עם אמצעים ושונות לא שוויוניים - למשל, עבור מודל נתוני ספירה עם אמצעים ושונות שונים, אפשר להשתמש ב התפלגות בינומית שלילית.

שים לב שרק התאמה באמצעות OlS אינה מחייבת נורמליות - כאשר אתה מסיק את הפרמטרים אתה זקוק להנחת ההתפלגות הרגילה.
@Dason: אני עומד מתוקן.
אם אתה משתמש באומדן השונות של Huber / White / Sandwich, אתה יכול להרפות את הנחת השונות הממוצעת
@Dason למרות שזה לא נדרש בהחלט, השימוש בצורת הדגם הנכונה למה שאתה מתאים כמעט תמיד נותן הערכה טובה יותר, ותוכל לראות את זה בחלקות שאריות.
#2
+26
Matt Parker
2010-09-24 01:52:16 UTC
view on stackexchange narkive permalink

בעיקרו של דבר, זה בגלל שרגרסיה לינארית ולוגיסטית גורמת להנחות שגויות לגבי הנחות תוצאות הספירה. תאר לעצמך את המודל שלך כרובוט טיפש מאוד שיעקוב ללא הפסקה אחר פקודותיך, לא משנה עד כמה ההוראות האלה הן חסרות טעם; זה חסר לחלוטין את היכולת להעריך את מה שאתה אומר לו. אם אתה אומר לרובוט שלך שמשהו כמו קולות מופץ ברציפות מאינסוף שלילי לאינסוף, זה מה שהוא מאמין שקולות זהים, וזה עשוי לתת לך תחזיות שטויות (רוס פרוט יקבל -10.469 קולות בבחירות הקרובות).

לעומת זאת, התפלגות הפואסון היא בדידה וחיובית (או אפס ... אפס נחשב לחיובי, כן?). לכל הפחות, זה יאלץ את הרובוט שלך לתת לך תשובות שיכולות לקרות בפועל בחיים האמיתיים. הם עשויים להיות תשובות טובות או אולי לא, אך הם לפחות יישאבו מהסט האפשרי של "מספר ההצבעות".

כמובן, לפויסון יש משלו בעיות: הוא מניח כי הממוצע של משתנה ספירת הקולות יהיה זהה לשונות שלו. אני לא יודע אם ראיתי אי פעם דוגמה שאינה מתמצאת בה זה היה נכון. למרבה המזל, אנשים בהירים העלו הפצות אחרות שהן גם חיוביות ודיסקרטיות, אך מוסיפות פרמטרים כדי לאפשר את השונות, אה, להשתנות (למשל, רגרסיה בינומית שלילית).

#3
+5
Thylacoleo
2010-09-24 04:28:23 UTC
view on stackexchange narkive permalink

מתמטית אם אתה מתחיל בהנחה הפשוטה שההסתברות שאירוע יתרחש במרווח מוגדר $ T = 1 $ הוא $ \ lambda $ אתה יכול להראות את מספר האירועים הצפוי במרווח $ T = t $ is is $ \ lambda.t $, השונות היא גם $ \ lambda.t $ ו התפלגות ההסתברות היא
$$ p (N = n) = \ frac {(\ lambda.t) ^ {n} e ^ {- \ lambda.t}} {n!} $$

באמצעות זה ו- שיטת הסבירות המרבית & כללים מודלים ליניאריים (או שיטה אחרת) ) אתה מגיע ל רגרסיה של פואסון.

במילים פשוטות רגרסיה של פואסון היא המודל שמתאים להנחות התהליך האקראי הבסיסי ויוצר מספר קטן של אירועים בקצב (כלומר מספר ליחידת זמן) נקבע על ידי משתנים אחרים במודל.

#4
+3
Dason
2010-09-24 04:10:50 UTC
view on stackexchange narkive permalink

אחרים אמרו בעצם את אותו הדבר שאני הולך אליו, אבל חשבתי להוסיף את ההשקפה שלי עליו. זה תלוי במה שאתה עושה בדיוק, אבל הרבה פעמים אנחנו אוהבים להמשיג את הבעיה / הנתונים בהישג יד. זו גישה מעט שונה בהשוואה לבניית מודל שמנבא די טוב. אם אנו מנסים להמשיג את המתרחש, זה הגיוני לדגמן נתוני ספירה באמצעות התפלגות לא שלילית שמציבה רק מסה בערכים שלמים. יש לנו גם תוצאות רבות שלמעשה מסתכמות באמירה שבתנאים מסוימים נתוני ספירה באמת מופצים כ- poisson. אז אם המטרה שלנו היא להמשיג את הבעיה, זה באמת הגיוני להשתמש בפואסון כמשתנה התגובה. אחרים הצביעו על סיבות אחרות מדוע זה רעיון טוב, אך אם אתה באמת מנסה להמחיש את הבעיה ומבין באמת כיצד ניתן ליצור נתונים שאתה רואה אז שימוש ברגרסיה של פואסון הגיוני מאוד במצבים מסוימים.

#5
+2
crx
2010-09-24 01:28:49 UTC
view on stackexchange narkive permalink

ההבנה שלי היא בעיקר מכיוון שהספירות הן תמיד חיוביות ודידו, Poisson יכול לסכם נתונים כאלה בפרמטר אחד. המלכוד העיקרי הוא שהשונות שווה לממוצע.



שאלה ותשובה זו תורגמה אוטומטית מהשפה האנגלית.התוכן המקורי זמין ב- stackexchange, ואנו מודים לו על רישיון cc by-sa 2.0 עליו הוא מופץ.
Loading...