שְׁאֵלָה:
מה אם שרידים מופצים בדרך כלל, אך y לא?
MarkDollar
2011-06-23 11:00:01 UTC
view on stackexchange narkive permalink

יש לי שאלה מוזרה. נניח שיש לך מדגם קטן שבו המשתנה התלוי שאתה הולך לנתח במודל ליניארי פשוט מוטה מאוד. לפיכך אתה מניח ש- $ u $ אינו מופץ בדרך כלל, מכיוון שהדבר יביא $ $ $ לחלוקה רגילה. אך כשמחשבים את עלילת QQ-Normal ישנן עדויות לכך שהשאריות מופצות בדרך כלל. לפיכך כל אחד יכול להניח שמונח השגיאה מופץ בדרך כלל, אם כי $ y $ אינו. אז מה פירוש הדבר, כאשר נראה שמונח השגיאה מופץ כרגיל, אך $ y $ לא?

שְׁלוֹשָׁה תשובות:
Dikran Marsupial
2011-06-23 11:28:20 UTC
view on stackexchange narkive permalink

סביר להניח שהשאריות בבעיית רגרסיה מופצות באופן נורמלי, למרות שמשתנה התגובה אינו. שקול בעיית רגרסיה חד-משתנית כאשר $ y \ sim \ mathcal {N} (\ beta x, \ sigma ^ 2) $. כך שמודל הרגרסיה מתאים, והניח עוד כי הערך האמיתי של $ \ beta = 1 $. במקרה זה, בעוד שהשאריות של מודל הרגרסיה האמיתי הן נורמליות, ההתפלגות של $ y $ תלויה בהתפלגות של $ x $, שכן הממוצע המותנה של $ y $ הוא פונקציה של $ x $. אם למערך הנתונים יש הרבה ערכים של $ x $ שקרובים לאפס ובהדרגה פחותים בערך הגבוה יותר של $ x $, אז ההתפלגות של $ y $ תוטה שמאלה. אם ערכים של $ x $ מופצים בצורה סימטרית, אז $ y $ יופץ בצורה סימטרית, וכן הלאה. לבעיית רגרסיה, אנו מניחים רק שהתגובה מותנית כרגיל בערך $ x $.

(+1) אני לא חושב שאפשר לחזור על זה מספיק פעמים! ראה גם [אותה סוגיה הנדונה כאן] (http://stats.stackexchange.com/questions/11351/left-skewed-vs-symmetric-distribution-observed/11352#11352).
אני מבין את התשובה שלך וזה נשמע נכון. לפחות הרווחת הרבה קולות חיוביים :) אבל אני בכלל לא מרוצה. אז בדוגמה שלך $ \ beta = 1 $ ההנחות שביצעת הן $ y \ sim N (1 \ cdot x, \ sigma ^ {2}) $. אבל כשאני מעריך את הרגרסיה אני מעריך $ E (y | x) $. לכן צריך לתת $ x $ בזמן שאני מעריך את הממוצע. מכאן צריך להסיק ש- x הוא ערך ולא אכפת לי איך הוא הופץ לפני שהבנתי אותו. אז $ y \ sim N (ערך, \ sigma ^ {2}) $ הוא ההתפלגות של $ y $. אני לא מבין איפה $ x $ משפיע על $ y $.
אני די מופתע (לטובה) גם ממספר הקולות; o) כדי לקבל את הנתונים המשמשים להתאמה למודל הרגרסיה, לקחת דגימה מהתפלגות משותפת כלשהי $ p (y, x) $, ממנה אתה רוצה להעריך $ E (y | x) $. עם זאת מכיוון ש- $ y $ היא פונקציה (רועשת) של $ x $, חלוקת הדוגמאות של $ y $ חייבת להיות תלויה בהפצה של דגימות של $ x $, עבור אותו מדגם מסוים. יתכן שאינך מעוניין בהתפלגות "האמיתית" של $ x $, אך התפלגות המדגם של y תלויה במדגם של x.
שקול דוגמה להערכת טמפרטורה ($ y $) כפונקציה של רוחב ($ x $). התפלגות ערכי $ y $ במדגם שלנו תלויה היכן אנו בוחרים לאתר תחנות מזג אוויר. אם נציב את כולם בקוטבים או בקו המשווה, תהיה לנו התפלגות דו-מודאלית. אם נציב אותם על רשת שטח שווה רגילה, נקבל התפלגות לא מודאלית של ערכי $ y $, למרות שפיזיקת האקלים זהה לשתי הדגימות. כמובן שזה ישפיע על מודל הרגרסיה המותאם שלך, והמחקר של סוג כזה מכונה "משמרת משתנה". HTH
אני חושד גם שה- $ E (y | x) $ מותנה בהנחה הגלומה שהנתונים בהם נעשה שימוש היו i.i.d. מדגם מההפצה המשותפת התפעולית $ p (y, x) $.
אך מה אם X אינו משתנה אקראי אלא רק חבורה של ערכים שאנו בוחרים לבחור בעת התבוננות ב- Y, למשל, אם Y הוא GPA ו- X הוא שעות לימוד, אנו בוחרים להעריך את ה- GPA המתקבל ב, נגיד 1,2 ,...10 שעות?באיזו דרך ההתפלגות של Y תהיה תלויה ב- X?
gung - Reinstate Monica
2012-07-30 09:20:06 UTC
view on stackexchange narkive permalink

@DikranMarsupial נכון בדיוק, כמובן, אבל עלה בדעתי שאולי יהיה נחמד ל להמחיש את הנקודה שלו, במיוחד מכיוון שנראה שדאגה זו עולה לעתים קרובות. באופן ספציפי, יש להפיץ את ה שאריות של מודל רגרסיה בדרך כלל כדי ש- p- ערכים יהיו נכונים. עם זאת, גם אם השאריות מופצות בדרך כלל, זה לא מבטיח ש- $ Y $ יהיה (לא שזה משנה ...); זה תלוי בחלוקה של $ X $.

ניקח דוגמה פשוטה (אותה אני ממציא). נניח שאנחנו בודקים תרופה ל יתר לחץ דם סיסטולי מבודד (כלומר, המספר העליון של לחץ הדם גבוה מדי). עוד נקבע כי קצב הסיסטולי מופץ בדרך כלל בתוך אוכלוסיית המטופלים שלנו, עם ממוצע של 160 & SD של 3, וכי עבור כל מ"ג של התרופה שהחולים נוטלים מדי יום, ה- BP הסיסטולי יורד ב -1 מ"מ כספית. במילים אחרות, הערך האמיתי של $ \ beta_0 $ הוא 160, ו- $ \ beta_1 $ הוא -1, והפונקציה להפקת נתונים אמיתית היא: $$ BP_ {sys} = 160-1 \ times \ text {מינון תרופתי יומי } + \ varepsilon \\\ טקסט {שבו} \ varepsilon \ sim \ mathcal N (0, 9) $$ במחקר הפיקטיבי שלנו, 300 חולים מוקצים באופן אקראי ליטול 0 מ"ג (פלצבו), 20 מ"ג או 40 מ"ג מחדשה זו תרופה ליום. (שימו לב כי $ X $ אינו מופץ בדרך כלל.) ואז, לאחר פרק זמן מספק לתרופה להיכנס לתוקף, הנתונים שלנו עשויים להיראות כך:

enter image description here > (רטטתי את המינונים כדי שהנקודות לא יחפפו כל כך עד שקשה היה להבחין בהן.) עכשיו בואו נבדוק את ההתפלגות של $ Y $ (כלומר, זו תפוצה שולית / מקורית), והשאריות:

enter image description here

עלילות qq מראות לנו ש- $ Y $ אינו נורמלי מרחוק, אלא שהשאריות נורמליות באופן סביר. עלילות צפיפות הגרעינים נותנות לנו תמונה נגישה יותר אינטואיטיבית של ההפצות. ברור ש- $ Y $ הוא תלת-מודאלי , בעוד שהשאריות נראות כמו התפלגות נורמלית אמורה להראות.

אבל מה עם מודל הרגרסיה המותאם, מה ההשפעה של $ Y $ & $ X $ לא נורמלי (אך שאריות רגילות)? כדי לענות על שאלה זו, עלינו לציין ממה אנו מודאגים לגבי ביצועים אופייניים של מודל רגרסיה במצבים כאלה. הנושא הראשון הוא, האם הבטאות, בממוצע, צודקות? (כמובן שהם יקפצו סביב כמה, אך בטווח הארוך, האם התפלגויות הדגימה של הבטאס מתמקדות בערכים האמיתיים?) זו שאלת ה הטיה. נושא נוסף הוא, האם אנו יכולים לסמוך על ערכי ה- p שקיבלנו? כלומר, כאשר השערת האפס נכונה, האם $ p<.05 $ רק 5% מהזמן? כדי לקבוע דברים אלה, אנו יכולים לדמות נתונים מתהליך הפקת הנתונים הנ"ל ולמקרה מקביל בו אין לתרופה השפעה, מספר רב של פעמים. אז נוכל לשרטט את התפלגויות הדגימה של $ \ beta_1 $ ולבדוק אם הן מתרכזות בערך האמיתי, וגם לבדוק באיזו תדירות היחסים היו 'משמעותיים' במקרה האפס:

  set.seed (123456789) # זה הופך את הסימולציה לניתנת לחזרה b0 = 160; b1 = -1; b1_null = 0 # אלו הם ערכי הבטא האמיתיים x = rep (c (0, 20, 40), כל אחד = 100) # המינונים של התרופות (הלא נורמליות) חולים מקבלים הערכה. תוצאות הסימולציה העריכו. b1ns = וקטור (אורך = 10000) null.p. ערכים = וקטור (אורך = 10000) עבור (i ב- 1: 10000) {שאריות = rnorm (300, ממוצע = 0, sd = 3) y.works = b0 + b1 * x + שאריות y.null = b0 + b1_null * x + שאריות # הכל זהה למעט b1 model.works = lm (y.works ~ x) model.null = lm (y.null ~ x) מוערך .b1s [i] = coef (model.works) [2] הערך. b1ns [i] = coef (model.null) [2] null.p. value [i] = סיכום (model.null) מקדמי $ [2 , 4]} ממוצע (משוער. B1s) # התפלגויות הדגימה מתרכזות בערכים האמיתיים [1] -1.000084 ממוצע (הערכה. B1ns) [1] -8.43504e-05
ממוצע (null.p.values<.05) # כשה null נכון, p<.05 5% מהזמן [1] 0.0532 

enter image description here

תוצאות אלו מראות שהכל מסתדר בסדר.

אני לא אעבור את התנועות, אבל אם $ X $ היה מופץ בדרך כלל, עם אותה הגדרה אחרת, ההפצה המקורית / שולית של $ Y $ הייתה הופץ בדרך כלל בדיוק כמו השאריות (אם כי עם SD גדול יותר). כמו כן, לא המחשתי את ההשפעות של חלוקה מוטה של ​​$ X $ (וזה היה התנופה שמאחורי שאלה זו), אך הנקודה של @ DikranMarsupial תקפה באותה מידה במקרה, ואפשר היה להמחיש אותה באופן דומה.

אז ההנחה כי שרידים מופצים בדרך כלל היא רק ש- p- ערכים יהיו נכונים?מדוע ערכי ה- p עלולים להשתבש אם השאריות אינה תקינה?
@loganecolss, שעשוי להיות טוב יותר כשאלה חדשה.בכל מקרה, * כן * זה צריך לעשות w / אם ערכי p נכונים.אם השאריות שלך אינן נורמליות מספיק וה- N שלך נמוך, התפלגות הדגימה תהיה שונה מאופן התיאוריה שלה.מכיוון שערך p הוא כמה מאותה התפלגות הדגימה היא מעבר לנתון הבדיקה שלך, ערך p יהיה שגוי.
Dovini Jayasinghe
2019-02-05 11:12:13 UTC
view on stackexchange narkive permalink

בהתאמה למודל רגרסיה, עלינו לבדוק את תקינות התגובה at בכל רמה של $ X $ , אך לא באופן קולקטיבי בכללותו מכיוון שהוא משמעותי עבורמטרה זו .אם אתה באמת צריך לבדוק את הנורמליות של $ Y $ , בדוק זאת לכל $ X $ רמה.

ההתפלגות השולית של התגובה אינה "חסרת משמעות" כלל;זו ההתפלגות השולית של התגובה (ולעתים קרובות צריך לרמוז על מודלים שאינם רגרסיה רגילה עם שגיאות רגילות).אתה צודק בכך שאתה מדגיש שהפצות מותנות הן חשובות ברגע שאנו מבדרים את המודל המדובר, אך זה לא מוסיף מועיל לתשובות מצוינות קיימות.
הבהרה מסוימת: "בדוק נורמליות של משתנה תלוי לכל רמה של משתנה בלתי תלוי" כמו "בדיקת נורמליות של שאריות".מאת: https://stats.stackexchange.com/questions/435025/in-a-regression-model-fitting-should-we-should-check-for-the-normality-of-the-r


שאלה ותשובה זו תורגמה אוטומטית מהשפה האנגלית.התוכן המקורי זמין ב- stackexchange, ואנו מודים לו על רישיון cc by-sa 3.0 עליו הוא מופץ.
Loading...