שְׁאֵלָה:
מרווח חיזוי רגרסיה לינארית
bmx
2012-08-01 00:27:20 UTC
view on stackexchange narkive permalink

אם הקירוב הליניארי הטוב ביותר (תוך שימוש בריבועים קטנים ביותר) של נקודות הנתונים שלי הוא הקו $ y = mx + b $, כיצד אוכל לחשב את שגיאת הקירוב? אם אני מחשב סטיית תקן של הבדלים בין תצפיות ותחזיות $ e_i = real (x_i) - (mx_i + b) $, האם אוכל לומר אחר כך שערך אמיתי (אך לא נצפה) $ y_r = real (x_0) $ שייך מרווח $ [y_p- \ sigma, y_p + \ sigma] $ ($ y_p = mx_0 + b $) עם הסתברות ~ 68%, בהנחה שהתפלגות נורמלית?

להבהרה:

I ביצע תצפיות לגבי פונקציה $ f (x) $ על ידי הערכתה לכמה נקודות $ x_i $. אני מתאים את התצפיות האלה לקו $ l (x) = mx + b $. תמורת $ x_0 $ שלא התבוננתי ברצוני לדעת כמה גדול יכול $ f (x_0) -l (x_0) $ להיות. בעזרת השיטה לעיל, נכון לומר ש $ f (x_0) \ ב [l (x_0) - \ sigma, l (x_0) + \ sigma] $ עם prob. ~ 68%?

אני חושב שאתה שואל לגבי מרווחי חיזוי. שים לב, עם זאת, אתה משתמש ב- "$ x_i $", במקום "$ y_i $". האם זו שגיאת הקלדה? אנחנו * לא * חוזים $ ​​x $ s.
@gung: אני משתמש ב- $ x $ כדי לציין למשל זמן ו- $ y $ את הערך של משתנה כלשהו באותה תקופה, כך ש- $ y = f (x) $ פירושו שעשיתי תצפית $ y $ בזמן $ x $. אני רוצה לדעת עד כמה יכולות להיות תחזיות הפונקציה המתאימות לערכים האמיתיים של y. האם זה הגיוני? הפונקציה $ real (x_i) $ מחזירה את הערך "הנכון" של $ y $ ב- $ x_i $, ונקודות הנתונים שלי מורכבות מ- $ {(x_i, real (x_i))} $.
זה נראה סביר לחלוטין. החלקים שאני מתמקד בהם הם, למשל, "$ e_i = real (x_i) - (mx_i + b) $", בדרך כלל אנו חושבים על השגיאות / שאריות במודל reg כ- "$ e_i = y_i- (mx_i + ב) $ ". ה- SD של השאריות * ממלא * תפקיד בחישוב מרווחי החיזוי. זה ש- "$ x_i $" זה מוזר בעיניי; אני תוהה אם זו שגיאת הקלדה, או שאתה שואל על משהו שאני לא מזהה.
אני חושב שאני רואה; התגעגעתי לעריכה שלך. זה מצביע על כך שהמערכת היא דטרמיניסטית לחלוטין ואם הייתה לך גישה לפונקציה * האמיתית * הבסיסית, תמיד תוכל לחזות $ y_i $ מושלם ללא שגיאה. זו לא הדרך בה אנו חושבים בדרך כלל על דגמי רג.
@gung: האם שאלה זו הגיונית אם אני צופה באלגוריתם לא קבוע במקום פונקציה? אני לא ברור איך לנסח מחדש את השאלה שלי, כך שיהיה הגיוני לסטטיסטיקאים :(. אני רוצה להעריך כמה טוב המודל הליניארי מקרב את הדבר הנצפה, בהנחה שהדבר הזה הוא ליניארי, אך חורג מקו עם אקראי שְׁגִיאָה.
אני חושב שאולי יש לך אי הבנה מהותית לגבי מרווחי חיזוי ומרווחי ביטחון. אני מרגיש ככה על סמך הניסוח הראשוני של הבעיה. גונג עושה עבודה טובה בניסיון להסביר לך דברים. אם אתה יכול להיות מדויק יותר לגבי שאלתך, נוכל לתת לך תשובה ברורה יותר ולתקן כל בלבול אם הוא קיים.
bmx, נראה לי שיש לך מושג ברור לשאלתך ומודעות טובה לחלק מהנושאים. אולי אתה מעוניין לסקור שלושה נושאים קשורים זה לזה. http://stats.stackexchange.com/questions/17773 מתאר מרווחי חיזוי במונחים לא טכניים; http://stats.stackexchange.com/questions/26702 נותן תיאור מתמטי יותר; וב http://stats.stackexchange.com/questions/9131, רוב הינדמן מספק את הנוסחה שאתה מחפש. אם אלה לא עונים באופן מלא על שאלתך, לפחות הם עשויים לתת לך תו תקן ואוצר מילים להבהרתה.
אחד תשובה:
gung - Reinstate Monica
2012-08-04 03:48:44 UTC
view on stackexchange narkive permalink

@ whuber הצביע על שלוש תשובות טובות, אבל אולי אני עדיין יכול לכתוב משהו בעל ערך. השאלה המפורשת שלך, לפי הבנתי, היא:

בהתחשב במודל המותאם שלי, $ \ hat y_i = \ hat mx_i + \ hat b $ (שים לב שהוספתי 'כובעים') , ובהנחה שהשאריות שלי מופצות בדרך כלל, $ \ mathcal N (0, \ hat \ sigma ^ 2_e) $, אני יכול לחזות שתגובה שעדיין לא נצפתה, $ y_ {new } $, עם ערך מנבא ידוע, $ x_ {new} $, ייפול בתוך המרווח $ (\ hat y - \ sigma_e, \ hat y + \ sigma_e) $, עם סבירות 68%?

באופן אינטואיטיבי, התשובה נראית כאילו היא צריכה להיות 'כן', אך התשובה האמיתית היא אולי . זה יהיה המקרה כאשר הפרמטרים (כלומר, $ m, b, $ & $ \ sigma $) ידועים וללא שגיאות. מכיוון שהערכת את הפרמטרים הללו, עלינו לקחת בחשבון את חוסר הוודאות שלהם.

תחילה נחשוב על סטיית התקן של שאריותיך. מכיוון שזה נאמד מהנתונים שלך, יכולה להיות שגיאה כלשהי באומדן. כתוצאה מכך, ההתפלגות שבה עליך להשתמש כדי ליצור את מרווח החיזוי שלך צריכה להיות $ t_ \ text {df error} $, ולא הרגילה. עם זאת, מכיוון שה- $ t $ מתכנס במהירות למצב הרגיל, סביר להניח שזו תהיה בעיה בפועל.

אז נוכל פשוט להשתמש ב- $ \ hat y_ \ text {new} \ pm t _ {(1- \ alpha / 2, \ \ text {df error})} s $, במקום $ \ כובע y_ \ טקסט {חדש} \ pm z _ {(1- \ alpha / 2)} s $, והלך בדרכנו העליזה? למרבה הצער לא. הבעיה הגדולה יותר היא שקיימת אי וודאות לגבי הערכתך לממוצע התנאי של התגובה באותו מקום בגלל אי ​​הוודאות בהערכות שלך $ \ hat m $ & $ \ hat b $. לפיכך, סטיית התקן של התחזיות שלך צריכה לשלב יותר מסתם $ s_ \ text {error} $ . מכיוון ש- שונות מוסיפה, השונות המשוערת של התחזיות תהיה: $$ s ^ 2_ \ text {חיזויים (חדשים)} = s ^ 2_ \ text {error} + \ text {Var} (\ כובע mx_ \ טקסט {חדש} + \ כובע ב) $$ שים לב שה- "$ x $" מנוקד בכדי לייצג את הערך הספציפי לתצפית החדשה, ושה- "$ s ^ 2 $" מתואם בהתאם. כלומר, מרווח החיזוי שלך מותנה במיקום התצפית החדשה לאורך ציר $ x $. ניתן לאמוד בצורה נוחה יותר את סטיית התקן של התחזיות שלך בנוסחה הבאה: $$ s_ \ text {חיזויים (חדשים)} = \ sqrt {s ^ 2_ \ text {error} \ left (1+ \ frac {1} { N} + \ frac {(x_ \ text {new} - \ bar x) ^ 2} {\ sum (x_i- \ bar x) ^ 2} \ right)} $$ כהערת צד מעניינת, אנו יכולים להסיק מעט עובדות על מרווחי חיזוי ממשוואה זו. ראשית, מרווחי החיזוי יהיו צרים יותר ככל שיהיו לנו יותר נתונים כאשר בנינו את מודל החיזוי (הסיבה לכך היא שיש פחות אי ודאות ב- $ \ hat m $ & $ \ hat b $). שנית, חיזויים יהיו מדויקים ביותר אם הם נעשים בממוצע של ערכי $ x $ ששימשתם לפיתוח המודל שלכם, שכן המונה לטווח השלישי יהיה $ 0 $. הסיבה היא שבנסיבות רגילות, אין אי וודאות לגבי השיפוע המשוער בממוצע של $ x $, אלא רק אי וודאות לגבי המיקום האנכי האמיתי של קו הרגרסיה. לפיכך, כמה לקחים שיש לבנות לבניית מודלים של חיזוי הם: שיותר נתונים מועילים, לא במציאת 'משמעות', אלא בשיפור הדיוק של התחזיות העתידיות; וכי עליכם לרכז את מאמצי איסוף הנתונים על המרווח בו תצטרכו לחזות בעתיד (כדי למזער את המונה הזה), אך להפיץ את התצפיות עד כמה שניתן ממרכז זה (כדי למקסם את המכנה הזה).

לאחר שחישבנו את הערך הנכון באופן זה, נוכל להשתמש בו עם חלוקת $ t $ המתאימה כאמור לעיל.

במקרה שכדי להוסיף את השונות, אינך צריך להניח שהשאריות אינן מתואמות עם $ \ hat {m} x + \ hat {b} $, אחרת תצטרך לכלול מונח ריבוי משתנה?אך ההנחה נראית שגויה מכיוון שהשאריות אינן תלויות בחיזוי.


שאלה ותשובה זו תורגמה אוטומטית מהשפה האנגלית.התוכן המקורי זמין ב- stackexchange, ואנו מודים לו על רישיון cc by-sa 3.0 עליו הוא מופץ.
Loading...