@ whuber הצביע על שלוש תשובות טובות, אבל אולי אני עדיין יכול לכתוב משהו בעל ערך. השאלה המפורשת שלך, לפי הבנתי, היא:
בהתחשב במודל המותאם שלי, $ \ hat y_i = \ hat mx_i + \ hat b $ (שים לב שהוספתי 'כובעים') , ובהנחה שהשאריות שלי מופצות בדרך כלל, $ \ mathcal N (0, \ hat \ sigma ^ 2_e) $, אני יכול לחזות שתגובה שעדיין לא נצפתה, $ y_ {new } $, עם ערך מנבא ידוע, $ x_ {new} $, ייפול בתוך המרווח $ (\ hat y - \ sigma_e, \ hat y + \ sigma_e) $, עם סבירות 68%?
באופן אינטואיטיבי, התשובה נראית כאילו היא צריכה להיות 'כן', אך התשובה האמיתית היא אולי . זה יהיה המקרה כאשר הפרמטרים (כלומר, $ m, b, $ & $ \ sigma $) ידועים וללא שגיאות. מכיוון שהערכת את הפרמטרים הללו, עלינו לקחת בחשבון את חוסר הוודאות שלהם.
תחילה נחשוב על סטיית התקן של שאריותיך. מכיוון שזה נאמד מהנתונים שלך, יכולה להיות שגיאה כלשהי באומדן. כתוצאה מכך, ההתפלגות שבה עליך להשתמש כדי ליצור את מרווח החיזוי שלך צריכה להיות $ t_ \ text {df error} $, ולא הרגילה. עם זאת, מכיוון שה- $ t $ מתכנס במהירות למצב הרגיל, סביר להניח שזו תהיה בעיה בפועל.
אז נוכל פשוט להשתמש ב- $ \ hat y_ \ text {new} \ pm t _ {(1- \ alpha / 2, \ \ text {df error})} s $, במקום $ \ כובע y_ \ טקסט {חדש} \ pm z _ {(1- \ alpha / 2)} s $, והלך בדרכנו העליזה? למרבה הצער לא. הבעיה הגדולה יותר היא שקיימת אי וודאות לגבי הערכתך לממוצע התנאי של התגובה באותו מקום בגלל אי הוודאות בהערכות שלך $ \ hat m $ & $ \ hat b $. לפיכך, סטיית התקן של התחזיות שלך צריכה לשלב יותר מסתם $ s_ \ text {error} $ . מכיוון ש- שונות מוסיפה, השונות המשוערת של התחזיות תהיה: $$ s ^ 2_ \ text {חיזויים (חדשים)} = s ^ 2_ \ text {error} + \ text {Var} (\ כובע mx_ \ טקסט {חדש} + \ כובע ב) $$
שים לב שה- "$ x $" מנוקד בכדי לייצג את הערך הספציפי לתצפית החדשה, ושה- "$ s ^ 2 $" מתואם בהתאם. כלומר, מרווח החיזוי שלך מותנה במיקום התצפית החדשה לאורך ציר $ x $. ניתן לאמוד בצורה נוחה יותר את סטיית התקן של התחזיות שלך בנוסחה הבאה: $$ s_ \ text {חיזויים (חדשים)} = \ sqrt {s ^ 2_ \ text {error} \ left (1+ \ frac {1} { N} + \ frac {(x_ \ text {new} - \ bar x) ^ 2} {\ sum (x_i- \ bar x) ^ 2} \ right)} $$ כהערת צד מעניינת, אנו יכולים להסיק מעט עובדות על מרווחי חיזוי ממשוואה זו. ראשית, מרווחי החיזוי יהיו צרים יותר ככל שיהיו לנו יותר נתונים כאשר בנינו את מודל החיזוי (הסיבה לכך היא שיש פחות אי ודאות ב- $ \ hat m $ & $ \ hat b $). שנית, חיזויים יהיו מדויקים ביותר אם הם נעשים בממוצע של ערכי $ x $ ששימשתם לפיתוח המודל שלכם, שכן המונה לטווח השלישי יהיה $ 0 $. הסיבה היא שבנסיבות רגילות, אין אי וודאות לגבי השיפוע המשוער בממוצע של $ x $, אלא רק אי וודאות לגבי המיקום האנכי האמיתי של קו הרגרסיה. לפיכך, כמה לקחים שיש לבנות לבניית מודלים של חיזוי הם: שיותר נתונים מועילים, לא במציאת 'משמעות', אלא בשיפור הדיוק של התחזיות העתידיות; וכי עליכם לרכז את מאמצי איסוף הנתונים על המרווח בו תצטרכו לחזות בעתיד (כדי למזער את המונה הזה), אך להפיץ את התצפיות עד כמה שניתן ממרכז זה (כדי למקסם את המכנה הזה).
לאחר שחישבנו את הערך הנכון באופן זה, נוכל להשתמש בו עם חלוקת $ t $ המתאימה כאמור לעיל.