שְׁאֵלָה:
כיצד יש להתמודד עם חריגים בניתוח רגרסיה לינארית?
Sharpie
2010-07-20 04:39:50 UTC
view on stackexchange narkive permalink

פעמים רבות מועבר לאנליסט סטטיסטי מערך נתונים ומבקש להתאים מודל באמצעות טכניקה כגון רגרסיה לינארית. בתדירות גבוהה מלווה מערך הנתונים עם כתב ויתור דומה ל"או כן, פישלנו באיסוף חלק מנקודות הנתונים הללו - עשה מה שאתה יכול ".

מצב זה מוביל להתקפי רגרסיה המושפעים מאוד מ- נוכחות של חריגים שעשויים להיות נתונים שגויים. בהינתן הדברים הבאים:

  • מסוכן מבחינה מדעית ומוסרית גם להשליך נתונים ללא שום סיבה אחרת מלבד זה "גורם להתאמה להיראות רע".

  • בחיים האמיתיים, האנשים שאספו את הנתונים לעיתים קרובות אינם זמינים לענות על שאלות כגון "בעת יצירת מערך הנתונים הזה, איזו מהנקודות פישלת בדיוק?"

באילו מבחנים סטטיסטיים או כללי אצבע ניתן להשתמש כבסיס למניעת חריגים בניתוח רגרסיה ליניארית?

האם יש שיקולים מיוחדים לרגרסיה רב-קווית? / p>

קשור: רמאות אפשרית לכך: https://stats.stackexchange.com/questions/37865/is-there-a-simple-way-of-detecting-outliers |How how: https://stats.stackexchange.com/questions/53227/test-for-bivariate-outliers
עשר תשובות:
#1
+34
Rob Hyndman
2010-07-20 04:45:45 UTC
view on stackexchange narkive permalink

במקום להחריג חריגים, אתה יכול להשתמש בשיטה חזקה של רגרסיה. ב- R, למשל, ניתן להשתמש בפונקציה rlm () מחבילת MASS במקום בפונקציה lm () . ניתן לכוון את שיטת האמידה כך שהיא פחות או יותר חזקה בפני חריגים.

אם אני משתמש בפונקציה rlm (), אני רואה את המקדמים ובדיקות ה- t שלהם מיוצרים.אבל איך אוכל להשיג מכאן את ערכי ריבוע ה- R, מבחן f?אני מניח שאני לא יכול פשוט להביא את ערכי f-test ו- R בריבוע אלה מתוצאות הסיכום הפשוטות 'lm' אם אני צודק.
לצורך רגרסיה חזקה, ההנחות העומדות מאחורי מבחן F אינן עומדות עוד, וניתן להגדיר את R ^ 2 בכמה דרכים שאינן שוות יותר.ראה http://stats.idre.ucla.edu/stata/faq/how-can-i-get-an-r2-with-robust-regression-rreg/ לדיון כלשהו בנושא זה עבור סטאטה.
ראה גם https://stats.stackexchange.com/a/68367/159
אבל אני מוצא את הפקודה שנקראת f.robftest מחבילה sfsmisc שמספקת את תוצאת בדיקת f.האם אוכל להשתמש בתוצאה זו כדי להגדיר את הסטטיסטיקה של מבחן f עבור rlm?כמו כן, נראה לי שאני מקבל את ריבוע R על ידי פשוט להזין את הערכים לנוסחה המתמטית של ריבוע R כמו 1 - סכום (שאריות (rlm (y ~ x)) ^ 2) / סכום ((ממוצע y (y)) ^ 2).כדי שערכי מבחן t יבדקו את המשמעות של המקדמים, אני מקבל את ערכי הבדיקה t מסיכום (rlm (y ~ x)) אותם אני משווה לערכי t מ- 95% רמות ביטחון בערך.האם אוכל להשתמש בשיטות אלה?
@RobHyndman מדוע הרגילות $ 1-SSE / TSS $ (סכום שגיאות הריבועים, סך הריבועים) לא יחולו?לא שינינו את המודל, אלא רק את שיטת ההערכה.האם זה קשור לכך ש- $ SSE $ ו- $ TSS $ רגישים במיוחד לחריגים ולערכים קיצוניים אחרים?
#2
+24
Neil McGuigan
2010-07-20 05:15:47 UTC
view on stackexchange narkive permalink

לפעמים חריגים הם נתונים גרועים, ויש להחריג אותם, כגון שגיאות הקלדה. לפעמים הם וויין גרצקי או מייקל ג'ורדן, ויש לשמור עליהם.

שיטות זיהוי זרים כוללות:

Univariate -> boxplot. מחוץ לטווח פי 1.5 בין רבעונים הוא חריגה.

דו-משתנה -> מגרש פיזור עם אליפסה ביטחון. מחוץ, למשל, אליפסה בביטחון 95% היא חריגה.

רב משתנים -> מרחק D2 של מהאלנוביס

סמן את התצפיות האלה כקיצוניות.

הפעל רגרסיה לוגיסטית (ב- Y = IsOutlier) כדי לראות אם יש שיטתיות כלשהי דפוסים.

הסר כאלה שאתה יכול להוכיח שהם אינם מייצגים אף אוכלוסיית משנה.

ואם עדיין יש לך חריגים, שקול להשתמש במודל אחר מאשר לינארי.לדוגמא, אם אתה משתמש במודל עם התנהגות כמו חוק-כוח, מייקל ג'ורדן כבר אינו יוצא מהכלל (מבחינת יכולת המודלים להתאים אותו).
מסכים עם רוב האמור כאן, אך ברצוני להוסיף את הזהירות הנוספת לפיה "* מחוץ לטווח בין פי רביעי פי 1.5 הוא חריגה *" הוא * מוסכמה *, ולא כלל בעל יסוד תיאורטי כלשהו.אין להשתמש בה כהצדקה לאי הכללת נקודות נתונים.
#3
+21
Chris Beeley
2010-07-21 12:51:34 UTC
view on stackexchange narkive permalink

אני כן חושב שיש מה לומר רק להוציא את החריגים. קו רגרסיה אמור לסכם את הנתונים. בגלל מינוף אתה יכול להיות במצב בו 1% מנקודות הנתונים שלך משפיעות על השיפוע ב -50%.

זה מסוכן רק מנקודת מבט מוסרית ומדעית אם אתה לא אומר לאף אחד שלא הכללת החריגים. כל עוד אתה מציין אותם אתה יכול לומר:

"קו הרגרסיה הזה מתאים למדי לרוב הנתונים. 1% מהמקרים יגיע ערך שלא מתאים למגמה הזו, אבל היי, זה עולם מטורף, שום מערכת אינה מושלמת "

"היי, זה עולם מטורף, אף מערכת לא מושלמת" +1 לכך חבר שלי!:)
האם שקול דגמים אחרים.העולם אם היה מלא "חריגים" שהוסרו נתונים אמיתיים, וכתוצאה מכך לא ניבאו משהו חשוב באמת.לתהליכים טבעיים רבים יש חוק כח כמו התנהגות עם אירועים קיצוניים נדירים.נראה כי מודלים לינאריים מתאימים לנתונים כאלה (אם כי לא טובים מדי), אך השימוש באחד ומחיקת "החריגים" פירושו להחמיץ את אותם אירועים קיצוניים, שלרוב חשוב לדעת עליהם!
#4
+10
Brenden
2010-10-05 02:29:51 UTC
view on stackexchange narkive permalink

שארפי,

אם אני לוקח את שאלתך מילולית, הייתי טוען כי אין בדיקות סטטיסטיות או כללי אצבע יכולים לשמש בסיס ל אי הכללה של חריגים בניתוח רגרסיה ליניארית (בניגוד לקביעה אם תצפית נתונה היא חריגה או לא). זה חייב לבוא מתוך ידע בתחום הנושא.

אני חושב שהדרך הטובה ביותר להתחיל היא לשאול אם החריגים בכלל הגיוניים, במיוחד בהתחשב במשתנים האחרים שאספת. לדוגמה, האם זה באמת סביר שיש לך אישה במשקל של 600 קילו, שגויסה ממרפאות שונות לפציעות ספורט? או, האם זה לא מוזר שאדם מונה 55 שנות ניסיון או ניסיון מקצועי כשהוא בן 60 בלבד? וכן הלאה. אני מקווה שיש לך בסיס סביר לזרוק אותם או לגרום למהדרי הנתונים לבדוק שוב את הרשומות עבורך.

הייתי מציע גם שיטות רגרסיה חזקות ודיווח שקוף על תצפיות שהושמטו, כפי שהציעו רוב וכריס בהתאמה.

מקווה שזה יעזור, ברנדן

#5
+7
Harvey Motulsky
2010-07-27 10:41:12 UTC
view on stackexchange narkive permalink

פרסמתי שיטה לזיהוי חריגים ברגרסיה לא לינארית, וניתן להשתמש בה גם בעת התאמת מודל לינארי.

HJ Motulsky ו- RE Brown. איתור חריגים בעת התאמת נתונים לרגרסיה לא-לינארית - שיטה חדשה המבוססת על רגרסיה לא-לינארית חזקה ושיעור הגילוי השקרי. BMC ביואינפורמטיקה 2006, 7: 123

#6
+6
Sympa
2010-09-25 05:38:40 UTC
view on stackexchange narkive permalink

ישנם שני מדדי מרחק סטטיסטיים המיועדים באופן ספציפי לאיתור חריגים ואז שוקלים אם יש להסיר חריגים כאלה מהנסיגה הליניארית שלך.

הראשון הוא המרחק של קוק. תוכלו למצוא הסבר די טוב עליו בוויקיפדיה: http://en.wikipedia.org/wiki/Cook%27s_distance.

ככל שמרחק הטבח גבוה יותר כך יותר משפיע (השפעה על מקדם רגרסיה) התצפית היא. נקודת הניתוק האופיינית לשקול הסרת התצפית היא מרחק קוק = 4 / n (n הוא גודל המדגם).

השנייה היא DFFITS שגם מכוסה היטב על ידי ויקיפדיה: http://en.wikipedia.org/wiki/DFFITS. נקודת הניתוק האופיינית לשקול הסרה תצפית היא ערך DFFITS של פי 2 sqrt (k / n) כאשר k הוא מספר המשתנים ו- n הוא גודל המדגם.

שני המדדים בדרך כלל נותנים לך תוצאות דומות המובילות לבחירת תצפית דומה.

#7
+3
Paul
2010-07-26 14:46:48 UTC
view on stackexchange narkive permalink

זבל פנימה, זבל החוצה ....

משתמע בקבלת היתרון המלא של רגרסיה לינארית הוא שהרעש עוקב אחר התפלגות נורמלית. באופן אידיאלי יש לך בעיקר נתונים ומעט רעש .... לא בעיקר רעש ומעט נתונים. אתה יכול לבדוק את תקינות השאריות לאחר ההתאמה הליניארית על ידי התבוננות בשאריות. אתה יכול גם לסנן נתוני קלט לפני ההתאמה הליניארית לשגיאות בולטות.

הנה כמה סוגים של רעש בנתוני קלט אשפה שבדרך כלל אינם מתאימים להתפלגות רגילה:

  • ספרות חסרות או שנוספו עם נתונים שהוזנו ביד (כבוי לפי גורם של 10 ומעלה)
  • יחידות שגויות או שהומרו באופן שגוי (גרם מול קילו מול קילוגרמים; מטרים, רגליים, מיילים, ק"מ), אולי ממיזוג מערכי נתונים מרובים (הערה: המאסטר אורביטר נחשב לאיבוד בדרך זו, כך שאפילו מדעני רקטות נאס"א יכולים לעשות את הטעות הזו)
  • שימוש בקודים כמו 0, -1, -99999 או 99999 כמשמעותו משהו שאינו מספרי כמו "לא ישים" או "טור לא זמין" ורק השלכת זה למודל ליניארי יחד עם נתונים תקפים

כתיבת מפרט עבור "נתונים תקפים" עבור כל עמודה יכולה לעזור לך לתייג נתונים לא חוקיים. למשל, גובהו של אדם בס"מ צריך להיות בטווח, נניח, 100-300 ס"מ. אם אתה מוצא 1.8 לגובה זה שגיאת הקלדה, ולמרות שאתה יכול להניח שזה היה 1.8 מטר ולשנות אותו ל -180 - הייתי אומר שבדרך כלל יותר בטוח לזרוק אותו והכי טוב לתעד כמה שיותר את הסינון.

#8
+1
babelproofreader
2010-07-21 06:23:01 UTC
view on stackexchange narkive permalink

לצורך רגרסיה ליניארית אתה יכול להשתמש בהתאמה חוזרת של קו ישר ישר.

#9
+1
mkrasmus
2016-12-09 06:58:11 UTC
view on stackexchange narkive permalink

מבחנים סטטיסטיים שישמשו כבסיס להדרה: - שאריות סטנדרטיות - מינוף סטטיסטיקה - מרחק קוק, שהוא שילוב של השניים לעיל.

מניסיון, ההדרה צריכה להיות מוגבלת למקרים שלהזנת נתונים שגויה.שקילה מחדש של חריגים במודל הרגרסיה הליניארית היא שיטת פשרה טובה מאוד.היישום של זה ב- R מוצע על ידי רוב.דוגמה מצוינת היא כאן: http://www.ats.ucla.edu/stat/r/dae/rreg.htm

אם יש צורך בהדרה, כלל אחד שלהאגודל 'מתייחס לסטטיסטיקה של Dfbeta (מודד את השינוי בהערכה בעת מחיקת החיצון), כך שאם הערך המוחלט של נתון DfBeta עולה על 2 / sqrt (n), זה מבסס את הסרתו של החורג.

#10
  0
Ankit Kumar
2020-06-20 17:40:34 UTC
view on stackexchange narkive permalink

ברגרסיה ליניארית אנו יכולים להתמודד עם חריגים באמצעות השלבים הבאים:

  1. שימוש בנתוני אימון מצא את המטוס ההיפרטי הטוב ביותר או קו המתאים ביותר
  2. מצא נקודות שנמצאות הרחק מהקו או מהמטוס ההיפר
  3. מצביע
  4. שנמצא רחוק מאוד מהיפר-פלאן, הסר אותם ורואים בנקודה זו חריגה.כלומר D (רכבת) = D (רכבת) - יוצא דופן
  5. הכשר מחדש את המודל
  6. עבור לשלב הראשון.


שאלה ותשובה זו תורגמה אוטומטית מהשפה האנגלית.התוכן המקורי זמין ב- stackexchange, ואנו מודים לו על רישיון cc by-sa 2.0 עליו הוא מופץ.
Loading...