שְׁאֵלָה:
מה הבסיס להגדרת מגרש Box ו- Whisker Plot של חריג?
Tavrock
2017-02-03 02:35:28 UTC
view on stackexchange narkive permalink

ההגדרה הסטנדרטית של חריץ עבור עלילת Box ו- Whisker היא נקודות מחוץ לטווח $ \ left \ {Q1-1.5IQR, Q3 + 1.5IQR \ right \} $, כאשר $ IQR = Q3-Q1 $ ו- $ Q1 $ הוא הרבעון הראשון ו- $ Q3 $ הוא הרבעון השלישי של הנתונים.

מה הבסיס להגדרה זו? עם מספר רב של נקודות, אפילו התפלגות נורמלית לחלוטין מחזירה חריגים.

לדוגמה, נניח שאתה מתחיל ברצף:

  xseq<-seq (1-.5 ^ 1/4000, .5 ^ 1/4000, לפי = -.00025)
 

רצף זה יוצר דירוג אחוזוני של 4000 נקודות נתונים.

בדיקת תקינות ל qnorm של סדרה זו מביאה ל:

  shapiro.test (qnorm (xseq))

    מבחן נורמליות של שפירו-וילק

נתונים: qnorm (xseq)
W = 0.99999, ערך p = 1

ad.test (qnorm (xseq))

    מבחן נורמליות של אנדרסון-דרלינג

נתונים: qnorm (xseq)
A = 0.00044273, ערך p = 1
 

התוצאות הן בדיוק כצפוי: הנורמליות של התפלגות נורמלית היא נורמלית. יצירת qqnorm (qnorm (xseq)) יוצרת (כצפוי) קו נתונים ישר:

qqnorm plot of data

אם נוצר תיבת מגרש מאותם נתונים, boxplot (qnorm (xseq)) מייצר את התוצאה:

boxplot of the data

מגרש התיבות, בשונה מ- shapiro.test , ad.test , או qqnorm מזהה מספר נקודות כחריגות כאשר גודל המדגם גדול דיו (כמו בדוגמה זו).

למה אתה מתכוון ב"בסיס "?זו הגדרה כלשהי, ואף אחד לא אומר שהתפלגות נורמלית לחלוטין אין חריגים
@hxd1011, הגדרת ההפצה אינה יכולה להיות חריגה מעצמה.הגדרה זו לבדיקת חריגים על קופסה ועלילת זיף היא בדיקה / משהו / כדי לספק את התוצאה, מה שהיא בודקת יהיה בסיס הבדיקה.
אני חושב שההגדרה החריגה של התיבה והזיפים היא רק כמה היוריסטיות ... כמו כן, מדוע בהגדרה של ההתפלגות לא יכול להיות חריג מהעצמי?
לא משנה באיזה כלל תבחר, בסופו של דבר תגיד "עם מספר רב של נקודות, אפילו התפלגות נורמלית לחלוטין מחזירה חריגים".[נסה להמציא דרך לזיהוי שימושי של חריגים שאינם יכולים לדחות נקודות אם אתה מדגם מהתפלגות נורמלית.]
אנקדוטה חוזרת ונשנית היא שג'ון טוקי, שהעלה את כלל האצבע הזה, נשאל מדוע 1.5;ואמר ש -1 יהיה מעט מדי ו -2 יהיה יותר מדי.בהתחשב במספר הפעמים שראיתי את הקריאה הלא נכונה כקריטריון סופי, מובהק, אשמח יותר שהוא יתפוגג.עכשיו לכולנו יש מחשבים שיכולים להציג את כל הנתונים!
טוקי מעולם לא התייחס לערכים אלה כאל חריגים.הוא כינה אותם ערכים מחוץ לערכים.שום דבר לא נרמז לגבי מה צריך לעשות איתם.טוקי היה מתמטיקאי גדול אך גם סטטיסטיקאי פרגמטי מאוד, או, כפי שהיה אומר, מנתח נתונים.אין בסיס מתמטי להגדרות אלו, אך הן בעלות ערך בפועל כדרך להצגת נתונים, ולא להנחות ניתוחים סטטיסטיים.
@David Lane בהחלט.למרבה הצער (לדעתי) קוראים רבים הסיקו, או נראה שהסיקו כי "בחוץ" ו"רחוק החוצה "היו רק מונחי גרסה מוזרים על הרעיון של חריגים או (הגרוע מכל) קריטריונים לנקודות שיש למחוק.מה שמגיע ליותר מתח הוא שתאי תיבות המציגים נטייה ניכרת עם נקודות מזוהות הם בדרך כלל גירוי לעבודה בקנה מידה שהפך.
ארבע תשובות:
COOLSerdash
2017-02-03 03:15:30 UTC
view on stackexchange narkive permalink

מגרשי תיבות

הנה קטע רלוונטי מ- הוגלין, מוסטלר וטוקי (2000): הבנת ניתוח נתונים איתנים וחקירתיים. וויילי. פרק 3, "Boxplots and Batch Comparison", שנכתב על ידי ג'ון ד 'אמרסון וג'ודית סטרניו (מעמ' 62):

[...] הגדרתנו את החריגים כערכי נתונים קטנים מ- $ F_ {L} - \ frac {3} {2} d_ {F} $ או גדול מ $ F_ {U } + \ frac {3} {2} d_ {F} $ הוא קצת שרירותי, אך ניסיון עם מערכי נתונים רבים מעיד על כך הגדרה זו משמשת היטב בזיהוי ערכים העשויים לדרוש תשומת לב מיוחדת. [...]

$ F_ {L} $ ו- $ F_ {U} $ מציינים את הרבעון הראשון והשלישי ואילו $ d_ {F} $ הוא הטווח הבין-רבעוני (כלומר $ F_ {U} -F_ {L} $ ).

הם ממשיכים ומראים את היישום לאוכלוסייה גאוסית (עמוד 63):

שקול את ההתפלגות הגאוסית הסטנדרטית, עם ממוצע $ 0 $ ושונות $ 1 $ . אנו מחפשים ערכי אוכלוסייה של התפלגות זו המקבילים לערכי המדגם המשמשים בתיבת העלילה. לסימטריה התפלגות, החציון שווה לממוצע, כך שחציון האוכלוסייה של ההתפלגות הגאוסית הסטנדרטית היא $ 0 $ . רבעי האוכלוסייה הם $ - 0.6745 $ ו- $ 0.6745 $ , כך שהאוכלוסייה הרביעית בפריסה היא $ 1.349 $ , או בערך $ \ frac {4} {3} $ . כך $ \ frac {3} {2} $ פעמים שהמרווח הרביעי הוא $ 2.0235 $ $ 2 $ ). הקיצוצים באוכלוסייה הם פחות $ \ pm 2.698 $ (בערך $ 2 \ frac {2} {3} $ ), והם מכילים $ 99.3 \% $ של ההפצה. [...]

אז

[הם] מראים שאם החתכים מוחלים על גאוס התפלגות, ואז 0.7 $ \% $ span> מהאוכלוסייה נמצא מחוץ למגזר החיצוני קיצוצים; נתון זה מספק סטנדרט של השוואה לשיפוט מיקום הקיצוצים החריגים [...].

יתר על כן, הם כותבים

[...] לפיכך אנו יכולים לשפוט האם הנתונים שלנו נראים כבדים יותר מזו הגאוסית לפי כמה נקודות חורגות מהקיצוצים החריגים יותר. [...]

הם מספקים טבלה עם השיעור הצפוי של ערכים שיוצאים מחוץ לניתוחים החריגים (שכותרתם "סך הכל% החוצה"):

Table 3-2

אז הפסקות האלה מעולם לא התכוונו להוות כלל קפדני לגבי נקודות הנתונים שהן חריגות או לא. כפי שציינת, אפילו הפצה רגילה מושלמת צפויה להציג "חריגים" במגרש תיבות.


חריגים

עד כמה שידוע לי, אין הגדרה מקובלת באופן חריג. אני אוהב את ההגדרה מאת הוקינס (1980):

חריג הוא תצפית החורגת כל כך הרבה מהאחר תצפיות לעורר חשדות שהוא נוצר על ידי א מנגנון שונה.

באופן אידיאלי, עליך להתייחס לנקודות נתונים כאל חריגות ברגע שאתה מבין מדוע הן אינן שייכות לשאר הנתונים. כלל לא מספיק. טיפול טוב בחריגים ניתן למצוא ב- Aggarwal (2013).

הפניות

Aggarwal CC (2013): ניתוח חוץ. ספרינגר.
הוקינס ד (1980): זיהוי חריגים. צ'פמן והול.
הוגלין, מוסטלר וטוקי (2000): הבנת ניתוח נתונים איתנים וחקירתיים. וויילי.

Michael Lew
2017-02-03 02:59:36 UTC
view on stackexchange narkive permalink

לעתים קרובות מניחים שהמילה 'outlier' מתכוונת למשהו כמו 'ערך נתונים שגוי, מטעה, טועה או שבור ולכן יש להשמיט אותו מניתוח', אך לא לשם כך התכוון טוקי בשימוש שלו בחריגה.החריגים הם פשוט נקודות שנמצאות רחוק מהחציון של מערך הנתונים.

הנקודה שלך לגבי ציפייה לחריגים במערכי נתונים רבים היא נכונה וחשובה.ויש הרבה שאלות ותשובות טובות בנושא.

הסרת חריגים מנתונים אסימטריים

האם זה מתאים לזהות ולהסיר חריגים מכיוון שהם גורמים לבעיות?

bdeonovic
2017-02-03 02:41:49 UTC
view on stackexchange narkive permalink

כמו בכל שיטות האיתור של חריגים, יש להשתמש בזהירות ובמחשבה כדי לקבוע אילו ערכים הם חריגים באמת.אני חושב ש- boxplot פשוט מספק הדמיה טובה של התפשטות הנתונים וכל חריגים אמיתיים יהיו קלים לתפוס.

Robert Jones
2018-11-01 00:20:49 UTC
view on stackexchange narkive permalink

אני חושב שאתה צריך להיות מודאג אם אינך מקבל חריגים כחלק מהתפלגות נורמלית, אחרת אולי אתה צריך לחפש סיבות שאין כאלה.ברור שיש לבדוק אותם כדי לוודא שהם לא רושמים שגיאות, אך אחרת ניתן לצפות מהם.



שאלה ותשובה זו תורגמה אוטומטית מהשפה האנגלית.התוכן המקורי זמין ב- stackexchange, ואנו מודים לו על רישיון cc by-sa 3.0 עליו הוא מופץ.
Loading...