ההגדרה הסטנדרטית של חריץ עבור עלילת Box ו- Whisker היא נקודות מחוץ לטווח $ \ left \ {Q1-1.5IQR, Q3 + 1.5IQR \ right \} $, כאשר $ IQR = Q3-Q1 $ ו- $ Q1 $ הוא הרבעון הראשון ו- $ Q3 $ הוא הרבעון השלישי של הנתונים.
מה הבסיס להגדרה זו? עם מספר רב של נקודות, אפילו התפלגות נורמלית לחלוטין מחזירה חריגים.
לדוגמה, נניח שאתה מתחיל ברצף:
xseq<-seq (1-.5 ^ 1/4000, .5 ^ 1/4000, לפי = -.00025)
רצף זה יוצר דירוג אחוזוני של 4000 נקודות נתונים.
בדיקת תקינות ל qnorm
של סדרה זו מביאה ל:
shapiro.test (qnorm (xseq))
מבחן נורמליות של שפירו-וילק
נתונים: qnorm (xseq)
W = 0.99999, ערך p = 1
ad.test (qnorm (xseq))
מבחן נורמליות של אנדרסון-דרלינג
נתונים: qnorm (xseq)
A = 0.00044273, ערך p = 1
התוצאות הן בדיוק כצפוי: הנורמליות של התפלגות נורמלית היא נורמלית. יצירת qqnorm (qnorm (xseq))
יוצרת (כצפוי) קו נתונים ישר:
אם נוצר תיבת מגרש מאותם נתונים, boxplot (qnorm (xseq))
מייצר את התוצאה:
מגרש התיבות, בשונה מ- shapiro.test
, ad.test
, או qqnorm
מזהה מספר נקודות כחריגות כאשר גודל המדגם גדול דיו (כמו בדוגמה זו).