שְׁאֵלָה:
האם אוכל לסמוך על תוצאות ANOVA עבור DV שאינו מופץ בדרך כלל?
Matt
2010-12-22 03:38:00 UTC
view on stackexchange narkive permalink

ניתחתי ניסוי עם מדידות חוזרות של ANOVA. ANOVA הוא 3x2x2x2x3 עם 2 גורמים בין הנושא ו- 3 בתוך (N = 189). שיעור שגיאות הוא המשתנה התלוי. בהתפלגות שיעורי השגיאה יש הטיה של 3.64 וקורטוזיס של 15.75. ההטיה והקורטוזיס הם תוצאה של 90% משיעור השגיאות כלומר 0. קריאה בכמה מהשרשורים הקודמים במבחני הנורמליות כאן מבולבלת אותי מעט. חשבתי שאם היו לך נתונים שלא הופצו בדרך כלל זה האינטרס שלך להפוך אותם במידת האפשר, אך נראה כי הרבה אנשים חושבים שניתוח נתונים לא נורמליים באמצעות ANOVA או מבחן T מקובל. האם אוכל לסמוך על תוצאות ה- ANOVA?

(לידיעתך, בעתיד אני מתכוון לנתח סוג זה של נתונים ב- R עם מודלים מעורבים עם התפלגות בינומית)

האם תוכל לקשר לכמה מאותם שרשורים? אינסטינקט המעיים שלי הוא "NOOO no no no", אבל אני בקושי מומחה והייתי מעוניין לקרוא כמה מהוויכוחים האלה.
אתה בטוח לא יכול לסמוך על ערכי p שמקורם בהפצות F עם סוגים אלה של נתונים!
רבים מביאים את החוסן של ANOVA כהצדקה לשימוש בו עם נתונים לא נורמליים. IMHO, חוסן אינו תכונה כללית של מבחן, אך עליכם לציין במדויק א) כנגד הפרות ההנחות שלו המבחן הוא חזק (נורמליות, כדוריות, ...), ב) באיזו מידה להפרות אלה אין הרבה אפקט, ג) מהן התנאים המוקדמים לכך שהבדיקה תציג חוסן (גודל תא גדול ושווה ...). בתכנון העלילה המפוצלת שלך, אשמח שמישהו יציין את ההנחות המדויקות של כדוריות ושוויון של מטריצות ריבוניות. זה כבר מטושטש במקרה של 2 העובדות.
כמה מחשבות: האם יש איזו דרך שתוכל לצבור קבוצות כלשהן (למשל ממוצע ערכים בודדים) ועדיין לבצע ניתוחים משמעותיים? [Murtaugh, Paul A. 2007. פשטות ומורכבות בניתוח נתונים אקולוגיים. אקולוגיה 88, לא. 1: 56-62. http://www.esajournals.org/doi/abs/10.1890/0012-9658%282007%2988%5B56%3ASACIED%5D2.0.CO%3B2] הייתי מודאג למדי ממצב עם 90% מהתצפיות שוות לאפס ...
@whuber ניסיתי מאז חבורה של טרנספורמציות. טרנספורמציה של שורש מרובע גורמת להתפלגות עם הטיה של 2.77 וקורטוזיס של 6.21. האם תוצאות ANOVA יהיו אמינות יותר מהפצה זו? האם יש הנחיות עד כמה הפצה יכולה לחרוג מהנורמליות ועדיין לעבוד עם ANOVA?
@Matt זה נשמע כאילו 90% מהשאריות הן אפס. אם זה המקרה, שום טרנספורמציה לא תהפוך את השאריות לרחוק למצב נורמלי. מחקרי סימולציה הראו כי ערכי p ממבחני F רגישים מאוד לסטיות מהנורמליות. (במקרה שלך סביר למדי שחלק מהמכנים במבחני F יהיו אפסים: אינדיקטור חד עד כמה הדברים יכולים להשתבש.) אתה זקוק לגישה אחרת. מה לעשות תלוי * מדוע * כל כך הרבה שאריות הם אפס. חוסר דיוק מספיק במדידות?
@whuber אני מניח שאפשר לומר שה 0s נבעו מחוסר דיוק. בפשטות זו הייתה משימה קלה עם דיוק גבוה שדחפה את שונות העניין לזמני התגובה. גישה אחרת שנקטתי היא להשתמש ב- GEE עם התפלגות בינומית שלילית. לא הצלחתי להשיג מודל שווה ערך ל- ANOVA להתכנס, אך הצלחתי ליצור מספר מודלים מופחתים עם משתני מפתח מעניינים. האם זה נשמע כמו גישה סבירה?
@Matt זה נשמע מתאים יותר, בהנחה שהנתונים שלך הם ספירות. שיקול אטרקטיבי נוסף הוא אפס תגובה בינומית שלילית מנופחת (http://www.ats.ucla.edu/stat/r/dae/zinbreg.htm).
חָמֵשׁ תשובות:
Juan Ovalles
2011-01-04 06:00:42 UTC
view on stackexchange narkive permalink

כמו בדיקות פרמטריות אחרות, ניתוח השונות מניח שהנתונים תואמים את ההתפלגות הנורמלית. אם משתנה המדידה שלך אינו מופץ בדרך כלל, ייתכן שאתה מגדיל את הסיכוי שלך לתוצאה חיובית כוזבת אם תנתח את הנתונים באמצעות אנובה או בדיקה אחרת המניחה נורמליות. למרבה המזל, אנובה אינה רגישה במיוחד לסטיות מתונות מהנורמליות; מחקרי סימולציה, תוך שימוש במגוון התפלגויות לא נורמליות, הראו שהשיעור החיובי השקרי אינו מושפע מאוד מהפרה זו של ההנחה (Glass et al. 1972, Harwell et al. 1992, Lix et al. 1996). הסיבה לכך היא שכאשר לוקחים מספר גדול של דגימות אקראיות מאוכלוסיה, האמצעים של אותן דגימות מפוזרים כרגיל גם כאשר האוכלוסייה אינה תקינה.

ניתן לבדוק את טובת-הטוב- התאמה של מערך נתונים להתפלגות הנורמלית. אני לא מציע לך לעשות זאת, מכיוון שמערכי נתונים רבים שאינם נורמליים באופן משמעותי יתאימו לחלוטין לאנובה.

במקום זאת, אם יש לך ערכת נתונים גדולה מספיק, אני מציע שתסתכל רק על היסטוגרמת התדרים. אם זה נראה נורמלי פחות או יותר, קדימה ובצע אנובה. אם זה נראה כמו התפלגות נורמלית שנדחקה לצד אחד, כמו נתוני הסולפט שלמעלה, עליך לנסות טרנספורמציות נתונים שונות ולראות אם אחת מהן גורמת להיסטוגרמה להראות רגילה יותר. אם זה לא עובד, והנתונים עדיין נראים לא נורמליים מאוד, כנראה שזה עדיין בסדר לנתח את הנתונים באמצעות אנובה. עם זאת, ייתכן שתרצה לנתח אותו באמצעות בדיקה לא פרמטרית. כמעט בכל מבחן סטטיסטי פרמטרי יש תחליף שאינו פרמטרי, כגון מבחן קרוסקאל-וואליס במקום אנובה חד-כיוונית, מבחן דרגה חתום של וילקוקסון במקום מבחן t זוגי, ומתאם דרגה של ספירמן במקום רגרסיה ליניארית. בדיקות לא פרמטריות אלו אינן מניחות שהנתונים תואמים את ההתפלגות הנורמלית. הם כן מניחים כי הנתונים בקבוצות שונות הם בעלי התפלגות זהה זה לזה; אם לקבוצות שונות יש התפלגויות מעוצבות שונות (למשל, אחת מוטה שמאלה, אחרת מוטה ימינה), מבחן שאינו פרמטרי עשוי להיות לא טוב יותר מאשר פרמטרי.

הפניות

  1. Glass, GV, PD פקהאם וג'יי אר סנדרס. 1972. השלכות של אי עמידה בהנחות העומדות בבסיס ניתוחי ההשפעות הקבועות של שונות ומשונות. הכומר חינוך. מילואים 42: 237-288.
  2. Harwell, M.R., E.N. רובינשטיין, וו.ס. הייז, ו- C.C. זקנים. 1992. סיכום מונטה קרלו מביא למחקר מתודולוגי: מקרי ANOVA של ההשפעות הקבועות של גורם אחד ושני גורמים. ג'י חינוך. סטאט. 17: 315-339.
  3. ליקס, ל 'מ', ג'יי סי קסלמן, וח.ג 'קסלמן. 1996. השלכות של הפרות הנחות חוזרות: סקירה כמותית של חלופות לניתוח חד-כיווני של שונות F מבחן. הכומר חינוך. מילואים 66: 579-619.
אולי אני פשוט מגלה את בורותי כאן, אך האם ההנחה שמאחורי ANOVA היא שהשאריות אינן תקינות? במקרה זה לא ממש משנה אם המשתנה עצמו אינו תקין, כל עוד השאריות מתאימות לתבנית.
אולי השאלה נערכה אבל אני באמת לא מבין למה התשובה הזו הועלתה על דעתה והתקבלה. זו עצה כללית ראויה, אך אין לה כמעט שום קשר למקרה המסוים הזה של "הטיה וקורטוזיס הם תוצאה של 90% משיעור השגיאות פירושו להיות 0". במקרה זה התשובה צריכה להיות לא, לא ולא.
Mike Lawrence
2011-01-05 01:02:00 UTC
view on stackexchange narkive permalink

באופן ספציפי באשר לשיעורי השגיאה כ- DV, Dixon (2008) מדגים בצורה מאוד בקוגנטית שבדיקת השערה אפסית באמצעות ANOVA יכולה לגרום לשני שיעורי אזעקת שווא מוגברים (קוראים לאפקטים "משמעותיים" כאשר הם לא) ו עלייה בשיעורי ההחמצה (חסרים אפקטים אמיתיים). הוא גם מראה כי דוגמנות אפקטים מעורבים, המציינת שגיאה בהפצה דו-צדדית, היא הגישה המתאימה יותר לניתוח נתוני קצב.

Mike Young
2012-07-02 02:01:15 UTC
view on stackexchange narkive permalink

אינך יכול לסמוך על ה- ANOVA שלך בהטייה כה רבה ובמספר גדול של 0 שניות. שיטה מתאימה יותר תהיה להשתמש במספר שגיאות כ- DV שלך (ובכך להפוך את ה- DV שלך לנתוני ספירה) ולעשות ניתוח Poisson. גישה זו תדרוש שימוש בניתוח אפקטים מעורבים ולציין את משפחת חלוקת השגיאות כ- Poisson. המאמר דיקסון (2008) * שהוזכר על ידי מייק לורנס משתמש בניתוח אפקטים מעורבים ב- R אך עם תוצאות בינומיות. עברתי לחלוטין לעשות R במשך רוב ניתוחי המדידות החוזרות שלי מכיוון שרבים כל כך ממשתני התוצאה שלי הם בינומיים. חבילת R המתאימה היא lme4.

$ * $ Dixon, P. (2008). מודלים של דיוק בתכנונים חוזרים ונשנים. יומן הזיכרון והשפה , 59 (4), 447-456.

rolando2
2011-01-04 23:44:03 UTC
view on stackexchange narkive permalink

חואן הציע הרבה, אם כי אני אדהד אחרים ואחזור שלמען הדיוק הטוב ביותר המשתנים עצמם יכולים להיות לא נורמליים כל עוד שאריותם אינן. כמו כן, תשובה פשוטה ומובנית מעט יותר (באמצעות תרשים זרימה מבואר) זמינה בכתובת yellowbrickstats.com.

מצטער, אבל -1 ממני. זה נכון באופן כללי, אך השאריות לא יהיו אם תהיה לנו אינפלציה של אפסים. אני חושב שהתשובות לא צריכות רק לכסות כלליות אלא להתייחס לנושא הספציפי.
james
2019-05-08 18:47:21 UTC
view on stackexchange narkive permalink

אפקטים של תקרה הם הבעיה כאן.מבחן לא פרמטרי הוא ההימור הבטוח ביותר שלך, אם כי ANOVAs הם חזקים להפרה זו של הנורמליות אם n הוא גדול.בדרך כלל אנשים פשוט משתמשים בהיסטוגרמה כדי לבדוק זאת, אך אם הבעיה בנושא שאריות היא עשויה להיות מתקדמת יותר מכך.זכור גם כיצד זה משפיע על התוצאות שלך (לא רק שזה עושה זאת).סביר להניח ש- Pallant (2007) יגיד שזה מגדיל את הסיכוי שלך לשגיאה מסוג 1, כך שאם אתה מקטין את האלפא הקריטי שלך אתה מקטין זאת.



שאלה ותשובה זו תורגמה אוטומטית מהשפה האנגלית.התוכן המקורי זמין ב- stackexchange, ואנו מודים לו על רישיון cc by-sa 2.0 עליו הוא מופץ.
Loading...