שְׁאֵלָה:
כשמבצעים בדיקת t מדוע מעדיפים להניח (או לבדוק) שונות שונות באותה מידה מאשר תמיד להשתמש בקירוב Welch של ה- df?
russellpierce
2010-07-20 19:19:41 UTC
view on stackexchange narkive permalink

נראה שכאשר מתקיימת ההנחה של הומוגניות השונות, התוצאות ממבחן t מותאם של Welch ובדיקת t סטנדרטית זהות בערך. מדוע לא פשוט להשתמש תמיד ב- Welch t?

שבע תשובות:
#1
+36
Henrik
2010-07-27 20:14:23 UTC
view on stackexchange narkive permalink

ברצוני להתנגד לשתי התשובות האחרות המבוססות על מאמר (בגרמנית) מאת Kubinger, Rasch and Moder (2009).

הם טוענים, בהתבסס על " סימולציות מקיפות של התפלגויות שנפגשו או לא עונות על ההנחות המונחות על ידי מבחן t, (נורמליות והומוגניות של שונות) לפיהן מבחני הריצה פועלים באותה מידה כאשר מתקיימות ההנחות (כלומר בעצם אותה הסתברות לבצע אלפא ובטא שגיאות) אך עולה על מבחן t אם ההנחות אינן מתקיימות, במיוחד מבחינת כוח. לכן, הם ממליצים להשתמש תמיד במבחן welch אם גודל המדגם עולה על 30.

כהערת מטא: לאנשים שמתעניינים בסטטיסטיקה (כמוני וכנראה שרוב האחרים כאן) טיעון המבוסס על נתונים (כשלי) צריך לפחות לספור באותה מידה כטיעונים המבוססים אך ורק על בסיס תיאורטי (כמו האחרים כאן).


עדכון:
לאחר שחשבתי על נושא זה שוב מצאתי שתי המלצות נוספות שהחדישה יותר מהן מסייעת את דעתי. עיין בעיתונים המקוריים (שניהם, לפחות מבחינתי, זמינים באופן חופשי) עבור הטיעונים המובילים להמלצות אלה.

ההמלצה הראשונה מגיעה מ- Graeme D. Ruxton בשנת 2006: " אם ברצונך להשוות את הנטייה המרכזית של שתי אוכלוסיות בהתבסס על דוגמאות של נתונים שאינם קשורים, יש להשתמש תמיד במבחן השונות הלא שוויוני בהעדפת מבחן ה- Student או מבחן ה- Mann – Whitney U. " ב:
Ruxton, GD, 2006. מבחן t השונות הלא שוויונית הוא אלטרנטיבי בשימוש במבחן t של הסטודנט ובמבחן U – Mann – Whitney U. התנהגות. אקול . 17, 688-690.

ההמלצה השנייה (המבוגרת) היא של Coombs et al. (1996, עמ '148): " לסיכום, בדיקת הדגימות הבלתי תלויות מקובלת בדרך כלל מבחינת שליטה בשיעורי השגיאה מסוג I בתנאי שיש דגימות גדולות מספיק בגודל שווה, גם כאשר הפרת הנחת השונות של האוכלוסייה השווה . עבור דגימות בגודל לא שווה, לעומת זאת, עדיפה חלופה שאינה מניחה שוני אוכלוסיה שווה. השתמש במבחן מסדר שני של ג'יימס כאשר ההפצות הן סימטריות קצרות זנב או נורמליות. חלופות מבטיחות כוללות את Wilcox H ו- פרושו של Yuen הוא גזירה של בדיקות, המספקות שליטה רחבה יותר על שיעורי השגיאה מסוג I מאשר מבחן Welch או מבחן James, ויש להם כוח רב יותר כאשר הנתונים הם ארוכי זנב. " (הדגשה הוסיפה)
ב:
Coombs WT, Algina J, Oltman D. 1996. מבחני השערת אומניבוס חד-משתנים ורב-משתנים שנבחרו לבקרת שיעורי השגיאה מסוג I כאשר שונות האוכלוסייה אינן שוות בהכרח. Rev Educ Res 66: 137–79.

מטא-תגובה: נקודה טובה. אך ייתכן שהנתונים שלך לא ינהגו כמו שלי! :-)
הנריק, אכפת לך שאערוך את התשובה ל: (1) לשנות את המינוח על ידי קריאת המבחנים למבחן הסטודנטים ולמבחן ה- Welch (כפי שמצאתי ברוב הספרות);(2) כלול מאמר נוסף שמציע זאת בדיון: https://www.rips-irsp.com/article/10.5334/irsp.82/ (הוא מדגיש את ההטיה שקורה כאשר אתה בוחר את המבחנים על בסיס המבחן של לבנהשל הומוגניות).
#2
+13
Dave Kellen
2010-07-27 20:43:52 UTC
view on stackexchange narkive permalink
כמובן שאפשר לנטוש את שתי המבחנים ולהתחיל להשתמש במבחן t Bayesian (מבחן יחס Savage-Dickey), שיכול להסביר שוני לא שוויוני ולא שוויוני, והכי טוב, זה מאפשר כימות ראיות ב לטובת השערת האפס (שמשמעותה, לא יותר של "כישלון לדחות" שיחות ישנות)

מבחן זה מאוד פשוט (ומהיר) ליישום, ויש מאמר שמסביר בבירור לקוראים שאינם מוכרים עם נתונים סטטיסטיים של Bayesian כיצד להשתמש בו, יחד עם סקריפט R. אתה בעצם יכול פשוט להוסיף את הנתונים שלך ולשלוח את הפקודות למסוף R:

Wetzels, R., Raaijmakers, J. G. W., Jakab, E., & Wagenmakers, E.-J. (2009). כיצד לכמת תמיכה בעד ונגד ההשערה האפסית: יישום WinBUGS גמיש של בדיקת ברירת מחדל של Bayesian.

יש גם הדרכה לכל זה, עם נתונים לדוגמא:

http://www.ruudwetzels.com/index.php?src=SDtest

אני יודע שזו לא תגובה ישירה למה שנשאל, אבל אני חשב שהקוראים עשויים ליהנות מהאלטרנטיבה הנחמדה הזו

הידד

תמיד החבר'ה הבייזיים האלה ...
אלטרנטיבה בייסיאנית נוספת למבחן t היא שגרת BEST של קרושקה (ההערכה של Bayesian מחליפה את מבחן t). מידע נוסף כאן: http://www.indiana.edu/~kruschke/BEST/. גרסה מקוונת כאן: http://www.sumsar.net/best_online/.
#3
+7
Rich
2010-07-20 21:43:43 UTC
view on stackexchange narkive permalink

מכיוון שתוצאות מדויקות עדיפות על קירובים, והימנע ממקרי קצה מוזרים בהם הקירוב עשוי להוביל לתוצאה שונה מזו של השיטה המדויקת.

שיטת Welch אינה דרך מהירה יותר לבצע כל מבחן t ישן, אלא קירוב ניתן לבעיה אחרת מאוד קשה: כיצד לבנות מבחן t תחת שונות לא שווה. מקרה השונות השווה מובן היטב, פשוט ומדויק, ולכן יש להשתמש בו תמיד במידת האפשר.

אני חושב שאני נוטה להסכים יותר עם ג'ון טוקי - "* הרבה יותר טוב תשובה משוערת לשאלה הנכונה, שלעתים קרובות היא מעורפלת, מאשר תשובה מדויקת לשאלה הלא נכונה, שתמיד ניתן לדייק."
מבחן ה- t-variance (הסטודנט) עצמו הוא רק קירוב (לא מובן) כאשר * אוכלוסיית * השונות המדגמית אינן שוות.לכן, אלא אם כן ידוע ששוני האוכלוסייה שווה, עדיף להשתמש בקירוב להתפלגות הדגימה הנכונה (Welch-Satterthwaite) מאשר להשתמש בהתפלגות מדויקת לחלוטין שאינה חלה על מודל הנתונים.
#4
+4
dsimcha
2010-09-21 06:36:25 UTC
view on stackexchange narkive permalink

שתי סיבות שאני יכול לחשוב עליהן:

  1. ה- T של הסטודנט הרגיל הוא די חזק להטרוסדקסטיות אם גדלי המדגם שווים.

  2. אם אתה מאמין ב a priori שהנתונים הם הומוסקדסטיים, אז אתה לא מאבד דבר ועשוי להרוויח כמות קטנה של כוח על ידי שימוש ב- Studen'ts T במקום T. של Welch.

אחת הסיבות שהייתי לא נותנת היא שה- T של התלמיד הוא מדויק ו- T של Welch לא. IMHO מדויקות ה- T של התלמיד הינה אקדמית מכיוון שהיא מדויקת רק עבור נתונים המופצים בדרך כלל, ואין נתונים אמיתיים ש בדיוק מופצים כרגיל. אני לא יכול לחשוב על כמות אחת שאנשים באמת מודדים ומנתחים סטטיסטית היכן שההתפלגות יכולה להיות תומכת בכל המספרים האמיתיים. לדוגמא, ישנם רק כל כך הרבה אטומים ביקום, וכמויות מסוימות אינן יכולות להיות שליליות. לכן, כאשר אתה משתמש בכל סוג של בדיקת T על נתונים אמיתיים, בכל מקרה אתה מבצע קירוב.

(1) אינו נכון כאשר שונות האוכלוסייה הבסיסית שונות מאוד.במקרה קיצוני - כדי לראות מדוע זה כך - שקול מה קורה כאשר לאוכלוסייה אחת אין שונות כלל.הסטודנט לא היה משווה למעשה נתונים מהאוכלוסייה האחרת לקבוע, אך הוא חושב שיש לו דרגות חופש רבות פי שניים.השגיאה שהיא עושה תהיה דומה רק לשימוש במבחן Z.
אמנם זה נכון @whuber זה רק למקרים קיצוניים מאוד.רק הסתכלתי על הפרש שונות 1e6: 1 ו- p ≈ .053.אז זה יכול לקרות אבל אני עדיין טוען שזה די חזק עם שווה ל- N.
@John יחס השונות של 1e6: 1 הוא * עצום *, ללא קשר למה ש- $ n_i $ עשוי להיות.סביר להניח שהסטודנט לא יטעה במקרה זה.
@whuber, אני רק מציע שבעוד שההערה שלך לעיל נכונה מבחינה טכנית, תיקון Welch אינו הפיתרון לבעיה שאתה מציב כדוגמה והיא אפילו לא ממש קריטית מאוד לחוסנות הבדיקה מבחינת שיעורי אלפא (אשרזה מה שמשמעותו (1) בדרך כלל).כפי שאתה מציע, כאשר שונות (קיצונית) לא שוויונית היא נושא שיש לך בעיות אחרות, אבל זה באמת נושא אחר.
#5
+3
user88
2010-07-20 19:40:33 UTC
view on stackexchange narkive permalink

העובדה שמשהו מורכב יותר מצטמצם למשהו פחות מורכב כאשר בודקים הנחה כלשהי אינה מספיקה כדי לזרוק את השיטה הפשוטה יותר.

במיוחד בכל מה שקשור לתלמידים.
#6
+2
Sympa
2010-09-17 04:53:00 UTC
view on stackexchange narkive permalink

הייתי לוקח את ההשקפה ההפוכה כאן. מדוע להתעסק במבחן Welch כאשר מבחן הסטודנטים הסטנדרטי הלא מזווג הסטנדרטי נותן לך תוצאות כמעט זהות. למדתי את הנושא לפני זמן קצר וחקרתי מגוון תרחישים בניסיון לפרק את מבחן t ולהעדיף את מבחן Welch. לשם כך השתמשתי בגדלים מדגמיים גדולים פי 5 עבור קבוצה אחת לעומת השנייה. וחקרתי שונות עד פי 25 בקרב קבוצה אחת לעומת השנייה. וזה באמת לא עשה שום הבדל מהותי. מבחן ה- t הלא מזווג עדיין יצר טווח של ערכי p שהיו כמעט זהים למבחן Welch.

אתה יכול לראות את עבודתי בקישור הבא ולהתמקד במיוחד בשקופית 5 ו -6.

http://www.slideshare.net/gaetanlion/unpaired-t -משפחת מבחן

אני מצטער, איזה הבחנה אתה מבחין בין נוסחת הדגימה הגדולה לנוסחת הדגימה הקטנה? האם אתה מחשב את השונות באמצעות נוסחת אוכלוסיה בדגימות גדולות ולא באמצעות אומדן מדגם של שונות האוכלוסייה?
למבחן הסטודנט הלא מזווג יש שתי נוסחאות. נוסחת הדגימה הגדולה מוחלת על דגימות עם יותר מ -30 תצפיות. נוסחת הדגימה הקטנה מוחלת על דגימות עם פחות מ -30 תצפיות. ההבדל העיקרי בנוסחאות אלה הוא כיצד הם מחשבים את השגיאה הסטנדרטית המאוגדת. נוסחת המדגם הקטנה היא הרבה יותר מסובכת ואינטואיטיבית. ולמעשה זה באמת משנה מאוד. בדקתי את זה מספר פעמים. לכן אני חושב שרוב האנשים שכחו מההבחנה הזו. והם משתמשים ברוב הפעמים בנוסחת הדגימה הגדולה.
#7
  0
John
2017-06-28 00:09:27 UTC
view on stackexchange narkive permalink

נכון שהתכונות התכופות של המבחן המתוקן של Welch טובות יותר מ- T הסטודנט הרגיל, לפחות לטעויות. אני מסכים שרק זה טיעון די טוב למבחן וולש. עם זאת, בדרך כלל אני לא שואל להמליץ ​​על תיקון Welch מכיוון שהשימוש בו לרוב מטעה. וזה, אומנם לא ביקורת על המבחן עצמו.

הסיבה שאני לא ממליץ על תיקון ה- Welch היא שהוא לא משנה רק את דרגות החופש ואת ההתפלגות התיאורטית שלאחר מכן שמהם שואבים את ערך ה- p. זה הופך את הבדיקה ללא פרמטרית. כדי לבצע מבחן t מתוקן של Welch, עדיין מאגדים את השונות כאילו ניתן להניח שוויון שווה, אך לאחר מכן משנים את הליך הבדיקה הסופי המרמז על כך שלא ניתן להניח כי שוויון שווה, או שמא אכפת לך ממגוון הדגימה. זה הופך אותה לבדיקה לא פרמטרית מכיוון שהשונות המאוגדת נחשבת לא מייצגת את האוכלוסייה והודאת שאתה סתם בודק את הערכים הנצפים שלך.

כשלעצמו אין בזה שום דבר רע במיוחד. עם זאת, אני מוצא את זה מטעה מכיוון שא) בדרך כלל זה לא מדווח עם מספיק ספציפיות; וב) האנשים המשתמשים בו נוטים לחשוב על זה בערבוביה במבחן t. הדרך היחידה שאדע אי פעם שזה נעשה בעיתונים שפורסמו היא כשאני רואה DF מוזר להפצה t. זו הייתה גם הדרך היחידה שרקסטון (שהוזכר בתשובת הנריק) יכול היה לספר בביקורת. למרבה הצער, האופי הלא פרמטרי של המבחן המתוקן של וולץ 'מתרחש בין אם דרגות החופש השתנו או לא (כלומר, גם אם שונות הדגימה שווה). אך נושא הדיווח הזה הוא סימפטומטי לעובדה שרוב האנשים המשתמשים בתיקון Welch אינם מכירים בשינוי זה במבחן. רק ראיינתי כמה קולגות והם הודו שמעולם לא חשבו על זה.

לכן, בגלל זה, אני מאמין שאם אתה מתכוון להמליץ על בדיקה לא פרמטרית, אל תשתמש בבדיקה שלעתים קרובות נראית פרמטרית או לפחות תהיה ברור מאוד לגבי מה שאתה עושה.השם הרשמי של הבדיקה צריך להיות מבחן T ללא תיקון Welch Corrected.אם אנשים דיווחו על כך ככה הייתי שמח יותר עם המלצתו של הנריק.

לא מצאתי שום תמיכה בתשובתך מדוע מבחן Welch עשוי להיות "מטעה".האם תוכל להסביר את הבסיס לכך?
אולי העריכות שלי הבהירו את הדברים @whuber.הייתי צריך להיות ברור שזה לא מובטח שהוא מתעתע, אבל לעתים קרובות זה גם למשתמש של הבדיקה וגם לקורא של תוצאות הבדיקה.
תודה.מלבד נושא הדיווח - שלא יהיה זה הוגן לאפיין כשגיאה במבחן! - נראה שזה מסתכם באיזושהי התנגדות מצדך שמבחן Welch אינו פרמטרי.מה יכול להיות העניין בזה?* Ceteris paribus *, זה צריך להיחשב יתרון, לא בעיה.
זו הבחנה שבדרך כלל לא הובהרה.אני מודה בתשובה שזה לא כשלעצמו בעיה אבל רוב האנשים נוטים לטפל בזה באופן פרמטרי, וזו טעות.אני לא חושב שכאן המקום לנהל את הדיון על היתרונות או העלויות של בדיקות לא פרמטריות.כמו כן, זה לא הוזכר בשרשור וזה יכול להיות בעיה עבור אנשים רבים.כאמור, שניים משיעור הסטטיסטיקה של מבוא שלנו מלמדים את זה במקביל למבחן הסטודנטים ומקדמים אותו, אך יש להם קטע נפרד לגמרי בנושא מבחנים לא פרמטריים.
האם אתה יכול להבהיר למה אתה מתכוון ב"הופך את הבדיקה ללא פרמטרית "?
האם סעיף 2 אינו מספיק?
אום, לא ממש;במיוחד מכיוון שזה בדיוק החלק שהביא אותי לשאול.אולי אנחנו מתחילים ממקומות שונים.באיזו הגדרה של המילה 'לא פרמטרית' אתה משתמש כאן?
הסטטיסטיקה היא פרמטרית אם היא מבוססת על פרמטרים של אוכלוסייה.מה שהופך את זה לא-פרמטרי לבדיקה הוא שלמרות שאתה מעריך שונות אפקטים שנראית כמו אומדן הפרמטר במבחן t-variance שווה, אתה לא עושה בדיקה השומרת על ההנחה הזו של פרמטר אוכלוסייה קבועולאפשר לו להשתנות.


שאלה ותשובה זו תורגמה אוטומטית מהשפה האנגלית.התוכן המקורי זמין ב- stackexchange, ואנו מודים לו על רישיון cc by-sa 2.0 עליו הוא מופץ.
Loading...