שְׁאֵלָה:
באילו הפניות יש לצטט כדי לתמוך בשימוש ב- 30 כגודל מדגם גדול מספיק?
Lan
2010-09-10 22:07:39 UTC
view on stackexchange narkive permalink

קראתי / שמעתי פעמים רבות שגודל המדגם של לפחות 30 יחידות נחשב ל"מדגם גדול "(הנחות נורמליות של אמצעים בדרך כלל מתקיימות בערך עקב CLT, ...). לכן, בניסויים שלי, אני בדרך כלל מייצר דגימות של 30 יחידות. האם אתה יכול בבקשה לתת לי איזשהו התייחסות שיש לציין בעת ​​שימוש בגודל 30 לדוגמא?

ללא התייחסות למספר הפרמטרים שאתה מנסה לאמוד, או באופן שווה ערך לסוג המודל שאתה עובד איתו, נראה שקשה למדי לתת לך תשובה ברורה.
קבלה של n = 30 כגבול של דגימות קטנות וגדולות אינה נתמכת היטב בשום טכניקה סטטיסטית.
ארבע תשובות:
#1
+43
Carlos Accioly
2010-09-11 00:42:17 UTC
view on stackexchange narkive permalink

למעשה, "מספר הקסם" 30 הוא טעות. ראה את המאמר המענג של כהן של יעקב, דברים שלמדתי (עד כה) (אמ. פסיכ. דצמבר 1990 45 # 12, עמ '1304-1312). מיתוס זה הוא הדוגמה הראשונה שלו לכך ש"דברים מסוימים שלומדים אינם כל כך ".

[O] ne של חברי המועמדים לדוקטורט ערכו עבודת גמר [עם] מדגם של 20 מקרים בלבד לקבוצה. ... [L] לאחר שגיליתי ... כי לשם השוואה דו-עצמאית-קבוצתית-ממוצעת עם $ n = 30 $ לכל קבוצה בשניים- זנב $ .05 $ ברמה, ההסתברות שאפקט בינוני יתויג כמשמעותי על ידי ... מבחן t היה רק $. 47 $ . לפיכך, זה היה בערך מטבע מטבע אם תשיג תוצאה משמעותית, למרות שלמעשה גודל האפקט היה משמעותי. ... [ידידי] סיים תוצאות לא משמעותיות - איתן המשיך להרוס ענף חשוב של התיאוריה הפסיכואנליטית.

התייחסות יפה - ונקודה ברלוונטית. תודה.
@whuber אתה זוכר איזה נייר זה היה?הקישור כבר נשבר.אולי http://psych.colorado.edu/~willcutt/pdfs/Cohen_1990.pdf, "דברים שלמדתי (עד כה)"?השנה תואמת את זו שבכתובת האתר של הקישור השבור.
@Amoeba שמרתי את המאמר הזה כשקראתי אותו, כדי שאוכל לאשר מה שמצאת שהוא המיועד.עדכנתי את התשובה הזו כדי לכלול ציטוט יחד עם הקישור שלך.
@Carlos Accioly עדכנתי אותו בקישור החדש כשהקודם נשבר.
#2
+39
user1108
2010-09-10 22:44:59 UTC
view on stackexchange narkive permalink

הבחירה ב n = 30 עבור גבול בין דגימות קטנות לגדולות היא כלל אצבע בלבד. יש מספר רב של ספרים שמצטטים (סביב) ערך זה, למשל, הסתברות ומסקנה סטטיסטית של הוג וטניס (7e) אומר "גדול מ- 25 או 30".

t של סטודנטים בגב ספרי הלימוד יתאימו יפה לדף אחד. זה, והערכים הקריטיים (בין ה ט של הסטודנט לסטנדרט) ירודים רק בערך עד 0.25, בכל מקרה, מ- df = 30 ל- df = אינסוף. עבור חישוב ידיים ההבדל לא ממש היה חשוב.

כיום קל לחשב ערכים קריטיים לכל מיני דברים ל -15 מקומות עשרוניים. נוסף על כך יש לנו שיטות דגימה מחדש ותמורות שאיננו מוגבלות אפילו להתפלגויות אוכלוסיות פרמטריות.

בפועל אני אף פעם לא מסתמך על n = 30. זממו את הנתונים. . להניח התפלגות נורמלית, אם תרצה. הערך חזותית האם קירוב רגיל מתאים (ושאל אם בכלל באמת יש צורך בקירוב). אם חובה לייצר דגימות למחקר ולקירוב, צור מספיק בגודל מדגם כדי להפוך את הקירוב קרוב ככל שתרצה (או קרוב ככל האפשר מבחינה חישובית).

הנה דף המדויק עד כמה הקירוב הרגיל של התפלגות t הוא טוב ל- n = 30. http://www.johndcook.com/normal_approx_to_t.html
#3
+9
bhm
2010-09-10 23:41:43 UTC
view on stackexchange narkive permalink

IMO, הכל תלוי למה אתה רוצה להשתמש בדוגמה שלך. שתי דוגמאות "מטופשות" להמחשה למה אני מתכוון: אם אתה צריך לאמוד ממוצע, 30 תצפיות זה די והותר. אם אתה צריך לאמוד רגרסיה ליניארית עם 100 מנבאים, 30 תצפיות לא יהיו קרובות מספיק.

#4
+9
user603
2010-09-11 00:05:05 UTC
view on stackexchange narkive permalink

לרוב כלל אצבע שרירותי. אמירה זו תלויה במספר גורמים שיהיו נכונים. למשל על הפצת הנתונים. אם הנתונים מגיעים מקאוצ'י למשל, אפילו 30 ^ 30 תצפיות אינן מספיקות כדי לאמוד את הממוצע (במקרה זה אפילו אינסוף מספר תצפיות לא יספיק בכדי לגרום $ \ bar {\ mu} ^ {(n)} $ כדי להתכנס). מספר זה (30) שגוי גם אם הערכים שאתה מצייר אינם עצמאיים זה מזה (שוב, יתכן כי אין התכנסות כלל, ללא קשר לגודל המדגם).

באופן כללי יותר, CLT זקוק למעשה לשני עמודים כדי להחזיק:

  1. שהמשתנים האקראיים יהיו עצמאיים: שתוכל להזמין מחדש את התצפיות שלך מבלי לאבד שום מידע *.
  2. כי ה- rv מגיעים מהתפלגות עם רגעים שניים סופיים: כלומר, האומדים הקלאסיים של ממוצע וס.ד. נוטים להתכנס ככל שגודל המדגם גדל.
  3. o>

    (שני המצב הזה יכול להיות מוחלש במקצת, אך ההבדלים הם בעיקר בעלי אופי תיאורטי)

הדוגמה שלך ממחישה את הערך של סטטיסטיקה איתנה. * חציון המדגם * מעריך את פרמטר המיקום של התפלגות Cauchy היטב. אפשר לטעון כי החוליה החלשה ביותר בשימוש בבדיקת t עם 30 דגימות היא בדיקת t, ולא 30 הדגימות.
ג'ון:> "אפשר לטעון שהחוליה החלשה ביותר בשימוש במבחן t עם 30 דגימות היא מבחן t, ולא 30 דגימות". נכון מאוד, וגם ההנחה שהנתונים * iid *. כמו כן, החציון הוא MLE עבור משתנים אקראיים המופצים על ידי קושי (ולכן יעילים), אך באופן כללי ייתכן שתזדקק ליותר מ -30 תצפיות.
לא כל הגרסאות של ה- CLT מסתמכות על הפצה זהה, ואפילו לא על עצמאות. אלה הבסיסיים שנלמדים לתתי-מדרשים לעיתים קרובות, אך יש גרסאות שאינן מניחות את שתי ההנחות, למשל. [Lyapunov CLT] (http://en.wikipedia.org/wiki/Central_limit_theorem#Lyapunov_CLT) מניח עצמאות אך לא התפלגויות זהות, וניתן גם להקל על מצב העצמאות, למשל [ראה כאן] (http: // en .wikipedia.org / wiki / Central_limit_theorem # CLT_under_weake_dependency). אותו דבר 'סידור מחדש' גם אינו זהה לעצמאות. צורות מסוימות של תלות אינן נשענות על סדר.
גודל מדגם 50,000 אינו מספיק כדי שה- CLT יעבוד מספיק טוב כדי לחשב רווח ביטחון לממוצע של התפלגות נורמלית.


שאלה ותשובה זו תורגמה אוטומטית מהשפה האנגלית.התוכן המקורי זמין ב- stackexchange, ואנו מודים לו על רישיון cc by-sa 2.0 עליו הוא מופץ.
Loading...