שְׁאֵלָה:
האם מערכי נתונים גדולים אינם הולמים לבדיקת השערה?
Carlos Accioly
2010-09-09 23:21:30 UTC
view on stackexchange narkive permalink

במאמר שפורסם לאחרונה של חדשות אמסטאט , הכותבים (מארק ואן דר לאן ושרי רוז) הצהירו כי "אנו יודעים כי עבור גדלים מדגמיים גדולים מספיק, כל מחקר - כולל אלה שבהם ההשערה האפסית של אין השפעה נכונה - תכריז על אפקט מובהק סטטיסטית. ".

ובכן, אני למשל לא ידעתי זאת. זה נכון? האם זה אומר שבדיקת השערה חסרת ערך עבור מערכי נתונים גדולים?

+1: שאלה זו חושפת בדרך כלל איזו נקודת מבט מעניינת.
דיון נוסף על מערכי נתונים גדולים מופיע בכתובת http://stats.stackexchange.com/q/7815/919. (ההתמקדות היא בדוגמנות רגרסיה שם.)
[פתיל קשור] (http://stats.stackexchange.com/questions/162143/is-this-really-how-p-values-work-can-a-million-research-papers-per-year-be-base)?
אם מדגם גדול גורם לך לחשוב שבדיקת השערה הייתה הכלי הלא נכון, הרי שבדיקת השערה לא ענתה בפועל על השאלה הנכונה גם בדגימות קטנות יותר - שהיא הייתה שגויה פשוט נעשתה * ברורה יותר * בגדלי מדגם גדולים, אך אותם שיקוליםרלוונטיים.אם תוצאה משמעותית בגודל אפקט קטן מאוד גורמת לך להגיד "טוב, זה לא מה שרציתי, רציתי שזה יגיד לי אם זה חשוב" אז בדיקת השערה הייתה רק הכלי הלא נכון מלכתחילה.ישנם כלים מתאימים יותר (למשל מרווחי ביטחון, מבחני שקילות וכו ') לבעיה מסוג זה.
שש עשרה תשובות:
#1
+102
John
2010-09-09 23:59:37 UTC
view on stackexchange narkive permalink

זה לא נכון. אם השערת האפס נכונה אז היא לא תידחה בתדירות גבוהה יותר בגודל מדגם גדול מאשר קטנה. יש שיעור דחייה שגוי שלרוב מוגדר ל- 0.05 (אלפא) אך הוא אינו תלוי בגודל המדגם. לכן, באופן מילולי, ההצהרה שקרית. עם זאת, יתכן שבמצבים מסוימים (אפילו שדות שלמים) כל האפסים שקריים ולכן כולם יידחו אם N גבוה מספיק. אך האם זה דבר רע? זה לא מציע שלא יהיו לך גדלים גדולים כל כך של דגימות. המשמעות היא שהדרך בה אתה מפרש את ממצאך תלויה בגודל האפקט ורגישות הבדיקה. אם יש לך גודל אפקט קטן מאוד ומבחן רגיש מאוד אתה צריך להכיר בכך שהממצא המשמעותי מבחינה סטטיסטית לא יכול להיות משמעותי או שימושי.

בהתחשב בכך שאנשים מסוימים אינם מאמינים כי מבחן של השערת האפס, כאשר null הוא נכון , תמיד יש שיעור שגיאות השווה לנקודת החיתוך שנבחרה עבור כל גודל מדגם, הנה סימולציה פשוטה ב- R המוכיחה את הנקודה. הפוך את N לגדול ככל שתרצה ושיעור השגיאות מסוג I יישאר קבוע.

  מספר הנושאים בכל תנאי <- 100 # מספר העתקים של המחקר על מנת לבדוק את שגיאת סוג I מדורגת <- 10000ps <- משכפל (nsamp, {# אוכלוסיית ממוצע = 0, sd = 1 לשתי הדגימות, לכן, אין השפעה אמיתית y1 <- rnorm (n, 0, 1) y2 <- rnorm (n, 0, 1) tt <- t.test (y1, y2, var.equal = TRUE) tt $ p.value}) סכום (ps < .05) / nsamp # ~ .05 לא משנה כמה n גדול. שים לב במיוחד שזה לא ערך עולה תמיד למצוא אפקטים כאשר n גדול מאוד.  
+1: אכן, כל שלוש התשובות כאן עולות בקנה אחד מבחינה לוגית זו עם זו.
לבסוף מצאתי התחייבות למשהו שפרופסור (לא סטטיסטי) אמר לי לפני זמן רב.
הצהרת המאמר נכונה, תשובתו של ג'ון אני מבקש להבדיל שונה.ערכי P תלויים כמובן בגודל המדגם.ככל שגודל המדגם גדול יותר, ככל שהשגיאה הסטנדרטית קטנה יותר, כך ערך t גדול יותר, ערך ה- P קטן יותר.זה החשבון הפשוט של בדיקת השערה.ג'ון מודה בדיוק בזה (וסותר את עצמו) בתחילת הפסקה השנייה שלו.לאחר מכן, הוא עובר לגודל אפקט שאינו תלוי בגודל המדגם.ומבלבל את האחרונים עם בדיקות השערה סטנדרטיות המתמקדות במובהקות סטטיסטית.
@Sympa, לא.רק בגלל ש- SE יורדת כש- N לא אומר שתמיד תמצאו אפקט עם N גדול (ראו סימולציה).זכור שככל שה- SE יורדת, איכות אומדן ההשפעה עולה.אם אין השפעה על אוכלוסייה, סביר להניח שתהיה קרוב ל -0 ולא יראה שום הבדל.למעשה, התפלגות ערכי ה- p שטוחה ללא קשר לגודל המדגם בכל פעם שה- null נכון (כתוב סימולציה משלך לשם כך).בתשובה אין סתירה.
@John, שמגיע לסימולציה עם מספר רב של ניסויים עם תרגיל לבדיקת השערה עלול לטשטש את התוצאות.מסגרת הסימולציה שלך שונה מתרגילי בדיקת השערה אמפירית (ניסויים קליניים וכו ').ציטוט המאמר "אנו יודעים שעבור גדלים מדגמים גדולים מספיק, כל מחקר - כולל מחקר שבו ההשערה האפסית כי אין השפעה נכונה - יכריז על השפעה מובהקת סטטיסטית."ואני מקפיד על המחברים מכיוון שניתן להדגים בקלות את ממצאיהם בשיטה הסטטיסטית הרלוונטית (כפי שציינתי לעיל).
אז היית טועה.כדאי לך לשקול לקרוא גם כאן את התשובות האחרות.מכיוון שאתה לא יכול לעקוב אחר הקשר בין סימולציה ובדיקת השערה, אני מניח שאני יכול רק להצביע על הטענה העיקרית שלך שכשגיאה סטנדרטית יורדת, t עולה, ו- p יורדת.זה נכון רק אם ההשפעה תישאר קבועה.אך ההשפעה היא מדגם אקראי וכאשר ההשפעה האמיתית היא 0 אז, כאשר N מגביר, האפקט הנצפה נוטה לרדת.לכן, למרות שכאשר N גדל SE יורד זה לא יגדיל את ערכי t מכיוון שגם המונה בערך t יהיה נמוך יותר.
@John כל מה שאמרת נראה לי כל כך מובן מאליו שאני עדיין לא מגיע לאן שמוצאת המנטרה "הכל הופך להיות משמעותי".כנראה שחסר לי משהו ... זה יהיה נחמד לקרוא עוד תגובות של משתמשים שלא מסכימים איתך בעניין
@Dambo אני לא בטוח מאיפה זה מגיע בכל מקרה והתשובה המלאה תהיה ארוכה מדי להערה.אך התשובה הקצרה עשויה להיות שבתחומים בהם רוב המניפולציות מייצרות אפקט כלשהו, טריוויאלי ככל שיהיה, אזי Ns גדולים מאוד יהפכו כל אפקט למשמעותי בקצב גבוה מאוד.אבל זה רק בגלל שההשפעה האמיתית מעולם לא הייתה בדיוק 0, אבל היא הייתה קטנה ולא משמעותית בדרך כלל ב- N קטנים.(אני מקווה שזה מדגיש נושא רציני עם בדיקת משמעות מבחינתך, הן לממצאים שאינם משמעותיים והן לממצאים משמעותיים).
האם כל זה לא שגיאה מסוג I לעומת שגיאה מסוג II (או כוח)?אתה מצהיר נכון שאם מתקנים הסתברות שגיאה מסוג I ($ \ alpha $) ב -0.05, ברור שזה יהיה 0.05 אם המדגם גדול או לא.אך עבור הסתברות שגיאה מסוג I מסוימת, 0.05 למשל, ההספק או ההסתברות שתזהה את ההשפעה כשהיא קיימת, גדולה יותר עבור גדלים מדגמיים גדולים.
תשובה זו ממש טובה, אך מבחינה טכנית, למספרים שהוחזרו על ידי `rnorm (n, 0, 1)` לא יכולה להיות התפלגות נורמלית!הסיבה לכך היא שהתפלגות נורמלית היא התפלגות רציפה, שהמוזר שלה לייצר מספר רציונלי הוא 0. עם זאת, מכיוון שאי אפשר לאחסן מספר לא רציונלי שרירותי במחשב שלך, 'rnorm' מחזיר רק מספרים רציונליים.זה מרמז על העובדה, בהינתן 'n' גדול (בטירוף), כל המבחנים יידחו בסופו של דבר.מה שאני מנסה להוסיף לתשובתך הוא, דוגמאות בעולם האמיתי שונות מאלו התיאורטיות.
העובדה ש- rnorm לא יכול לייצר מספר לא רציונלי אינה רלוונטית בדוגמה.גם אם זה לא שואב נורמלי בדיוק ממוצע של 0 ו- sd של 1, זה לא נורמלי עבור שתי הדוגמאות.שיעור השגיאות מסוג I עשוי להיות פחות או יותר מ -0.05, אך הוא אמור להישאר קבוע ללא קשר ל- N. וזה לא נכון לגבי כל הסימולציות מכיוון שיכולתי לבחור בדידה שבה זה לא נושא.(אם באמת רצית להעלות סוגיה אזוטרית אז היית צריך לטפל באקראיות פסאודו.)
#2
+33
whuber
2010-09-10 00:42:27 UTC
view on stackexchange narkive permalink

אני מסכים עם התשובות שהופיעו, אך ברצוני להוסיף שאולי ניתן להפנות את השאלה. האם לבדוק היפותזה או לא זו שאלה מחקרית שצריכה, לפחות באופן כללי, להיות בלתי תלויה בכמות הנתונים שיש בידינו. אם אתה באמת צריך לבדוק השערה, עשה זאת ואל תפחד מיכולתך לזהות השפעות קטנות. אבל ראשית שאל אם זה חלק ממטרות המחקר שלך.

עכשיו לגבי כמה פלפלות:

  • כמה השערות אפסיות נכונות לחלוטין לפי הבנייה. כאשר אתה בודק מחולל מספרים פסאודורדומיים לחלוקה שוויונית, למשל, וכי PRG מופץ באופן שוויוני באמת (וזה משפט מתמטי), אז האפס מתקיים. כנראה שרובכם יכולים לחשוב על דוגמאות מעניינות יותר בעולם האמיתי הנובעות מאקראיות בניסויים שבהם הטיפול באמת אינו משפיע. (לדוגמא הייתי מחזיק את כל הספרות בנושא esp. ;-)

  • במצב בו אפס "פשוט" נבדק מול חלופה "מורכבת", כ במבחני t קלאסיים או במבחני z, בדרך כלל נדרש גודל מדגם פרופורציונלי ל- $ 1 / \ epsilon ^ 2 $ כדי לזהות גודל אפקט של $ \ epsilon $. יש לזה גבול עליון מעשי בכל מחקר, מה שמרמז שיש גבול תחתון מעשי בגודל השפעה הניתן לזיהוי. לכן, כעניין תיאורטי דר לאן ורוז נכונים, אך עלינו לדאוג ליישם את מסקנתם.

האם כל זה לא עניין של שגיאה מסוג I לעומת שגיאה מסוג II (או כוח)?אם מתקנים הסתברות שגיאה מסוג I ($ \ alpha $) ב -0.05, ברור (למעט במקרה הנפרד), יהיה 0.05 אם המדגם גדול או לא.אך עבור הסתברות שגיאה מסוג I מסוימת, 0.05 למשל, ההספק או ההסתברות שתזהה את ההשפעה כשהיא קיימת, גדולה יותר עבור גדלים מדגמיים גדולים.
@fcop נראה כי התגובות שלך מופנות לתשובות אחרות.הם מפספסים את המטרה של זה, כלומר להצביע על כך שלא כל הניתוחים הסטטיסטיים צריכים להיות מבחני השערה.לשגיאות מסוג I ו- II יש משמעות רק בעת ביצוע מבחני השערה פורמליים.
ה- OP מתייחס להצהרה: "אנו יודעים כי עבור גדלים מדגמים גדולים מספיק, כל מחקר - כולל כאלה שבהם ההשערה האפסית כי אין השפעה נכונה - יכריז על השפעה מובהקת סטטיסטית."$ H_0: \ mu = 1 $ לעומת $ H_1: \ mu \ ne 1 $ אז בדגימות גדולות ההספק כל כך גבוה שאתה 'מזהה' אפילו סטיות קטנות מ- 1. אז אני חושב שההצהרה שלהם לא נכונה, אבל הכוח הזהבדגימות גדולות מאפשר לך לזהות הבדלים קטנים מאוד.
@fcop תודה שהסברת.אני מסכים עם הנימוק שלך: כאשר האפס נכון, אזי בבנייה אפילו מחקרים גדולים ימצאו השפעה משמעותית עם סיכוי לכל היותר לגודל הבדיקה שלהם - כלומר, סביר להניח שהם לא ימצאו השפעה משמעותית.
#3
+23
Sympa
2010-09-17 09:11:53 UTC
view on stackexchange narkive permalink

בדיקות השערה התמקדו באופן מסורתי בערכי p כדי להפיק מובהקות סטטיסטית כאשר אלפא נמוך מ- 0.05, יש חולשה גדולה. וזה שעם גודל מדגם גדול מספיק כל ניסוי יכול בסופו של דבר לדחות את השערת האפס ולזהות הבדלים קטנים באופן טריוויאלי שמתבררים כמשמעותיים סטטיסטית.

זו הסיבה שחברות התרופות מבנות ניסויים קליניים כדי להשיג אישור FDA עם דגימות גדולות מאוד. המדגם הגדול יפחית את השגיאה הסטנדרטית לקרוב לאפס. זה בתורו יגביר את הנתונים הסטטיסטיים באופן מלאכותי ויוריד באופן יחסי את ערך ה- p קרוב ל -0%.

אני מתאסף בתוך קהילות מדעיות שאינן מושחתות על ידי תמריצים כלכליים ובדיקות השערת ניגוד עניינים קשורות מתרחקות מכל מדידות ערך p לעבר מדידות גודל אפקט. הסיבה לכך היא יחידת המרחק הסטטיסטי או ההבחנה בניתוח גודל האפקט היא סטיית התקן במקום שגיאת התקן. וסטיית התקן אינה תלויה לחלוטין בגודל המדגם. השגיאה הסטנדרטית לעומת זאת תלויה לחלוטין מגודל המדגם.

אז, כל מי שמפקפק בבדיקת השערה שמגיע לתוצאות מובהקות סטטיסטית בהתבסס על דגימות גדולות ומתודולוגיות הקשורות לערך p, נכון להיות ספקן. עליהם להפעיל מחדש את הניתוח בעזרת אותם נתונים, אך במקום זאת להשתמש בבדיקות סטטיסטיות Effect Size. ואז בדוק אם גודל האפקט נחשב לחשוב או לא. על ידי כך, תוכל לראות שחבורה של הבדלים בעלי משמעות סטטיסטית קשורה לגודל האפקט שאינם מהותיים. לזה מתכוונים לעיתים חוקרי ניסויים קליניים כאשר תוצאה משמעותית סטטיסטית אך אינה "משמעותית מבחינה קלינית". הכוונה היא בכך שטיפול אחד עשוי להיות טוב יותר מפלצבו, אך ההבדל הוא כה שולי עד שלא ישפיע על המטופל בהקשר קליני.

המדגם הגדול של אדם אחד הוא המדגם הקטן של אחר. :)
לא שאלת אז את השאלה הלא נכונה? אולי על תהליך אישור ה- FDA לציין רווח גדול יותר לעומת פלצבו (אולי קשור לעלויות התרופה, כולל ההשפעות השליליות שלה) במקום רק לדרוש מובהקות סטטיסטית? מכיוון שיכול מאוד להיות שיש הבדל אמיתי, אם כי קטן מאוד, וההבדל הזה הוכח כמובהק סטטיסטית ככל שהוא קטן.
ה- FDA אינו דורש "רק מובהקות סטטיסטית".זה יהיה אבסורדי.כולם בענף מבינים מה המשמעות של "משמעות קלינית".ה- FDA שוקל את הראיות הסטטיסטיות של * יעילות * התרופה, הנמדדת על ידי נקודות קצה קליניות, כגון הפוגה, מול חששות בריאותיים ובטיחותיים.אנא קרא את הנחיות ה- FDA לפני שתקבע טענות חסרות בסיס.
#4
+16
Brett
2010-09-10 08:51:13 UTC
view on stackexchange narkive permalink

מבחן השערה (תכופים), במדויק, מתייחס לשאלת ההסתברות לנתונים שנצפו או שמשהו קיצוני יותר סביר להניח בהנחה שהשערת האפס נכונה. פרשנות זו אדישה לגודל המדגם. פרשנות זו תקפה בין אם המדגם הוא בגודל 5 או 1,000,000.

אזהרה חשובה היא שהבדיקה רלוונטית רק לשגיאות דגימה. כל שגיאות מדידה, בעיות דגימה, כיסוי, שגיאות הזנת נתונים וכו 'אינן מתחום שגיאת הדגימה. ככל שגודל המדגם גדל, שגיאות שאינן מדגמיות משפיעות יותר מכיוון שעזיבות קטנות יכולות לייצר עזיבות משמעותיות ממודל הדגימה האקראי. כתוצאה מכך, מבחני המשמעות נעשים פחות שימושיים.

אין זה בשום אופן כתב אישום של בדיקת משמעות. עם זאת, עלינו להקפיד על ייחוסנו. תוצאה עשויה להיות מובהקת סטטיסטית. עם זאת, עלינו להיות זהירים לגבי אופן ביצוע הייחוס שלנו כאשר גודל המדגם גדול. האם ההבדל נובע מתהליך הייצור המשוער שלנו מול שגיאת דגימה או שמא הוא תוצאה של מספר שגיאות אפשריות שאינן דגימה שיכולות להשפיע על נתון הבדיקה (שהנתון אינו מחשיב)?

שיקול נוסף עם דגימות גדולות הוא המשמעות המעשית של התוצאה. בדיקה משמעותית עשויה להציע (גם אם נוכל לשלול שגיאה שאינה דגימה) הבדל שהוא טריוויאלי במובן המעשי. גם אם תוצאה זו אינה סבירה בהתחשב במודל הדגימה, האם היא משמעותית בהקשר לבעיה? בהינתן מדגם גדול דיו, הבדל בכמה דולרים עשוי להספיק בכדי לייצר תוצאה שהיא מובהקת סטטיסטית בהשוואה להכנסה בין שתי קבוצות. האם זה חשוב במובן משמעותי כלשהו? חשיבות סטטיסטית אינה תחליף לשיקול דעת טוב וידע בנושא.

כצידה, האפס אינו נכון ולא שקר. זה מודל. זו הנחה. אנו מניחים שהאפס נכון ומעריכים את המדגם שלנו במונחים של הנחה זו. אם סביר להניח שהמדגם שלנו בהינתן הנחה זו, אנו נותנים אמון רב יותר בחלופה שלנו. להטיל ספק האם אפס נכון אי פעם בפועל, הוא אי הבנה של ההיגיון של בדיקת משמעות.

זה תומך בטיעון להגדלת מורכבות המודל כאשר גדלי המדגם הופכים גדולים - במקרה הדגימה הגדול שגיאת הדגימה כבר אינה המקור הדומיננטי של אי הוודאות. כמובן שזה רק "הגיוני" במסגרת בייסיאנית, המאפשרת מקורות אחרים של אי וודאות מלבד שגיאת דגימה.
#5
+13
Keith Winstein
2010-09-17 20:26:45 UTC
view on stackexchange narkive permalink

נקודה אחת פשוטה שלא הובאה ישירות בתשובה אחרת היא שהיא פשוט לא נכונה ש"כל ההשערות האפסיות שקריות. " , זה שקר.

אך ההשערה המורכבת שלמטבע פיזי יש הסתברות ראשים הגדולה מ- 0.499 ופחות מ- 0.501 עשויה להיות נכונה. אם כן, שום בדיקת השערה - לא משנה כמה עליות מטבע נכנסות אליה - לא תוכל לדחות השערה זו בהסתברות הגדולה מ $ \ alpha $ (הבדיקות קשורות לחיובי כוזב).

התעשייה הרפואית בודקת השערות "אי-נחיתות" כל הזמן, מסיבה זו - למשל תרופה חדשה לסרטן צריכה להראות שההסתברות של מטופליה להישרדות ללא התקדמות נמוכה מ -3 נקודות אחוז לעומת התרופה הקיימת, ברמת ביטחון מסוימת ($ \ alpha $, בדרך כלל 0.05).

#6
+9
user603
2010-09-09 23:55:04 UTC
view on stackexchange narkive permalink

במובן מסוים, [כל] הרבה השערת האפס [תמיד] שקרית (קבוצת האנשים שגרים בבתים עם מספרים אי זוגיים לעולם אינה בדיוק מרוויחה אותו דבר בממוצע כקבוצת האנשים שגרים בבתים עם מספרים זוגיים).

במסגרת התדיר, השאלה הנשאלת היא האם ההבדל בהכנסה בין שתי הקבוצות גדול מ- $ T _ {\ alpha} n ^ {- 0.5} $ (כאשר $ T _ {\ alpha } $ הוא הכמות $ \ alpha $ של התפלגות נתון הבדיקה תחת ה- null). ברור שעבור $ n $ הגדל ללא גבולות, קל יותר ויותר לפרוץ את הלהקה הזו.

זה לא פגם במבחנים סטטיסטיים. פשוט תוצאה של העובדה שללא מידע נוסף (קודם) יש לנו כי יש לקחת מספר גדול של סתירות קטנות עם האפס כראיה כנגד האפס. לא משנה כמה סתירות אלה יתגלו כטריוויאליות.

במחקרים גדולים, אז מעניין למסגר מחדש את הנושא כמבחן בייזי, כלומר לשאול את עצמך (למשל), מה זה $ \ hat {P} (| \ bar {\ mu} _1- \ bar {\ mu} _2 | ^ 2> \ eta | \ eta, X) $.

זה מוזר ... באופן אינטואיטיבי, נראה שזה סותר את חוק המספרים הגדולים.
קרלוס:> אתה יכול להיות יותר ספציפי?
ה- LLN קובע בעצם שככל שהמדגם גדול יותר, כך הוא מייצג את התפלגות ההסתברות ה"אמיתית ". בדוגמה שלך, ככל שאבחן יותר מספרי בתים, כך קרוב יותר ל -50% יהיה מספר הבתים המוזרים. אז זה נשמע מוזר שזה הופך להיות קל יותר עבורכם לפרוץ את הלהקה, מכיוון שהיא מתכווצת ביחס לשורש הריבועי של $ n $. (האם אני הגיוני כאן?)
@Carlos - אך התכנסות אינה פירושה שוויון; זה מובטח רק בגבול אינסוף שאינו ניתן להשגה. אז אין סתירה ;-)
דוגמא למספרי הבית הזוגיים / המוזרים יכולה להיות אמיתית מאוד.לעתים קרובות כל הבתים באותו צד של הרחוב חולקים זוגיות.הצד האחד יכול להיות קרוב לחוף הים ...
#7
+5
gappy
2010-09-17 10:49:35 UTC
view on stackexchange narkive permalink

התשובה הקצרה היא "לא". המחקר על בדיקת השערות במשטר האסימפטוטי של תצפיות אינסופיות והשערות מרובות היה פעיל מאוד מאוד בשנים 15-20 השנים האחרונות, בגלל נתוני מיקרו מערך ויישומי נתונים פיננסיים. התשובה הארוכה היא בעמוד הקורסים של סטט 329, "מסקנה סימולטנית גדולה בקנה מידה גדול", שהועבר בשנת 2010 על ידי בראד אפרון. פרק מלא מוקדש לבדיקת השערה רחבת היקף.

אני מאמין שספרו של עפרון מתמקד במספר רב של משתנים (ובבעיות הבדיקה המרובות שנוצרות), ולא בגודל המדגם.
#8
+5
Zen
2016-05-27 01:00:53 UTC
view on stackexchange narkive permalink

"האם המשמעות היא שבדיקת השערה חסרת ערך עבור מערכי נתונים גדולים?"

לא, אין זה אומר זאת. המסר הכללי הוא כי החלטות המתקבלות לאחר ביצוע בדיקת השערה צריכות ל תמיד לקחת בחשבון את גודל האפקט המשוער, ולא רק את ערך ה- p. במיוחד בניסויים בגדלים מדגמיים גדולים מאוד, הצורך הזה לבחון את גודל האפקט הופך לדרמטי. כמובן, באופן כללי, משתמשים לא אוהבים את זה מכיוון שההליך הופך להיות פחות "אוטומטי".

שקול דוגמה לסימולציה זו. נניח שיש לך מדגם אקראי של מיליון תצפיות מהתפלגות נורמלית רגילה,

  n <- 10 ^ 6x <- rnorm (n)  

ו- מדגם אקראי נוסף של מיליון תצפיות מהתפלגות נורמלית עם ממוצע שווה ל $ 0.01 $ ושונות שווה לאחת.

  y <- rnorm (n, ממוצע = 0.01)  

בהשוואת האמצעים של שתי האוכלוסיות עם מבחן t ברמת הביטחון הקנונית $ 95 \% $, אנו מקבלים ערך p זעיר של כ $ 2.5 \ כפול 10 ^ {- 14} $.

  t.test (x, y) Welch Two t-testdata לדוגמה: x ו- yt = -7.6218, df = 1999984, p-value = 2.503e-14 השערה אלטרנטיבית: ההבדל האמיתי באמצעים אינו שווה לרווח סמך של 095 אחוזים: -0.013554059 -0.008009031 הערכות לדוגמא: ממוצע של x ממוצע של y 0.0008947038 0.0116762485  

נכון לומר שבדיקת t "זיהתה" כי האמצעי של השניים אוכלוסיות שונות. אבל תסתכל על רווח הביטחון הקצר ביותר של $ 95 \% $ עבור ההפרש בין שתי האוכלוסיות פירושו: $ [- 0.013, -0.008] $.

האם ההבדל בין שתי האוכלוסיות הוא זה סדר גודל רלוונטי ל הבעיה המסוימת שאנו לומדים או לא?

אני מסכים עם כל מה שבתשובתך, פרט למשפט הראשון הזה, שהייתי משנה ל"כן, זה בדרך כלל אומר את זה ", מכיוון שעם דוגמאות גדולות של מיליון בערך גודל האפקטים כל כך קטן.
האם כל זה לא עניין של שגיאה מסוג I לעומת שגיאה מסוג II (או כוח)?אם מתקנים הסתברות שגיאה מסוג I ($ \ alpha $) ב -0.05, ברור שברור (למעט במקרה הנפרד), יהיה זה אם המדגם גדול או לא.אבל עבור הסתברות שגיאה מסוג I מסוימת, 0.05 למשל, ההספק או ההסתברות שתזהה את ההשפעה כשהיא קיימת, גדולה יותר עבור גדלים מדגמיים גדולים.
#9
+4
Joris Meys
2010-09-10 15:03:14 UTC
view on stackexchange narkive permalink

בדיקת השערה לנתונים גדולים צריכה לקחת בחשבון את רמת ההבדל הרצויה, ולא אם יש הבדל או לא. אינך מעוניין ב- H0 שההערכה היא בדיוק 0. גישה כללית תהיה לבדוק אם ההבדל בין השערת האפס לערך הנצפה גדול מערך ניתוק נתון.

דוגמה פשוטה עם מבחן T: אתה יכול להניח הנחות הבאות לגבי גדלים מדגמיים גדולים, בהינתן שיש לך גדלים מדגמיים שווים וסטיות תקן בשתי הקבוצות, ו- $ \ bar {X_1}> \ bar { X_2} $: $$ T = \ frac {\ bar {X1} - \ bar {X2} - \ delta} {\ sqrt {\ frac {S ^ 2} {n}}} + \ frac {\ delta} { \ sqrt {\ frac {S ^ 2} {n}}} \ בערך N (\ frac {\ delta} {\ sqrt {\ frac {S ^ 2} {n}}}, 1) $$ ומכאן $$ T = \ frac {\ bar {X1} - \ bar {X2}} {\ sqrt {\ frac {S ^ 2} {n}}} \ בערך N (\ frac {\ delta} {\ sqrt {\ frac {S ^ 2} {n}}}, 1) $$

כהשערת האפס שלך $ H_0: \ bar {X1} - \ bar {X2} = \ delta $ מרמז:

$$ \ frac {\ bar {X1} - \ bar {X2} - \ delta} {\ sqrt {\ frac {S ^ 2} {n}}} \ בערך N (0,1) $$

בעזרתו תוכלו לבדוק בקלות הבדל משמעותי ורלוונטי. ב- R תוכלו להשתמש בפרמטר הלא-ריכוזי של התפלגות ה- T כדי להכליל תוצאה זו גם בגדלים קטנים יותר. עליך לקחת בחשבון שמדובר בבדיקה חד צדדית, החלופה $ H_A $ היא $ \ bar {X1} - \ bar {X2}> \ delta $.

  mod.test <- פונקציה (x1, x2, dif, ...) {avg.x1 <- ממוצע (x1) avg.x2 <- ממוצע (x2) sd.x1 <- sd (x1) sd.x2 <- sd (x2 ) sd.comb <- sqrt ((sd.x1 ^ 2 + sd.x2 ^ 2) / 2) n <- אורך (x1) t.val <- (abs (ממוצע.x1-avg.x2)) * sqrt (n) /sd.comb ncp <- (dif * sqrt (n) /sd.comb) p.val <- pt (t.val, n-1, ncp = ncp, lower.tail = FALSE) החזר (p .val)} n <- 5000test1 <- משכפל (100, t.test (rnorm (n), rnorm (n, 0.05)) $ p.value) טבלה (test1<0.05) test2 <- משכפל (100, t. מבחן (rnorm (n), rnorm (n, 0.5)) $ p.value) טבלה (test2<0.05) test3 <- משכפל (100,
mod.test (rnorm (n), rnorm (n, 0.05), dif = 0.3)) טבלה (test3<0.05) test4 <- משכפל (100, mod.test (rnorm (n), rnorm (n, 0.5), dif = 0.3)) טבלה (test4<0.05)  

מה שנותן:

  שולחן > (test1<0.05) FALSE TRUE 24 76 שולחן > (test2<0 .05) TRUE 100 > table (test3<0.05) FALSE 100 > table (test4<0.05) TRUE 100  
האם אין משוואה ראשונה בהעתקה / הדבקה במשוואה הראשונה?
אני לא רואה את זה?
#10
+3
probabilityislogic
2011-06-15 19:16:06 UTC
view on stackexchange narkive permalink

אני חושב שזו בעיה של מבחני המשמעות ביותר שיש כמה סוגים כלליים לא מוגדרים של חלופות מרומזות לאפס, שאיננו מכירים לעולם. לעיתים קרובות שיעורים אלה עשויים להכיל איזושהי השערת "דבר בטוח", בה הנתונים משתלבים בצורה מושלמת (כלומר השערה בצורה $ H_ {ST}: d_ {1} = 1.23, d_ {2} = 1.11, \ dots $ כאשר $ d_ {i} $ היא נקודת הנתונים ה- ith). הערך של סבירות היומן הוא דוגמה כזו למבחן משמעות שיש לו מאפיין זה.

אך בדרך כלל לא מעוניינים בהשערת דבר בטוח זה. אם אתה חושב מה אתה באמת רוצה לעשות עם מבחן ההשערה, תיכף תבין שעליך לדחות את השערת האפס רק אם יש לך משהו טוב יותר להחליף אותה. גם אם ה- null שלך לא מסביר את הנתונים, אין שום תועלת לזרוק אותם, אלא אם כן יש לך תחליף. עכשיו תמיד היית מחליף את האפס בהשערת "הדבר בטוח"? כנראה שלא, כי אינך יכול להשתמש בהשערת "הדבר הבטוח" הזה כדי להכליל מעבר למערכת הנתונים שלך. זה לא הרבה יותר מאשר להדפיס את הנתונים שלך.

אז מה שאתה צריך לעשות הוא לציין את ההשערה שאתה באמת מעוניין לפעול אם הם היו נכונים. לאחר מכן בצע את המבחן המתאים להשוואת חלופות אלה זה לזה - ולא לאיזה סוג של השערה לא רלוונטית שאתה יודע שהיא שקרית או בלתי שמישה.

קח את המקרה הפשוט של בדיקת הממוצע הרגיל. כעת ההבדל האמיתי עשוי להיות קטן, אך אימוץ עמדה דומה לזו שבתשובת @ keith, אנו פשוט בודקים את הממוצע בערכים נפרדים שונים שמעניינים אותנו. כך למשל, יכול להיות ש- $ H_ {0}: \ mu = 0 $ לעומת $ H_ {1}: \ mu \ in \ {\ pm 1, \ pm 2, \ pm 3, \ pm 4, \ pm 5 , \ pm 6 \} $. הבעיה עוברת אז לבחון באיזו רמה אנחנו רוצים לעשות את הבדיקות האלה. יש לכך קשר לרעיון של גודל האפקט: באיזו רמה של גרגר יש השפעה על קבלת ההחלטות שלך? זה עשוי לקרוא לשלבים בגודל 0.5 $ $ או $ 100 $ או משהו אחר, תלוי במשמעות הבדיקה ובפרמטרים. למשל אם היית משווה את העושר הממוצע של שתי קבוצות, האם למישהו יהיה אכפת אם יהיה הבדל של שני דולרים, גם אם זה היה 10,000 טעויות סטנדרטיות הרחק מאפס? אני יודע שלא הייתי עושה.

המסקנה היא בעצם שאתה צריך לציין את מרחב ההשערה שלך - ההשערה שאתה באמת מעוניין בה. נראה שעם נתונים גדולים זה הופך להיות דבר חשוב מאוד לעשות, פשוט כי לנתונים שלך יש כל כך הרבה כוח פתרון. נראה גם שחשוב להשוות כמו השערה - נקודה עם נקודה, תרכובת עם תרכובת - כדי לקבל תוצאות שהתנהגו היטב.

#11
+3
Horst Grünbusch
2013-08-01 16:58:41 UTC
view on stackexchange narkive permalink

לא נכון, שכל מבחני השערת הנקודות השימושיים הם עקביים ובכך יופיעו תוצאה משמעותית אם רק גודל המדגם גדול מספיק וקיים השפעה לא רלוונטית כלשהי. כדי להתגבר על החיסרון הזה של בדיקות השערות סטטיסטיות (שכבר הוזכר על ידי תשובתו של גאטן אריה לעיל), ישנם מבחני רלוונטיות. אלה דומים למבחני שקילות אך אפילו פחות נפוצים. לצורך בדיקת רלוונטיות, מוגדר מראש גודל של אפקט מינימלי רלוונטי. מבחן רלוונטיות יכול להתבסס על רווח סמך להשפעה: אם מרווח הביטחון ואזור הרלוונטיות אינם נפרדים, אתה יכול לדחות את האפס.

עם זאת, ואן דר לאן ורוז מניחים בהצהרתם כי אפילו השערות אפס אמיתיות נבדקות במחקרים. אם השערת אפס נכונה, יכולת הדחייה אינה גדולה יותר מאלפא, במיוחד במקרה של דגימות גדולות ואפילו לא מוגדרת, אני יכול רק לראות שהתפלגות המדגם שונה באופן שיטתי מהתפלגות האוכלוסייה,

#12
+3
Lucas Fortini
2016-10-04 05:11:19 UTC
view on stackexchange narkive permalink

למאמר שאתה מזכיר יש נקודה תקפה, בכל הנוגע למבחנים סטנדרטיים של תכופים. לכן בדיקה לגודל אפקט נתון חשובה מאוד. לשם המחשה, הנה אנובה בין 3 קבוצות, כאשר קבוצה B שונה במקצת מקבוצת A ו- C. נסה זאת ב- r:

  treat_diff = 0.001 # גודל הטיפול differencens = c (10, 100, 1000, 10000, 100000, 1000000) # ערכים עבור גודל מדגם לכל קבוצה שנחשבת להחזר = 10 # מספר חזרות הבדיקה לכל גודל מדגם שנחשב p_mat = data.frame (n = גורם (), p = כפול ()) # צור ריק מסגרת נתונים לפלטים עבור (n ב- ns) {# לכל גודל מדגם עבור (i in c (1: reps)) {# חזור על בדיקת anova 'reps' time treatA = data.frame (treatment = "A", val = rnorm ( n)) treatB = data.frame (treatment = "B", val = rnorm (n) + treat_diff) # זו הקבוצה שיש לה את האמצעים שונים במקצת מהקבוצות האחרות treatC = data.frame (treatment = "C" , val = rnorm (n)) all_treatment = rbind (treatA, treatB, treatC) treatment_aov = aov (val ~ treatment, data = all_treatment) aov_summary = סיכום (treatment_aov) p = aov_summary [[1]] [["Pr (>F ) "]] [1] temp_df = data.frame (n = n, p = p) p_mat = rbind (p_mat, temp_df)}} ליבר ary (ggplot2) p <- ggplot (p_mat, aes (factor (n), p)) p + geom_boxplot ()  

כצפוי, עם מספר גדול יותר של דגימות לבדיקה, הסטטיסטי משמעות הבדיקה עולה: enter image description here

#13
+2
Andre Holzner
2010-09-09 23:42:49 UTC
view on stackexchange narkive permalink

אני חושב שמשמעותם היא שלעתים קרובות מניחים הנחה לגבי צפיפות ההסתברות של השערת האפס שיש לה צורה 'פשוטה' אך אינה תואמת את צפיפות ההסתברות האמיתית.

עכשיו עם ערכות נתונים קטנות, אולי אין לך מספיק רגישות לראות את האפקט הזה, אך עם ערכת נתונים גדולה מספיק תדחה את השערת האפס ותגיע למסקנה שיש אפקט חדש במקום להסיק שההנחה שלך לגבי השערת האפס שגויה.

אני לא יודע אם בראשכם עמד מארק ושרן, אלא רק לבטא מחדש את הנקודה שלך - אם המודל לנתונים מתחת לאפס הוא 'שגוי', אז תדחה את השערת האפס לנתונים גדולים מספיק.
#14
+1
user83346
2017-08-05 16:39:47 UTC
view on stackexchange narkive permalink

האם כל זה לא שגיאה מסוג I לעומת שגיאה מסוג II (או כוח)?אם מתקנים את ההסתברות לשגיאה מסוג I ($ \ alpha $) ב -0.05, אז ברור (למעט במקרה הדיסקרטי), זה יהיה 0.05 אם המדגם גדול או לא.

אבל עבור הסתברות שגיאה מסוג I מסוימת, 0.05 למשל, הכוח, או ההסתברות שתזהה את ההשפעה כשהיא שם (אז ההסתברות לדחות $ H_0 $ (= לזהות את ההשפעה) כאשר $ H_1 $נכון (= כאשר ההשפעה קיימת)), הוא גדול יותר עבור גדלי מדגם גדולים.

הכוח גדל עם גודל המדגם (כל שאר הדברים שווים).

אך ההצהרה ש"אנחנו יודעים שעבור גדלים מדגמיים גדולים מספיק, כל מחקר - כולל כאלה שבהם ההשערה האפסית כי אין השפעה נכונה - יכריז על השפעה משמעותית סטטיסטית. "לא נכון.

#15
  0
UserBI
2020-03-24 17:22:08 UTC
view on stackexchange narkive permalink

"אנו יודעים שעבור גדלים מדגמים גדולים מספיק, כל מחקר - כולל מחקר שבו ההשערה האפסית של אין השפעה נכונה - יכריז על השפעה מובהקת סטטיסטית".

ובכן, במובן מסוים כל ההשערה האפסית (ביותר) שקרית.הפרמטר הנבחן צריך להיות שווה לערך המשוער עד למספר אינסופי של נקודות עשרוניות, דבר שהוא דבר נדיר מוחלט.לכן סביר מאוד להניח שהבדיקה תכריז על השפעה משמעותית סטטיסטית ככל שגודל המדגם יגדל.

#16
-3
Joao Holz
2019-11-29 19:12:01 UTC
view on stackexchange narkive permalink

זהו מבקר ההסקה של Bayesian, דרך שונה לסטטיסטיקה של דבר (שונה ממה שמכינים תכופים שכולם לומדים בקורסים אחרים מלבד סטטיסטיקה, אנו לומדים את שניהם).

"המבקר הוא שאתה יכול להוכיח כל דבר עם מדגם גדול מכיוון שנותן לך ערך p."

זו הסיבה שאנחנו מסתכלים בהרבה מדדים אחרים, aic, f, rmse, anova ..... אף אחד מהפרופסורים שלי לא ענה לי כיצד להוביל את הדבר הזה רק "תעשה דוגמה, כך שמערך הנתונים שלך יהיה קטן וזה לא יקרה" אבל אני לא מרוצה מזה, אבל אני משתמש בדרך זו: /



שאלה ותשובה זו תורגמה אוטומטית מהשפה האנגלית.התוכן המקורי זמין ב- stackexchange, ואנו מודים לו על רישיון cc by-sa 2.0 עליו הוא מופץ.
Loading...