שְׁאֵלָה:
מדוע סטטיסטיקה חזקה (ועמידה) לא החליפה טכניקות קלאסיות?
doug
2010-08-03 12:49:34 UTC
view on stackexchange narkive permalink

כאשר פותרים בעיות עסקיות באמצעות נתונים, מקובל שלפחות הנחה מרכזית אחת לפיה נתונים סטטיסטיים קלאסיים אינם תקפים. לרוב, אף אחד לא טורח לבדוק את ההנחות האלה כדי שלעולם לא תדע.

למשל, עד כדי כך שרבים כל כך מדדי האינטרנט הנפוצים הם "זנב ארוך" (יחסית להתפלגות הנורמלית) מתועד עד כה כל כך עד שאנחנו לוקחים את זה כמובן מאליו. דוגמה נוספת, קהילות מקוונות - אפילו בקהילות עם אלפי חברים, זה מתועד היטב כי ללא ספק החלק הגדול ביותר של התרומה / ההשתתפות ברבים מהקהילות הללו מיוחס לקבוצה זעירה של 'תורמים-על'. (למשל, לפני מספר חודשים, ממש לאחר הוצאת ה- API של ה- SO לביטא, חבר StackOverflow פרסם ניתוח קצר מנתונים שאסף דרך ה- API; מסקנתו - פחות מ- אחוז אחד מחברי ה- SO מהווים את מרבית הפעילות ב- SO (ככל הנראה שואל שאלות ומענה עליהן), 1-2% נוספים היוו את השאר, והרוב המכריע של החברים לא עושה דבר). / p>

התפלגויות מסוג זה - לעתים קרובות יותר הכלל ולא החריג - מעוצבות לרוב בצורה הטובה ביותר עם פונקציית צפיפות חוק כוח . לגבי התפלגויות מסוג זה, אפילו משפט הגבולות המרכזי הוא בעייתי ליישום.

אז בהתחשב בשפע האוכלוסיות כמו זה שמעניין את האנליסטים, ובהתחשב בכך שהמודלים הקלאסיים מתפקדים בצורה גרועה בצורה נתונה על נתונים אלה, ובהתחשב בכך ששיטות חזקות ועמידות קיימות זמן מה (לפחות 20 שנה, אני מאמין) - מדוע לא משתמשים בהן בתדירות גבוהה יותר? (אני תוהה גם מדוע אני לא משתמש בהם לעתים קרובות יותר, אבל זו לא ממש שאלה עבור CrossValidated.)

כן אני יודע את זה ישנם פרקים של ספרי לימוד המוקדשים לחלוטין לסטטיסטיקה חזקה ואני יודע שיש (כמה) חבילות R ( robustbase היא זו שאני מכיר ומשתמש בה) וכו '

ובכל זאת בהתחשב ביתרונות הברורים של טכניקות אלה, לעיתים קרובות הם מהווים את הכלים הטובים יותר לתפקיד - מדוע לא משתמשים בהם בתדירות גבוהה יותר ? האם לא עלינו לצפות בסטטיסטיקה חזקה (ועמידה) בשימוש לעתים קרובות יותר (אולי אפילו בחזקה) בהשוואה לאנלוגים הקלאסיים?

ההסבר המהותי היחיד (כלומר, הטכני) ששמעתי הוא החזק טכניקות (כמו גם לשיטות עמידות) חסרות כוח / רגישות של טכניקות קלאסיות. אני לא יודע אם זה אכן נכון במקרים מסוימים, אבל אני יודע שזה לא נכון במקרים רבים.

מילת סף מוקדמת: כן אני יודעת שאין לשאלה זו אפילו הוכחה אחת תשובה נכונה; מעט מאוד שאלות באתר זה עושות זאת. יתר על כן, שאלה זו היא חקירה אמיתית; זו לא עילה לקידום נקודת מבט - אין לי כאן נקודת מבט, רק שאלה לה אני מקווה לתשובות תובנות.

הברבור השחור מאת נסים ניקולס טאלב מסביר מדוע נעשה שימוש במודלים פשוטים בעולם הפיננסי ולסכנות שהביאו לכך. תקלה מסוימת היא השוואת הסתברויות נמוכות מאוד לאפס ויישום עיוור של ההתפלגות הנורמלית בניהול סיכונים!
בדיקות המסתמכות על הנחות רבות הן חזקות יותר כאשר הנחות אלה מתקיימות. אנו יכולים לבדוק את המשמעות של סטייה בהנחה שהתצפיות הן גאוסיות IID, מה שמקנה סטטיסטיקה ממוצעת. מערכת הנחות פחות מגבילה אומרת לנו להשתמש בחציון. אנחנו יכולים ללכת רחוק יותר ולהניח שהתצפיות מתואמות כדי לקבל חוסן עוד יותר. אך כל צעד מפחית את כוח הבדיקה שלנו, ואם איננו מניחים הנחות כלל, המבחן שלנו חסר תועלת. מבחנים חזקים מניחים הנחות לגבי נתונים והם טובים יותר מקלאסיים רק כאשר הנחות אלו תואמות טוב יותר את המציאות
ארבעה עשר תשובות:
#1
+69
John D. Cook
2010-08-03 17:22:58 UTC
view on stackexchange narkive permalink

חוקרים רוצים ערכי p קטנים, ואתה יכול לקבל ערכי p קטנים יותר אם אתה משתמש בשיטות שמניחות הנחות חלוקה חזקות יותר. במילים אחרות, שיטות לא חזקות מאפשרות לך לפרסם מאמרים נוספים. כמובן שיותר ממאמרים אלה עשויים להיות חיוביות כוזבות, אך פרסום הוא פרסום. זה הסבר ציני, אך לפעמים הוא תקף.

"לפעמים" זה לשון המעטה ... ההיגיון של המחברים הוא לא לעתים קרובות ישיר זה אבל תרחיש הגירוי / תגמול הוא כזה שאנשים יעשו זאת כעניין של התניה
אני לא חוקרים לא כנים כמו שפועלים מתוך בורות. הם לא מבינים מה המשמעות של סטטיסטיקה או מה ההנחות שהם דורשים, אבל כמו שאמרת הם מבינים בבירור את הגירוי / תגמול: p> 0.05 => ללא פרסום.
עליכם להציג גם משהו ש"בעלי הכוח "(מקבלי החלטות, מפקחים, סוקרים) מבינים. לכן זה צריך להיות בשפה המשותפת שמתפתחת די לאט, מכיוון שאותם אנשים נוטים להיות מבוגרים ועמידים יותר בפני שינויים, בעיקר מכיוון שזה עלול לפסול את הקריירה שלהם עד כה!
נקודה טובה. "אני מבין ערכי p. פשוט תן לי ערך p." באופן אירוני, הם כנראה * לא * מבינים ערכי p, אבל זה עניין אחר.
אני לא מאמין שזה נכון לגמרי. לפחות שמעתי שאינם פרמטרים מודרניים מקריבים לעתים קרובות מעט מאוד כוח, אם בכלל. AFAIK, אובדן כוח בולט ביותר במבחנים הכוללים טרנספורמציות דרגה, שכמעט ולא קיימות בכל שיטות חזקות.
#2
+43
conjugateprior
2010-10-28 23:14:53 UTC
view on stackexchange narkive permalink

אז 'מודלים קלאסיים' (יהיו אשר יהיו - אני מניח שאתה מתכוון למשהו כמו מודלים פשוטים הנלמדים בספרי לימוד ומוערכים על ידי ML) נכשלים בכמה ערכות נתונים בעולם האמיתי, אולי רבות.

אם מודל נכשל, ישנן שתי גישות בסיסיות לתיקונו:

  1. פחות הנחות (פחות מודל)
  2. הנחות נוספות (יותר מודל)

סטטיסטיקה חזקה, גישת סבירות וגישות GEE נוקטות בגישה הראשונה על ידי שינוי אסטרטגיית ההערכה למצב שבו המודל אינו מחזיק בכל נקודות הנתונים (חזק) או שאינו צריך לאפיין את כל ההיבטים של הנתונים (QL ו- GEE).

האלטרנטיבה היא לנסות לבנות מודל המדגם במפורש את המקור לזיהום נקודות נתונים, או את ההיבטים של המודל המקורי שנראים כלא נכונים, תוך שמירה על שיטת האמידה כקודם.

יש המעדיפים אינטואיטיבית את הראשונים (זה פופולרי במיוחד בכלכלה), ויש כאלה שמעדיפים אינטואיטיבית את האחרונים (זה פופולרי במיוחד בקרב בייסיאנים, שנוטים להיות מאושרים יותר עם מודלים מורכבים יותר, במיוחד ברגע שהם מבינים שהם הולכים בכל מקרה להשתמש בכלי סימולציה להסקה).

הנחות הפצה זנבות שומן, למשל השימוש בבינומי השלילי ולא בפואסון או t במקום רגיל, שייך לאסטרטגיה השנייה. רוב הדברים שכותרתם 'סטטיסטיקה איתנה' שייכים לאסטרטגיה הראשונה.

כעניין מעשי, גזירת אומדנים לאסטרטגיה הראשונה לבעיות מורכבות מציאותית נראית קשה למדי. לא שזו סיבה לא לעשות זאת, אבל זה אולי הסבר מדוע זה לא נעשה לעתים קרובות מאוד.

+1. הסבר טוב מאוד. אני גם חושב שחלק מהשיטות "החזקות" הן אד-הוק (אמצעים קטומים), וכי "חסון" קשור להיבט מסוים של שיטה ואינו איכות כללית, אך אנשים רבים מפרשים "חסון" כ"אני לא לא צריך לדאוג לנתונים שלי, מכיוון שהשיטה שלי חזקה ".
תשובה טובה. מפריע לי שכל כך הרבה תשובות מתמקדות בקושי להבין סטטיסטיקה איתנה או בתמריצים להתעלם מהפרת ההנחות. הם מתעלמים מ [האנשים שם בחוץ] (http://www.tandfonline.com/doi/abs/10.1198/000313006X152207) שיודעים שיש מקרים שיש צורך בסטטיסטיקה איתנה ומתי הם לא.
#3
+29
csgillespie
2010-08-03 22:03:59 UTC
view on stackexchange narkive permalink

הייתי מציע שזה פיגור בהוראה. רוב האנשים לומדים סטטיסטיקה במכללה או באוניברסיטה. אם סטטיסטיקה אינה התואר הראשון שלך ובמקום זאת עשית תואר במתמטיקה או מדעי המחשב, אתה כנראה מכסה רק את המודולים הבסיסיים לסטטיסטיקה:

  1. סבירות
  2. בדיקת השערה
  3. רגרסיה

פירוש הדבר שכאשר אתה נתקל בבעיה אתה מנסה להשתמש במה שאתה יודע כדי לפתור את הבעיה.

  • נתונים אינם רגילים - קח יומנים.
  • לנתונים יש חריגים מעצבנים - הסר אותם.

אלא אם כן אתה נקלע למשהו אחרת, אז קשה לעשות משהו טוב יותר. ממש קשה להשתמש בגוגל כדי למצוא משהו אם אינך יודע איך קוראים לו!

אני חושב שלכל הטכניקות ייקח זמן עד שהטכניקות החדשות יותר יסננו. כמה זמן לקח מבחני השערה סטנדרטיים להיות חלק מתכנית לימודים סטטיסטית סטנדרטית?

BTW, עם תואר סטטיסטי עדיין יהיה פיגור בהוראה - רק קצר יותר!

אבל זה מעלה בעיה פדגוגית מעניינת, לפחות בפסיכולוגיה, כי ככל שידוע לי רוב ספרי הסטטיסטיקה המקדימים שנמצאים בשימוש בתחומי לא באמת דנים במדדים חזקים אלא כצידה.
זה נכון מאוד, וגם בפסיכולוגיה, יש בלבול מעצבן בין לא פרמטרי ללא נורמלי, שנראה שמפריע להבנה.
חלקנו הפסיכולוגים פשוט מבולבלים בכל מה שסטטיסטי! :)
#4
+21
Wesley Burr
2010-08-06 08:06:42 UTC
view on stackexchange narkive permalink

כל מי שמאומן בניתוח נתונים סטטיסטי ברמה סבירה משתמש ב מושגים של סטטיסטיקה איתנה על בסיס קבוע. רוב החוקרים יודעים מספיק כדי לחפש חריגים חמורים ושגיאות בהקלטת נתונים; המדיניות של הסרת נקודות נתונים חשודות חוזרת כבר במאה ה -19 עם לורד ריילי, G.G. סטוקס, ואחרים בני גילם. אם השאלה היא:

מדוע החוקרים לא משתמשים בשיטות המודרניות יותר לצורך מחשוב של מיקום, קנה מידה, רגרסיה וכו '?

אז התשובה ניתנת לעיל - השיטות פותחו במידה רבה ב -25 השנים האחרונות, נניח 1985 - 2010. הפיגור ללימוד גורמים חדשים בשיטות חדשות, כמו גם אינרציה המורכבת על ידי 'המיתוס' שאין שום דבר רע בשימוש עיוור. שיטות קלאסיות. ג'ון טוקי מעיר ש רק אילו שיטות עמידות / עמידות אתה משתמש אינו חשוב - מה שחשוב הוא שתשתמש בכמה. נכון לחלוטין להשתמש בשיטות קלאסיות וגם בשיטות חזקות / עמידות באופן קבוע, ולדאוג רק כשהן שונות מספיק כדי לחשוב. אך כאשר הם נבדלים , עליכם לחשוב ש קשה .

אם במקום זאת, השאלה היא:

אז התשובה באמת מגיעה להכשרה. ישנם הרבה יותר מדי חוקרים שמעולם לא הוכשרו לסטטיסטיקה כראוי, ולסיכום על ידי ההסתמכות הכללית על ערכי p כאל הכל והסוף של 'מובהקות סטטיסטית'.

@Kwak: Huber's הערכות משנות השבעים הן חזקות, במובן הקלאסי של המילה: הן מתנגדות לחריגות. ואומדנים של ירידה חוזרת מתוארכים למעשה הרבה לפני שנות השמונים: מחקר החוסן של פרינסטון (משנת 1971) כלל את אומדן המיקום הביסקווארי, הערכה חוזרת.

http://projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1043351251 מסמך זמין בחינם שנכתב על ידי פיטר הובר על תרומתו של ג'ון טוקי לסטטיסטיקה חזקה. קריאה קלה למדי, אור על הנוסחאות.
#5
+20
Carlos Accioly
2010-08-04 01:26:23 UTC
view on stackexchange narkive permalink

סטטיסטיקה היא כלי לחוקרים שאינם בעלי אופי סטטיסטי, ופשוט לא אכפת להם.

ניסיתי פעם לעזור במאמר ברפואה שאשתי לשעבר כתבה. כתבתי כמה עמודים המתארים את הנתונים, מה הם מציעים, מדוע לא נכללו תצפיות מסוימות מהמחקר ... והחוקר הראשי, רופא, זרק את הכל וביקש ממישהו שיחשב ערך p, וזה כל מה שהיא (וכמעט כל מי שיקרא את המאמר) איכפת לו.

#6
+12
robin girard
2010-08-03 14:05:57 UTC
view on stackexchange narkive permalink

אני נותן תשובה בשני כיוונים:

  1. דברים חזקים אינם בהכרח מתויגים כחסינים. אם אתה מאמין שקיימות חוסן נגד הכל אז אתה נאיבי.
  2. גישות סטטיסטיות שמשאירות את בעיית החוסן appart אינן מותאמות לעולם האמיתי, אך לרוב הן בעלות ערך רב יותר (כמושג) מאשר אלגוריתם שנראה כמו מטבחים.

התפתחות

ראשית, אני חושב שיש הרבה גישות טובות בסטטיסטיקה (תמצא אותן בחבילות R לא בהכרח עם חסון מוזכר איפשהו) שהם באופן טבעי חזקים ונבדקים על נתונים אמיתיים והעובדה שאתה לא מוצא אלגוריתם עם אזכור "חזק" מוזכר אי שם לא אומר שהוא לא חזק. בכל מקרה, אם אתה חושב שלהיות חסון פירושו להיות אוניברסלי אז לעולם לא תמצא שום הליך חזק (ללא ארוחת צהריים בחינם) אתה צריך להיות בעל ידע / מומחיות מסוימים בנתונים שאתה מנתח בכדי להשתמש בכלי מותאם או ליצור מודל מותאם. / p>

מצד שני, כמה גישות בסטטיסטיקה אינן חזקות מכיוון שהן מוקדשות לסוג אחד של מודלים. אני חושב שזה טוב מתישהו לעבוד במעבדה כדי לנסות להבין את הדברים. טוב גם לטפל בבעיה בנפרד כדי להבין לאיזו בעיה הפתרון שלנו ... כך עובד מתמטיקאי. הדוגמה של המודל הגאוסי elocant: זוכה לביקורת כה רבה משום שההנחה הגאוסית לעולם אינה מתממשת אלא הביאה 75% מהרעיונות המשמשים באופן סטטיסטי כיום. האם אתה באמת חושב שכל זה נוגע לכתיבת נייר כדי לעקוב אחר הכלל לפרסם או לגווע (שאני לא אוהב, אני מסכים)?

#7
+11
JoFrhwld
2010-08-04 23:12:24 UTC
view on stackexchange narkive permalink

כמי שלמד מעט סטטיסטיקה למחקר שלי, אני מנחש שהסיבות הן פדגוגיות ואינרציאליות.

הבחנתי בתחומי שלי שהסדר שבו הנושאים הנלמדים משקפים את ההיסטוריה של התחום. הרעיונות שהגיעו ראשונים נלמדים ראשונים וכן הלאה. עבור אנשים שרק עוברים נתונים סטטיסטיים לצורך הוראה קצרה, פירוש הדבר שהם ילמדו נתונים סטטיסטיים קלאסיים תחילה וכנראה שיימשכו. ואז, גם אם הם לומדים יותר, הדברים הקלאסיים עם הידבקות איתם טובים יותר בגלל השפעות ראשוניות.

כמו כן, כולם יודעים מהי מבחן t של שני מדגמים. פחות מכולם יודעים מהי בדיקת מאן-וויטני או ווילקוקסון. פירוש הדבר שעלי להשקיע אנרגיה מעטה בכדי להסביר מהו המבחן החזק שלי, לעומת אי-צורך להפעיל מבחן קלאסי. ברור שתנאים כאלה יביאו לכך שפחות אנשים ישתמשו בשיטות חזקות ממה שצריך.

#8
+9
David Rebelo
2011-01-04 05:00:02 UTC
view on stackexchange narkive permalink

וולדרידג '"כלכלת היכרות - גישה מודרנית" 2E עמ' 261.

אם שגיאות תקן חזקות בהטרוסקדסטיות תקפות לעיתים קרובות יותר משגיאות תקן OLS הרגילות, מדוע אנו מפריעים לנו לשגיאות התקן הרגילות בכלל? ... אחת הסיבות לכך שהם עדיין משמשים בעבודת חתך היא שאם ההנחה ההומוסקדסטית מתקיימת והשגיאות מופצות בדרך כלל, אז לסטטיסטיקה הרגילה יש התפלגויות מדויקות, ללא קשר לגודל המדגם. שגיאות התקן החזקות והסטטיסטיקה החזקה t מוצדקות רק כאשר גודל המדגם הופך גדול. עם גדלים מדגמיים קטנים, לסטטיסטיקה החזקה של t יכול להיות הפצות שאינן קרובות מאוד להתפלגות t, ועלולות להשליך את ההסקה שלנו. בגדלים גדולים של מדגמים, אנו יכולים לטעון דיווח תמיד רק על שגיאות תקן חזקות בהטרוסקדסטיות ביישומי חתך, ונוהג זה נוהג יותר ויותר בעבודה יישומית.

חדשות רעות כאן: http://pan.oxfordjournals.org/content/23/2/159
#9
+7
Joe
2010-08-30 19:11:06 UTC
view on stackexchange narkive permalink

למרות שהם אינם בלעדיים הדדית, אני חושב שהפופולריות הגוברת של הסטטיסטיקה של בייסיא היא חלק ממנה. נתונים סטטיסטיים של Bayesian יכולים להשיג הרבה מאותן מטרות באמצעות קודמים וממוצע של מודלים, ונוטים להיות מעט חזקים יותר בפועל.

#10
+6
mirror2image
2011-05-12 13:12:00 UTC
view on stackexchange narkive permalink

אני לא סטטיסטיקאי, הניסיון שלי בסטטיסטיקה מוגבל למדי, אני פשוט משתמש בסטטיסטיקה חזקה בראייה ממוחשבת / שחזור תלת-ממדי / הערכת תנוחות. הנה התייחסותי לבעיה מנקודת מבט המשתמש:

ראשית, סטטיסטיקה חזקה השתמשה הרבה בהנדסה ובמדע בלי לקרוא לה "סטטיסטיקה חזקה". הרבה אנשים משתמשים בו באופן אינטואיטיבי, ומגיעים אליו בתהליך של התאמת שיטה ספציפית לבעיה בעולם האמיתי. לדוגמא איטרטיבי משוקלל מחדש ריבועים קטנים ביותר ואמצעים גזומים / ריבועים לפחות קצוצים המשמשים בדרך כלל, שרק המשתמש לא יודע שהוא השתמש בסטטיסטיקה חזקה - הם פשוט הופכים את השיטה לביצועית לנתונים אמיתיים ולא סינתטיים. שנית, סטטיסטיקות "אינטואיטיביות" והן מודעות סטטיסטיות מודעות משמשות כמעט תמיד במקרה בו ניתן לאמת את התוצאות, או כאשר קיימות מדדי שגיאה גלויים לעין. אם התוצאה המתקבלת בהתפלגות רגילה היא ללא ספק לא תקפה או שגויה, אנשים מתחילים להתעסק במשקולות, לקצץ, לדגום, לקרוא קצת נייר ובסופו של דבר להשתמש באומדים חזקים, בין אם הם יודעים מונח ובין אם לא. מצד שני אם התוצאה הסופית של המחקר היא רק כמה גרפיקה ודיאגרמות, ואין שום רגישות לאימות התוצאות, או אם נתונים סטטיסטיים נורמליים מציגים תוצאות טובות מספיק - אנשים פשוט לא טורחים.

ולבסוף, לגבי התועלת של סטטיסטיקה איתנה כתיאוריה - בעוד שהתאוריה עצמה מאוד מעניינת היא לא נותנת לעתים קרובות יתרונות מעשיים. רוב האומדים החזקים הם טריוויאלים ואינטואיטיביים למדי, לעתים קרובות אנשים ממציאים אותם מחדש ללא כל ידע סטטיסטי. תיאוריה, כמו הערכת נקודת התמוטטות, אסימפטוטיקה, עומק נתונים, יכולת הטרו וכו 'מאפשרים הבנה מעמיקה יותר של הנתונים, אך ברוב המקרים זה פשוט מיותר. יוצא מן הכלל אחד גדול הוא צומת של נתונים סטטיסטיים חזקים וחישה דחיסה, המייצרים כמה שיטות מעשיות חדשות כגון "זר-זר"

#11
+5
Andy W
2011-01-05 01:39:25 UTC
view on stackexchange narkive permalink

הידע שלי באומדנים חזקים נוגע אך ורק לשגיאות תקן חזקות לפרמטרים של רגרסיה, ולכן ההערה שלי תהיה רק ​​לגבי אלה. הייתי מציע לאנשים לקרוא מאמר זה,

על מה שמכונה "אומדן כריך סיבוביות" ו"שגיאות תקן חזקות "מאת: פרידמן, א. דייוויד הסטטיסטיקאי האמריקאי, כרך א '. 60, מס '4. (נובמבר 2006), עמ' 299-302. doi: 10.1198 / 000313006X152207 ( גרסת PDF)

במיוחד מה אני מודאג לגבי הגישות הללו הוא לא שהן טועות, אלא הן פשוט להסיח את הדעת מבעיות גדולות יותר. לפיכך אני מסכים לחלוטין עם תשובתו של רובין ג'ירארד והזכרתו "אין ארוחת צהריים בחינם".

#12
+3
JohnRos
2011-11-07 23:15:35 UTC
view on stackexchange narkive permalink

החישוב וההסתברות הדרושים לסטטיסטיקה חזקה הם (בדרך כלל) קשים יותר, ולכן (א) יש פחות תיאוריה ו- (ב) קשה יותר להבין.

#13
+2
Christoph Hanck
2015-04-13 16:48:44 UTC
view on stackexchange narkive permalink

אני מופתע לראות את משפט גאוס-מרקוב אינו מוזכר ברשימה ארוכה זו של תשובות, אפיות:

במודל ליניארי עם שגיאות כדוריות (אשר לאורך הדרך כוללת הנחה של אין חריגות, באמצעות שונות שגיאות סופית), OLS יעיל במחלקה של אומדנים לא משוחדים לינאריים - ישנם (מגבילים, בוודאי) תנאים שבהם "אתה לא יכול לעשות טוב יותר מ- OLS". / p>

אני לא טוען שזה צריך להצדיק שימוש ב- OLS כמעט כל הזמן, אבל זה בטוח תורם למה (במיוחד מכיוון שזה תירוץ טוב להתמקד כל כך ב- OLS בהוראה).

ובכן, כן, אבל זה מניח כי מזעור השונות הוא הקריטריון הרלוונטי, ועם זנבות כבדים, זה לא יכול להיות כך!
בטוח.רק רציתי להוסיף את מה שלדעתי הוא אולי הסיבה המפורסמת ביותר לחשוב ש- OLS היא טכניקה שימושית לרשימת הסיבות המובנות מדוע טכניקות חזקות לא * החליפו אותה: ישנם מקרים שלא כדאי להחליף אותה.
#14
  0
ayorgo
2018-04-19 15:20:00 UTC
view on stackexchange narkive permalink

הניחוש שלי יהיה שסטטיסטיקה חזקה לעולם איננה מספיק כלומר כדי להיות חזקים הסטטיסטיקה הזו מדלגת על חלק מהמידע על ההפצה.ואני חושד שזה לא תמיד דבר טוב. במילים אחרות יש פשרה בין חסינות לאובדן מידע.

למשלהחציון הוא חזק מכיוון שבניגוד לממוצע הוא משתמש במידע רק על מחצית מהאלמנטים (במקרה נפרד): חציון $$ (\ {1, 2, 3, 4, 5 \}) = 3 = חציון (\ {0.1, 0.2, 3, 4000, 5000 \}) $$

ראה https://stats.stackexchange.com/questions/74113/when-is-the-median-more-affected-by-sampling-error-than-the- אמצעי למצב בו החציון שביר מאוד והממוצעמתנהג היטב.


שאלה ותשובה זו תורגמה אוטומטית מהשפה האנגלית.התוכן המקורי זמין ב- stackexchange, ואנו מודים לו על רישיון cc by-sa 2.0 עליו הוא מופץ.
Loading...