שְׁאֵלָה:
מהן 'הבעיות הגדולות' בסטטיסטיקה?
raegtin
2010-09-05 09:16:30 UTC
view on stackexchange narkive permalink
ל

למתמטיקה יש את בעיות המילניום המפורסמות (וגם, מבחינה היסטורית, את 23 של הילברט), שאלות שעזרו לעצב את כיוון התחום.

אם כי אין לי מושג מה ההשערות של רימן ו- P לעומת NP לסטטיסטיקה.

אז, מהן השאלות הפתוחות הכוללות בסטטיסטיקה?

ערוך להוסיף: כדוגמה לרוח הכללית (אם לא ממש ספציפיות) של התשובה שאני מחפש, מצאתי הרצאת השראה "של הילברט 23" מאת דייוויד דונו, במסגרת "אתגרי המתמטיקה של המאה ה -21 "ועידה: ניתוח נתונים ממדים גבוהים: הקללות וברכות המימד

אז תשובה פוטנציאלית יכולה לדבר על נתונים גדולים ולמה זה חשוב, סוגי האתגרים הסטטיסטיים גבוהים תנוחות נתונים ממדיות ושיטות שצריך לפתח או שאלות שיש לענות עליהן כדי לעזור בפתרון הבעיה.

תודה שפרסמת את זה. זה דיון חשוב (ואולי מעורר השראה).
שבע תשובות:
#1
+48
whuber
2010-09-06 22:27:02 UTC
view on stackexchange narkive permalink

שאלה גדולה צריכה לכלול נושאים מרכזיים של מתודולוגיה סטטיסטית, או מכיוון שסטטיסטיקה היא כולה על יישומים, היא צריכה לדאוג לאופן השימוש בסטטיסטיקה עם בעיות חשובות לחברה.

זה אפיון מציע כי יש לכלול את הדברים הבאים בכל שיקול של בעיות גדולות:

  • כיצד עדיף לבצע ניסויים בסמים . נכון לעכשיו, בדיקת השערה קלאסית מצריכה שלבי לימוד פורמליים רבים. בשלבים מאוחרים יותר (מאששים), הסוגיות הכלכליות והאתיות מתרחשות. האם נוכל לעשות טוב יותר? האם עלינו להכניס מאות או אלפי אנשים חולים לקבוצות ביקורת ולהשאיר אותם שם עד לסיום המחקר, למשל, או שנוכל למצוא דרכים טובות יותר לזהות טיפולים שבאמת עובדים ולהעביר אותם לחברי הניסוי (ו אחרים) מוקדם יותר?

  • התמודדות עם הטיה בפרסום מדעי . תוצאות שליליות מתפרסמות הרבה פחות פשוט מכיוון שהן פשוט לא משיגות ערך p קסם. כל ענפי המדע צריכים למצוא דרכים טובות יותר להביא תוצאות מדעיות חשובות, לא רק משמעותיות, מבחינה מדעית. (בעיית ההשוואות המרובות וההתמודדות עם נתונים ממדים גבוהים הן קטגוריות משנה לבעיה זו.)

  • בדיקת גבולות השיטות הסטטיסטיות ו > ממשקים עם למידת מכונה והכרת מכונה . התקדמות בלתי נמנעת בטכנולוגיית המחשוב תנגיש AI אמיתי בימי חיינו. כיצד נתכנת מוח מלאכותי? איזה תפקיד יכול להיות לחשיבה סטטיסטית ולמידה סטטיסטית ביצירת ההתקדמות הללו? כיצד יכולים סטטיסטיקאים לסייע בחשיבה על קוגניציה מלאכותית, למידה מלאכותית, בחקר המגבלות שלהם ובהתקדמות?

  • פיתוח דרכים טובות יותר לניתוח נתונים גיאו-מרחביים . לעתים קרובות טוענים כי הרוב, או הרוב המכריע, של מאגרי המידע מכילים אזכורים לאיתור. בקרוב אנשים ומכשירים רבים ימוקמו בזמן אמת עם טכנולוגיות GPS וטלפונים סלולריים. שיטות סטטיסטיות לניתוח ולניצול של נתונים מרחביים הן ממש בתחילת דרכן (ונראות כאילו הן מועברות ל- GIS ולתוכנות מרחביות שמשמשות בדרך כלל לא סטטיסטים).

מהן הדרכים בהן אנשים מנסים לפתור את הבעיות הללו?
@grautur: אלה ארבע שאלות מצוינות (ועוד הרבה יותר, כי התגובה שלך חלה על כל תשובה בשרשור זה). לכולן מגיע תשובות נרחבות, אך ברור שאין כאן מקום לכך: שאלה אחת בכל פעם, בבקשה!
לגבי הכדור הראשון (ניסויים בתרופות): אפילו אנשים שאחרת לא יעניינו בניסויים רפואיים צריכים לקרוא את המאמר של NYTimes * דיונים חדשים מעוררים דיונים על כללים בסיסיים של ניסויים קליניים * (http://www.nytimes.com/2010/ 09/19 / health / research / 19trial.html? Pagewanted = 1 & _r = 1 & th & emc = th). הקורא בעל האוריינות הסטטיסטית יראה מיד את ההשלכות הלא-אמורות בנוגע לתכנון ניסיוני ושימוש בערכי p לצורך קבלת החלטות. ישנה החלטה סטטיסטית, אי שם, לחידת החיים והמוות המתוארת במאמר זה.
#2
+26
raegtin
2011-07-03 03:03:50 UTC
view on stackexchange narkive permalink

למייקל ג'ורדן יש מאמר קצר בשם מהן הבעיות הפתוחות בסטטיסטיקה בייסיאנית?, ובו סקר חבורה של סטטיסטיקאים על דעתם על הבעיות הגלויות בסטטיסטיקה. אני אסכם (aka, העתק והדביק) קצת כאן, אבל כנראה הכי טוב פשוט לקרוא את המקור.

Nonparametrics and semiparametrics

  • לאילו בעיות האם nonparametrics Bayesian מועילה וכדאי להתאמץ?
  • דייוויד דונסון: "מודלים של Bayesian non-parametric כוללים אינסוף פרמטרים וקדימות נבחרות בדרך כלל מטעמי נוחות כאשר היפרפרמטרים מוגדרים בערכים סבירים לכאורה ללא הצדקה אובייקטיבית או סובייקטיבית ראויה."
  • "צוינו על ידי כמה אנשים כי אחד היישומים המושכים של nonparametrics תכופים הוא מסקנה semiparametric, כאשר המרכיב nonparametric של המודל הוא פרמטר מטרד. אנשים אלה הרגישו שזה רצוי לבשר הוציאו את התיאוריה (התדירנית) של חצי-פרמטריה של בייס. "

עדיפות

  • " הנמכה נותרה מקור עיקרי לבעיות גלויות. "

יחסים בייסיים / תכופים

  • "משיבים רבים הביעו רצון לפגוע עוד יותר במערכות יחסים בייסיאניות / תכופות. הדבר הוכח לרוב בהקשר של מודלים ונתונים מימדים גבוהים, כאשר לא רק הגישות הסובייקטיביות למפרט של הקדימאים קשות ליישום, אלא שקדימות הנוחות יכולות להטעות (מאוד). "
  • 'חלק המשיבים חיפשו תיאוריה לא אסימפטוטית שעשויה לחשוף ביתר פירוט את היתרונות המשוערים של שיטות בייסיאן; למשל, דייוויד דונסון: "לעתים קרובות, השיעור האופטימלי התדיר מתקבל על ידי נהלים שלמעשה גרועים בהרבה בדגימות סופיות מאשר בגישות בייזיאניות." '

חישוב וסטטיסטיקה

  • אלן גלפנד: "אם MCMC כבר אינו בר-קיימא לבעיות שאנשים רוצים לטפל בהן, אז מה התפקיד של INLA, של שיטות וריאציה, של גישות ABC? "
  • " כמה מהנשאלים ביקשו שילוב יסודי יותר של מדעי החישוב ומדע הסטטיסטיקה, וציינו כי מכלול ההסקות שאפשר להגיע אליהם בכל מצב נתון הוא פונקציה משותפת של המודל, הקודם, הנתונים ומשאבי החישוב, וביקש לניהול מפורש יותר של הפשרות בין הכמויות הללו. ואכן, רוב קאס העלה את האפשרות של תפיסה של "פיתרון מסקנות", כאשר כמה בעיות מובנות מעבר לתקווה (למשל , בחירת מודלים ברגרסיה כאשר "לכמויות צנועות של נתונים הנתונות לרעש לא מקרי, אי אפשר לקבל מרווחי ביטחון שימושיים לגבי מקדמי רגרסיה כשיש מספר גדול של משתנים שנוכחותם או היעדרם במודל לא מוגדרת מראש") ו כאשר ישנן בעיות אחרות ("פונקציונליות מסוימות שקיימות עבורן מרווחי אמון שימושיים") שיש להן תקווה. "
  • " כמה משיבים, בעודם מתנצלים על ערפול מסוים, הביעו תחושה כי גדול כמות הנתונים אינה מרמזת בהכרח על כמות גדולה של חישוב; אלא, שאיכשהו כוח העוצמה הקיים בנתונים גדולים אמור לעבור לאלגוריתם ולאפשר להסתפק בפחות צעדים חישוביים כדי להשיג פתרון מסק משביע רצון (משוער). "

מודל בדיקת בחירה והיפותזה

  • ג'ורג 'קאסלה: "כעת אנו מבצעים בחירת מודלים אך נראה שהבייסיאנים לא דואגים למאפיינים של ביסוס ההסקה על המודל שנבחר. מה אם זה לא בסדר? מהן ההשלכות של הגדרת אזורים אמינים לפרמטר מסוים $ β_1 $ כאשר בחרת במודל הלא נכון? האם נוכל לקיים נהלים עם ערבות כלשהי? "
  • צורך בעבודה נוספת על יסודות תיאורטיים של החלטות בבחירת המודל.
  • דייוויד שפיגלהלטר: "כיצד עדיף להפוך בדיקות לסכסוך קודם / נתונים לחלק בלתי נפרד מניתוח בייסיה?"
  • אנדרו גלמן: "לבדיקת מודלים, בעיה מרכזית פתוחה היא פיתוח כלים גרפיים להבנת והשוואה בין מודלים. גרפיקה איננה מיועדת רק לנתונים גולמיים; אלא, מודלים בייסיאניים מורכבים נותנים אפשרות לניתוח נתונים חקר טוב ויעיל יותר."
#3
+13
russellpierce
2010-09-06 00:19:03 UTC
view on stackexchange narkive permalink

אני לא בטוח כמה הם גדולים, אבל יש דף ויקיפדיה לבעיות לא פתורות בסטטיסטיקה. הרשימה שלהם כוללת:

מסקנות ובדיקות

  • שגיאות שיטתיות
  • קבילותו של אומדן גרייביל – דיל
  • שילוב של ערכי p תלויים בניתוח מטא
  • Behrens – Fisher problem
  • השוואות מרובות
  • בעיות פתוחות בסטטיסטיקה בייסיאית

תכנון ניסיוני

  • בעיות בריבועים לטיניים

בעיות של עוד טבע פילוסופי

  • דגימת בעיית מינים
  • טיעון יום הדין
  • פרדוקס חילופי
#4
+6
raegtin
2010-09-05 10:23:26 UTC
view on stackexchange narkive permalink

כדוגמה לרוח הכללית (אם לא ממש ספציפיות) לתשובה שאני מחפש, מצאתי הרצאה "בהשראת הילברט 23" מאת דייוויד דונוהו בכנס "אתגרי המתמטיקה של המאה ה -21":

ניתוח נתונים ממדים גבוהים: הקללות וברכות המימד

האם אוכל להציע לך לערוך את השאלה העיקרית שלך כדי לכלול מידע זה?
#5
+4
Robby McKilliam
2010-09-05 13:36:31 UTC
view on stackexchange narkive permalink
ל

Mathoverflow יש שאלה דומה לגבי בעיות גדולות בתורת ההסתברות.

נראה מאותו דף כי השאלות הגדולות ביותר קשורות לעצמי המנעות מהליכות אקטיביות וחלחלות.

אני חושב שסטטיסטיקה היא תחום נפרד מתיאוריית ההסתברות.
@raegtin - אני לא חושב שתורת ההסתברות נפרדת מהסטטיסטיקה, אלא זו התיאוריה. "סטטיסטיקה" הוא יישום של תורת ההסתברות לבעיות הסקה (כלומר התרגול).
#6
+4
Charlie
2010-09-06 00:18:58 UTC
view on stackexchange narkive permalink

ייתכן שתבדוק את "הבעיות הקשות בקולוקוויום של מדעי החברה של הרווארד שנערך מוקדם יותר השנה. כמה משיחות אלה מציעות סוגיות בשימוש בסטטיסטיקה ובמודלים במדעי החברה.

#7
+2
pmgjones
2010-09-05 16:43:36 UTC
view on stackexchange narkive permalink

התשובה שלי תהיה המאבק בין הסטטיסטיקה התדירה לסטטיסטיקה בייסיאנית. כשאנשים שואלים אותך באיזה אתה "מאמין", זה לא טוב! במיוחד לדיסציפלינה מדעית.

אין שום פסול בכך שמדען "מאמין" במשהו, במיוחד שכן הסתברות בייסיאנית מייצגת את מידת האמונה או הידע באשר לאמיתה של הצעה כלשהי.
... הבעיה מתעוררת רק כאשר מדען אינו יכול להבחין בין אמונה לבין עובדה. אין שום דבר לא מדעי באמונה שסטטיסטיקה בייסיאנית או תדירנית עדיפה, מכיוון שאין מבחן אובייקטיבי שיכול להכריע את התשובה (AFAIK), ולכן הבחירה היא סובייקטיבית ברובה ו / או עניין של "סוסים לקורסים".
@propofol - אני מסכים שהמילה "מאמין" אינה מושג מתאים לשימוש בסטטיסטיקה - היא נושאת סוגים לא נכונים של קונוטציות. מידע זו מילה הרבה יותר מתאימה לדעתי (כלומר "איזה מידע יש לך?"). זה לא משנה את המתמטיקה או את משפטי האופטימליות של הניתוח הביסיאני, אבל זה נותן להם את המשמעות הראויה שלהם מבחינת אופן השימוש בהם בפועל. לְמָשָׁל ידע בתאוריה פיזיקלית או במנגנון סיבתי הוא מידע ולא אמונה.


שאלה ותשובה זו תורגמה אוטומטית מהשפה האנגלית.התוכן המקורי זמין ב- stackexchange, ואנו מודים לו על רישיון cc by-sa 2.0 עליו הוא מופץ.
Loading...