שְׁאֵלָה:
כללי אצבע לסטטיסטיקה "מודרנית"
chl
2010-09-16 15:21:37 UTC
view on stackexchange narkive permalink

אני אוהב את ספרו של ג'ון ואן בל על כללים סטטיסטיים של אגודל, ובמידה פחותה שגיאות נפוצות בסטטיסטיקה (וכיצד להימנע מהן) מפיליפ I טוב ו ג'יימס וו. הרדין. הם מתייחסים למלכודות נפוצות כאשר מפרשים תוצאות ממחקרים ניסיוניים ותצפיתיים ומעניקים המלצות מעשיות להסקה סטטיסטית, או ניתוח נתונים חקרני. אבל אני מרגיש שההנחיות "המודרניות" חסרות במקצת, במיוחד עם השימוש ההולך וגובר בסטטיסטיקה חישובית וחזקה בתחומים שונים, או הכנסת טכניקות מקהילת למידת המכונה, למשל. ביו סטטיסטיקה קלינית או אפידמיולוגיה גנטית.

מלבד טריקים חישוביים או מלכודות נפוצות בהדמיית נתונים שניתן לטפל בהם במקומות אחרים, הייתי רוצה לשאול: מה הם כללי האצבע העליונים שאתה ממליץ עליהם ליעילות ניתוח נתונים? ( כלל אחד לתשובה, בבקשה ).

אני חושב על הנחיות שאתה עשוי לספק לעמית, חוקר ללא רקע חזק בסטטיסטיקה. דוגמנות, או סטודנט בקורס ביניים עד מתקדם. זה עשוי להתייחס לשלבים שונים של ניתוח נתונים, למשל. אסטרטגיות דגימה, בחירת תכונות או בניית מודלים, השוואת מודלים, הערכה לאחר, וכו '

24 תשובות:
#1
+62
onestop
2010-09-16 17:57:27 UTC
view on stackexchange narkive permalink

אל תשכח לבצע בדיקת נתונים בסיסית לפני שתתחיל בניתוח. בפרט, הסתכל על עלילת פיזור של כל משתנה שאתה מתכוון לנתח מול מספר תעודת זהות, תאריך / שעה של איסוף נתונים או דומה. העין יכולה לעיתים קרובות להרים דפוסים המגלים בעיות כאשר נתונים סטטיסטיים מסכמים אינם מראים שום דבר חריג. ואם אתה מתכוון להשתמש ביומן או טרנספורמציה אחרת לצורך ניתוח, השתמש בו גם לעלילה.

למדתי את זה בדרך הקשה. פעמיים.
כן! הסתכל לפני שאתה קופץ. אנא, הסתכל בנתונים.
בדיקה ויזואלית של הנתונים * יכולה * לנפח שגיאות מסוג I אם ההחלטות מתקבלות לאחר הוק. אני נוטה לבצע ניתוחים מאששים כפי שנקבעו מראש ולכלול תוצאות שהושפעו מבדיקה כניתוחי חקר או רגישות.
#2
+51
Stephan Kolassa
2010-09-18 23:15:49 UTC
view on stackexchange narkive permalink

הקפד לשחזר את הניתוח שלך. סוקר או הבוס שלך או מישהו אחר ישאל אותך בסופו של דבר איך בדיוק הגעת לתוצאה שלך - כנראה חצי שנה או יותר לאחר שביצעת את הניתוח. אתה לא תזכור איך ניקית את הנתונים, איזה ניתוח עשית, מדוע בחרת במודל הספציפי שבו השתמשת ... ושחזור כל זה הוא כאב.

מסקנה: השתמש בשפת סקריפטים כלשהי, הכניס הערות לתסריטי הניתוח שלך ושמור עליהם. מה שאתה משתמש בו (R, SAS, Stata, מה שלא יהיה) חשוב פחות מלהתקין סקריפט לשחזור לחלוטין. דחה סביבות בהן הדבר בלתי אפשרי או מביך.

אם אתה מתכוון להשתמש ב- R, אני ממליץ להטמיע את קוד ה- R שלך במסמך Sweave המפיק את הדוח שלך. כך קוד ה- R נשאר עם הדו"ח.
#3
+36
user88
2010-09-16 17:08:08 UTC
view on stackexchange narkive permalink

אין ארוחת צהריים בחינם

חלק גדול מהכשלים הסטטיסטיים נוצר על ידי לחיצה על כפתור מבריק גדול שנקרא "חשב חשיבות" מבלי לקחת בחשבון את נטל ההנחות הנסתרות.

חזור

גם אם מדובר בשיחה יחידה לגנרטור אקראי, יתכן שיהיה מזל או מזל רע ולכן תקפוץ למסקנות שגויות.

#4
+29
Stephan Kolassa
2010-09-19 02:07:17 UTC
view on stackexchange narkive permalink

כלל אחד לתשובה ;-)

שוחח עם הסטטיסטיקאי לפני ש יערוך את המחקר. במידת האפשר, לפני הגשת הבקשה למענק. עזור לו / ה להבין את הבעיה שאתה לומד, לקבל את תשומותיו כיצד לנתח את הנתונים שאתה עומד לאסוף ולחשוב מה המשמעות עבור עיצוב המחקר שלך ודרישות הנתונים שלך. אולי הבחור / גל הסטטיסטי מציע לעשות מודל היררכי כדי להסביר את מי שאבחן את המטופלים - אז אתה צריך לעקוב אחר מי שאבחן את מי. נשמע טריוויאלי, אבל עדיף לחשוב על זה לפני שאתה אוסף נתונים (ולא מצליח לאסוף משהו מכריע) מאשר אחר כך.

הערה קשורה: בצע ניתוח כוח לפני שתתחיל. שום דבר לא מתסכל כמו לא לתקצב גודל מדגם גדול מספיק. בחשיבה על איזה גודל אפקט אתה מצפה, זכור את הטיית הפרסום - גודל האפקט שאתה הולך למצוא יהיה כנראה קטן ממה שציפית בהתחשב בספרות (המוטה).

#5
+28
Rob Hyndman
2010-09-16 18:13:11 UTC
view on stackexchange narkive permalink

דבר אחד שאני אומר לתלמידים שלי הוא לייצר גרף מתאים לכל ערך p. למשל, פיזור עלילה אם הם בודקים מתאם, עלילות תיבה זו לצד זו אם הן עושות ANOVA חד כיווני וכו '.

#6
+28
Jeromy Anglim
2010-09-17 14:40:03 UTC
view on stackexchange narkive permalink

אם אתה מחליט בין שתי דרכים לנתח את הנתונים שלך, נסה זאת בשני הכיוונים ובדוק אם זה משנה.

זה שימושי בהקשרים רבים:

  • כדי להפוך או לא להפוך
  • מבחן לא פרמטרי או פרמטר
  • מתאם של ספירמן או פירסון
  • ניתוח PCA או גורם
  • האם להשתמש בממוצע החשבוני או הערכה חזקה של הממוצע
  • האם לכלול משתנה משתנה או לא
  • אם להשתמש במחיקה של רשימה, זוג- מחיקה נבונה, זקיפה או שיטה אחרת להחלפת ערכים חסרים

זה לא אמור לפטור מחשבה על הנושא, אבל זה לפחות נותן תחושה של מידת הממצאים המהותיים הם חזקים לבחירה.

האם זה הצעת מחיר? אני רק תוהה כיצד ניסיון הליכי בדיקה חלופיים (לא אסטרטגיות ניתוח!) עלול לא לשבור במידה מסוימת את השליטה בשגיאה מסוג I או בחישוב הכוח הראשוני. אני יודע ש- SAS מחזירה באופן שיטתי תוצאות ממבחנים פרמטריים ולא פרמטריים (לפחות בהשוואה של שני מדגמים של אמצעים ו- ANOVA), אבל אני תמיד מוצא את זה מסקרן: האם אנחנו לא צריכים להחליט לפני שנראה את התוצאות איזה בדיקה צריכה להיות מיושמת?
@chl נקודה טובה. אני מסכים שניתן להשתמש בכלל האצבע לעיל מהסיבות הלא נכונות. כלומר, לנסות דברים בכמה דרכים ולדווח רק על התוצאה שנותנת את התשובה הנעימה יותר. אני רואה את כלל האצבע שימושי ככלי הדרכה לאנליסט נתונים על מנת ללמוד את השפעת החלטות הניתוח על מסקנות מהותיות. ראיתי תלמידים רבים הולכים לאיבוד עם החלטות במיוחד כאשר יש עצות מתחרות בספרות (למשל, לשנות או לא להפוך) שלעתים קרובות יש השפעה מינימלית על המסקנות המהותיות.
@chl לא זה לא הצעת מחיר. אבל חשבתי שזה טוב לתחום את כלל האצבע מתוך הרציונל והסייגים שלו. שיניתי אותו למודגש כדי להבהיר אותו.
אוקי, זה הגיוני בעיניי לנסות טרנספורמציות שונות ולבדוק אם זה מספק דרך טובה יותר לתת דין וחשבון על מערכות היחסים שנלמדו; מה שאני לא מבין זה לנסות אסטרטגיות ניתוח שונות, אם כי זה נוהג כיום (אך לא מדווחים במאמרים שפורסמו :-), esp. כאשר הם מסתמכים על הנחות שונות (ב- EFA לעומת PCA, אתה מניח מונח שגיאה נוסף; בבדיקות לא פרמטריות לעומת פרמטריות, אתה זורק חלק מההנחות וכו '). אבל אני מסכים שהתחום בין ניתוח חקר לאישור אינו כל כך ברור ...
זה נראה לי שימושי רק לניתוח חקרני או במהלך שלבי אימון ואימות.תמיד תזדקק לשלב בדיקת אימות אחרון, אחרת אתה יכול להטעות את עצמך בתוצאות משמעותיות מסוימות שעובדות טוב ברגע שקיבלת את ההבדל הרצוי * על פי האמונות ה'סובייקטיביות 'שלך *.מי אמור לשפוט איזו שיטה עובדת טוב יותר?אני באופן אישי, אם אני מטיל ספק בשיטות שונות, אז אני בודק זאת על פי נתונים מדומים, על מנת לבדוק דברים כמו שונות של אומדנים או חוסן וכו '.
#7
+22
shabbychef
2010-09-17 02:32:16 UTC
view on stackexchange narkive permalink

שאל את הנתונים שלך. בעידן המודרני של זיכרון RAM זול, לעתים קרובות אנו עובדים על כמויות גדולות של נתונים. שגיאת 'אצבע שומן' אחת או 'מקום עשרוני אבוד' יכולות לשלוט בניתוח בקלות. ללא בדיקת שפיות בסיסית כלשהי, (או לשרטט את הנתונים, כפי שהציעו כאן אחרים) אפשר לבזבז זמן רב. זה מציע גם להשתמש בכמה טכניקות בסיסיות ל'חוסן 'לחריגים.

מסקנה: בדוק אם מישהו קידם ערך חסר כ- "9999" במקום "NA". אם התוכנה שלך משתמשת בערך זה בערך נקוב, היא תבלגן את הניתוח שלך.
#8
+21
2010-09-17 03:39:17 UTC
view on stackexchange narkive permalink

השתמש בתוכנה המציגה את שרשרת לוגיקת התכנות מהנתונים הגולמיים ועד לניתוחים / התוצאות הסופיות. הימנע מתוכנה כמו Excel שבה משתמש אחד יכול לעשות שגיאה שלא ניתנת לזיהוי בתא אחד, שרק בדיקה ידנית תעלה.

[VisTrails] (http://www.vistrails.org) היא מערכת שעוזרת לתהליך זה. (השתמשתי רק במערכות ביתיות; יעדים קבוצתיים משותפים חשובים יותר מכלי מסוים.)
#9
+18
suncoolsu
2010-09-16 17:15:46 UTC
view on stackexchange narkive permalink

יכולה להיות רשימה ארוכה אך להזכיר כמה: (ללא סדר ספציפי)

  1. ערך P אינו סבירות. באופן ספציפי, אין זו ההסתברות לבצע שגיאת סוג I. באופן דומה, ל- CI אין פרשנות הסתברותית לנתונים הנתונים. הם רלוונטיים לניסויים חוזרים.

  2. הבעיה הקשורה לשונות חולשת על הטיה לרוב בפועל, כך שאומדן מוטה עם שונות קטנה עדיף על הערכה משוחדת עם שונות גדולה ( רוב הזמן).

  3. התאמת מודל היא תהליך איטרטיבי. לפני ניתוח הנתונים להבין את מקור הנתונים והמודלים האפשריים המתאימים או שאינם מתאימים לתיאור. כמו כן, נסה לדגם את כל בעיות העיצוב במודל שלך.

  4. השתמש בכלי ההדמיה, התבונן בנתונים (אחר חריגות אפשריות, מגמות ברורות וכו 'וכו' כדי להבין את הנתונים) לפני ניתוחם. השתמש בשיטות ההדמיה (אם אפשר) כדי לראות כיצד המודל מתאים לנתונים אלה.

  5. אחרון חביב, השתמש בתוכנה סטטיסטית לשם מה הם מיועדים (כדי ליצור משימת החישוב שלך קלה יותר), הם אינם תחליף לחשיבה האנושית.

פריט 1 שלך אינו נכון: ערך P הוא ההסתברות לקבלת נתונים כקיצוניים, או קיצוניים יותר, בהתחשב בהשערת האפס. עד כמה שידוע לי זה אומר ש- P_ היא הסתברות - מותנית אך בכל זאת הסתברות. ההצהרה שלך נכונה בנסיבות שפועלים בפרדיגמת הטעויות של ניימן-פירסון, אך לא עובדים בתוך הפרדיגמה של פישר, כאשר ערכי P הם רעיונות של ראיות כנגד השערת האפס. נכון שהפרדיגמות מעורבבות באופן קבוע לתוך מיש-לא-קוהרנטי, אך שתיהן "נכונות" כאשר משתמשים בהן לבד ושלמות.
עבור מרווחי ביטחון אתה, שוב, מתקן רק בגבולות מרווחי הביטחון של ניימן. פישר (ואחרים לפניו) גם המציא והשתמש בדברים שאנו יפרשו כרווחי ביטחון, ויש פרשנות תקפה לחלוטין למרווחים כאלה המתייחסים לניסוי המסוים המניב את המרווח. לדעתי הם עדיפים בהרבה על זה של ניימן. ראה את התשובה שלי לשאלה פונקציות בדידות: כיסוי מרווח אמון? לפרטים נוספים: http://stats.stackexchange.com/questions/8844/discrete-functions-confidence-interval-coverage/8860#8860
@Michael אתה צודק, אבל בוא נראה: כמה פעמים הנול נכון? או יותר טוב: האם מישהו יכול להוכיח אם האפס נכון? אנחנו יכולים לנהל גם ויכוחים פילוסופיים עמוקים על זה אבל זה לא העניין. בבקרת איכות חזרות הגיוניות, אך במדע כל כללי _ החלטה_ _ חייבים_ נתוני מצב.
פישר ידע זאת (התניה על הנתונים שנצפו וההערה בדבר בקרת איכות מבוססת על כך). הוא הפיק דוגמאות נגד רבות על בסיס זה. Bayesian נלחמים על זה, נניח, במשך יותר מחצי מאה.
@suncoolsu אני מצטער, אבל אני לא מבין את תגובתך. או שערך P הוא סבירות שהוא לא, וערכי P ורווחי אמון משקפים את הנתונים מהם הם נוצרו, או שהם לא. בחירת הפרדיגמה קובעת את האפשרות הנכונה.
@Michael מצטער אם לא הייתי מספיק ברור. כל מה שרציתי לומר: ערך P הוא הסתברות _ רק_ כאשר האפס נכון, אך לרוב האפס הוא _NOT_ נכון (כמו: לעולם איננו מצפים ש- $ \ mu = 0 $ יהיה נכון; אנו מניחים שזה יהיה נכון, אך ההנחה שלנו אינה נכונה.) אם אתה מעוניין, אני יכול להצביע על ספרות כלשהי הדנה ברעיון זה ביתר פירוט.
@Michael הנה דרך נוספת לומר את הפסקה הנ"ל: בהנחה שאנו רוצים לענות על שאלות רלוונטיות - כמו הערכת השערה על פי ההסתברות האחורית שלה, העונה "בהתחשב בנתונים שנצפו, מה הסבירות שההשערה הזו נכונה?" (זה מה שאנחנו רוצים לעשות רוב הזמן במדע) בניגוד לערך ה- p המתמיד, שעונה על השאלה "אם ההשערה הזו נכונה (וזה אולי לא), מה הסבירות להתבונן עוד יותר נתונים קיצוניים (שלא עשינו)? " (צורה שונה של הצהרת ד"ר וולפרט)
ערכי p הם הסתברויות, הסתברויות היפותטיות במיוחד (אם ההשערה האפסית נכונה).אז בהחלט הם ההסתברות / התדירות של ביצוע שגיאה מסוג I, וזה בערך המקרה ההיפותטי (המותנה) ש- $ H_0 $ נכון.ואכן, כאשר $ H_0 $ * לא * נכון, ההסתברויות לצפות בנתונים החוצים גבול עבורו אנו דוחים $ H_0 $ יהיו שונים.כלל אצבע זה מספר 1 אינו מבהיר זאת היטב.
#10
+18
probabilityislogic
2011-01-16 19:48:54 UTC
view on stackexchange narkive permalink

שאל תמיד את עצמך "מה המשמעות של תוצאות אלו וכיצד ישתמשו בהן?"

בדרך כלל המטרה של שימוש בסטטיסטיקה היא לסייע בקבלת החלטות בחוסר וודאות. לכן חשוב שיהיה בראש מעייניכם "אילו החלטות יתקבלו כתוצאה מניתוח זה וכיצד ישפיע ניתוח זה על החלטות אלו?" (למשל לפרסם מאמר, להמליץ ​​על שימוש בשיטה חדשה, לספק מימון X ל- Y, לקבל נתונים נוספים, לדווח על כמות משוערת כ- E וכו 'וכו' ...)

אם אתה אל תרגיש שיש החלטה כלשהי, ואז תוהה מדוע אתה עושה את הניתוח מלכתחילה (מכיוון שזה די יקר לבצע ניתוח). אני חושב על סטטיסטיקה כ"מטרד "בכך שהוא אמצעי למטרה, ולא למטרה עצמה. לדעתי אנו רק מכמתים את אי הוודאות כדי שנוכל להשתמש בזה בכדי לקבל החלטות המסבירות את אי הוודאות בצורה מדויקת.

אני חושב שזו סיבה אחת לכך ששמירת הדברים פשוטים היא מדיניות טובה באופן כללי מכיוון שלרוב הרבה יותר קל לייחס פיתרון פשוט לעולם האמיתי (ומכאן לסביבה בה מתקבלת ההחלטה) מאשר לפיתרון המורכב. בדרך כלל קל יותר להבין את מגבלות התשובה הפשוטה. לאחר מכן עוברים לפתרונות המורכבים יותר כאשר מבינים את מגבלות הפיתרון הפשוט, ואיך המורכב מתייחס אליהם.

אני מסכים עם הכל, פרט לרעיון לשמור על דברים פשוטים. בעיני פשטות או מורכבות צריכות להיות פונקציה של עלות ההחלטה הלא נכונה שהסברת ברהיטות. לפשטות יכולות להיות עלויות זניחות באזור אחד (למשל הצגת מודעות שגויות ללקוח) ועלות שונה בתכלית באזור אחר (מתן טיפול שגוי לחולה).
#11
+13
pmgjones
2010-09-17 03:36:18 UTC
view on stackexchange narkive permalink

לארגון / ניהול נתונים, וודא שכאשר אתה יוצר משתנים חדשים במערך הנתונים (למשל, חישוב אינדקס מסת הגוף מגובה ומשקל), המשתנים המקוריים לעולם לא יימחקו. גישה לא הרסנית היא הטובה ביותר מנקודת מבט לשחזור. אתה אף פעם לא יודע מתי אתה עלול להזין פקודה באופן שגוי ובהמשך צריך לבצע מחדש את דור המשתנים שלך. ללא המשתנים המקוריים תאבד זמן רב!

#12
+11
Jason Morgan
2011-04-10 19:26:46 UTC
view on stackexchange narkive permalink

תחשוב קשה על תהליך ייצור הנתונים הבסיסי (DGP). אם הדגם שבו ברצונך להשתמש אינו משקף את ה- DGP, עליך למצוא דגם חדש.

איך אתה יודע, איך אתה יכול לדעת, מהו ה- DGP.לדוגמה, אני מנהל סדרות זמן באזור שעדיין לא ראיתי תיאוריה מפותחת (מדוע סוגים מסוימים של הוצאות ציבוריות מתרחשות).אני לא חושב שאפשר לדעת את התהליך האמיתי במקרה זה.
#13
+8
doug
2010-09-19 00:49:38 UTC
view on stackexchange narkive permalink

להיסטוגרמות, כלל אצבע טוב ל מספר פחים בהיסטוגרמה :

שורש ריבועי למספר נקודות הנתונים

#14
+6
robin girard
2010-11-02 18:02:40 UTC
view on stackexchange narkive permalink

ב בעיית חיזוי (כלומר, כאשר אתה צריך לחזות $ Y_ {t + h} $ בהתחשב ב- $ (Y_t, X_t) $ $ t>T $, תוך שימוש בערכת למידה $ (Y_1, X_1), \ נקודות, (Y_T, X_T) $), כלל האגודל (שיש לבצע לפני כל דוגמנות מורכבת) הם

  1. קלימטולוגיה ($ Y_ {t + h} $ תחזית לפי הערך הממוצע שנצפה על פני מערך הלמידה, אולי על ידי הסרת דפוסים תקופתיים ברורים)
  2. התמדה ($ Y_ {t + h} תחזית $ לפי הערך האחרון שנצפה: $ Y_t $).

מה שאני עושה לעתים קרובות עכשיו כמדד פשוט / כלל אצבע אחרון הוא להשתמש ב- randomForest ($ Y_ {t + h} $ ~ $ Y_t + X_t $, data = learningSet) ב תוכנת R. זה נותן לך (עם שתי שורות קוד ב- R) מושג ראשון מה ניתן להשיג ללא כל דוגמנות.

#15
+6
Nick Cox
2016-08-05 20:00:13 UTC
view on stackexchange narkive permalink

למרות מערכי נתונים גדולים יותר ויותר ותוכנות חזקות יותר, מודלים המתאימים יתר על המידה מהווים סכנה גדולה לחוקרים, במיוחד לאלה שטרם נשרפו מהתאמת יתר. התאמת יתר פירושה שהתאימת למשהו מסובך יותר מהנתונים שלך ומהמצב החדשני ביותר. כמו אהבה או יופי, קשה להגדיר את זה, שלא לדבר על להגדיר בצורה פורמלית, אבל קל יותר לזהות.

כלל אצבע מינימלי הוא 10 נקודות נתונים לכל פרמטר המשוער לכל דבר כמו רגרסיה קלאסית, והיזהר מהתוצאות אם תתעלם ממנו. לניתוחים אחרים, בדרך כלל אתה צריך הרבה יותר כדי לעשות עבודה טובה, במיוחד אם יש קטגוריות נדירות בנתונים.

גם אם אתה יכול להתאים לדגם בקלות, עליך לדאוג כל הזמן למה זה אומר ועד כמה ניתן לשחזר אותו אפילו עם מערך נתונים דומה מאוד.

זה נתפס בדרך כלל ככלל אצבע עבור דגמים שבהם התגובה תקינה.במקרים אחרים, זה ליברלי מדי.לדוגמא, לסיווג בינארי, כלל האצבע המקביל יהיה 15 תצפיות בקטגוריה הפחות נפוצה עבור כל משתנה;ולניתוח הישרדות, זה יהיה 10 * אירועים * (כלומר, לא נתונים מצונזרים) עבור כל משתנה.
אני מסכים.אני אערוך, אבל למה שלא תפרסם כלל אצבע משלך לצד פרשנות מורחבת.
עליך להדגיש את המשפט האחרון ** "גם אם אתה יכול להתאים למודל בקלות, עליך לדאוג כל הזמן למה זה אומר ועד כמה הוא ניתן לשחזור אפילו עם מערך נתונים דומה מאוד." **
#16
+5
Andy
2013-06-17 23:33:36 UTC
view on stackexchange narkive permalink

במשתנים אינסטרומנטליים רגרסיה תמיד לבדוק את המשמעות המשותפת של הכלים שלך. כלל האצבע של סטאייגר-סטוק אומר כי נתון F של פחות מ -10 מדאיג ומצביע על כך שהמכשירים שלך עשויים להיות חלשים, כלומר הם אינם מתואמים מספיק עם המשתנה האנדוגני. עם זאת, זה לא מרמז באופן אוטומטי ש- F מעל 10 מבטיח מכשירים חזקים. Staiger and Stock (1997) הראו כי טכניקות של משתנים אינסטרומנטליים כמו 2SLS יכולות להיות מוטות בצורה קשה בדוגמאות "קטנות" אם המכשירים מתואמים רק חלש עם המשתנה האנדוגני. הדוגמה שלהם הייתה המחקר של אנגריסט וקרוגר (1991) שהיו להם יותר מ -300,000 תצפיות - עובדה מטרידה לגבי התפיסה של דגימות "קטנות".

הוספתי את הקישור למאמר, אך אני מאמין שהתשובה הזו נבוכה זקוקה לעיצוב נוסף, והתקשיתי להדגיש את 'כלל האצבע' על סמך סריקת המאמר במהירות רבה, ותשובה זו אינה אינטואיטיבית במיוחד.
#17
+5
Nick Cox
2016-08-05 20:04:59 UTC
view on stackexchange narkive permalink

אם הדגם לא יתכנס בקלות ובמהירות, זה יכול להיות באשמת התוכנה. עם זאת, מקובל הרבה יותר שהנתונים שלך אינם מתאימים למודל או שהמודל אינו מתאים לנתונים. זה יכול להיות קשה לדעת אילו, ואמפריסטים ותיאורטיקנים יכולים להיות בעלי השקפות שונות. אך חשיבה על נושא, התבוננות באמת בנתונים וחשיבה מתמדת על פרשנות המודל עוזרים ככל שניתן. מעל לכל דבר אחר, נסה מודל פשוט יותר אם מודל מסובך לא יתכנס.

אין שום רווח בכפיית התכנסות או בהכרזת ניצחון ובקבלת תוצאות לאחר איטרציות רבות אלא לפני שהמודל שלך באמת התכנס. במקרה הטוב אתה מרמה את עצמך אם אתה עושה את זה.

"באמת להסתכל על הנתונים" זה יהיה כל כך נחמד כשאנחנו מקבלים NN שעושה את העבודה הזו בשבילנו.
זה נקרא JWT.
#18
+3
Nick Cox
2016-08-05 20:09:14 UTC
view on stackexchange narkive permalink

אין קריטריונים לבחירת קריטריונים למידע.

ברגע שמישהו אומר משהו כמו "IC? IC מציין זאת, אך ידוע כי לעתים קרובות נותן תוצאות שגויות" (איפה? כל אות שאתה אוהב), אתה יודע שתצטרך גם חשוב על המודל ובמיוחד אם הגיוני מדעי או מעשי.

שום אלגברה לא יכולה להגיד לך את זה.

#19
+2
colorlace
2018-06-29 02:57:58 UTC
view on stackexchange narkive permalink

קראתי את זה איפשהו (כנראה מאומת בצלב) ולא הצלחתי למצוא אותו בשום מקום, אז הנה הולך ...

אם גילית תוצאה מעניינת, היא כנראה שגויה.

קל מאוד להתרגש מהסיכוי של ערך p מדהים או שגיאת אימות צולבות מושלמת כמעט.באופן אישי הצגתי בפני עמיתים תוצאות מדהימות (שקריות) רק כדי שיצטרכו לחזור בהן.לרוב, אם זה נראה טוב מכדי להיות אמיתי ...

'נכון.״תתפגע נכון בכלל.

#20
+2
Jørgen Hilden
2019-04-13 02:13:31 UTC
view on stackexchange narkive permalink

T נסה להיות אמיץ ולא סגול כלומר, אל תיתן לסימנים קטנים של אי-נורמליות, אי-עצמאות או אי-ליניאריות וכו 'לחסום את הדרך שלך אם צריך להתעלם מאינדיקציות כאלה כדי שהנתונים ידברוחזק וברור. - בדנית, 'דריסטיג' לעומת 'דידיג' הם התארים.

#21
+1
Alexis
2019-04-13 02:39:33 UTC
view on stackexchange narkive permalink

W בעת ניתוח נתוני האורך הקפד לבדוק שהמשתנים מקודדים באותה צורה בכל פרק זמן.

במהלך כתיבת עבודת הדוקטורט שלי, שכוללת ניתוח של נתונים משניים, התרחש שבוע בערך התעסקות מוחלטת של שינוי של יחידה אחת בציוני דיכאון ממוצעים בממוצע יציב אחרת לפי שנה.שנים במערך הנתונים שלי, קודמי פריטים עבור מכשיר מאומת קודדו 1-4 במקום 0–3.

#22
+1
Alexis
2019-04-13 02:45:52 UTC
view on stackexchange narkive permalink

ההשערה שלך צריכה להניע את בחירת המודל שלך, ולא להיפך.

כדי לנסח מחדש את מאסלו, אם אתה פטיש, הכל נראה כמו מסמר.מודלים ספציפיים מגיעים עם מסנוורים והנחות לגבי העולם המובנה ממש: לדוגמא מודלים לא דינמיים נחנקים מהמשוב על התוצאה הטיפולית.

#23
+1
Alexis
2019-04-13 02:50:24 UTC
view on stackexchange narkive permalink

U השתמש בסימולציה כדי לבדוק היכן שמבנה המודל שלך עשוי ליצור "תוצאות" שהם פשוט חפצים מתמטיים מהנחות המודל שלך

בצע את הניתוח שלך על משתנים מחדש, או על משתנים מדומים ידוע כשאינם קשורים זה לזה.האם לעשות זאת פעמים רבות ולהבדיל בין אומדני הנקודות הממוצעים (והביטחון או המרווחים המהימנים) לתוצאות שאתה מקבל על נתונים בפועל: האם הם כל כך שונים?

#24
  0
user54285
2019-04-13 03:15:09 UTC
view on stackexchange narkive permalink

אני מנתח נתונים ולא סטטיסטיקאי אבל אלה ההצעות שלי.

1) לפני שאתה מנתח נתונים וודא שהנחות השיטה שלך נכונות. ברגע שאתה רואה תוצאות, קשה לשכוח אותם גם לאחר שתתקן את הבעיות והתוצאות ישתנו.

2) זה עוזר להכיר את הנתונים שלך. אני מנהל סדרות זמן וקיבלתי תוצאה שהייתה מעט הגיונית בהתחשב בנתונים של השנים האחרונות. סקרתי את השיטות לאור זאת וגיליתי שממוצע המודלים בשיטה מעוות תוצאות לתקופה אחת (והתרחשה הפסקה מבנית).

3) הקפד על כללי אצבע. הם משקפים את חוויותיהם של חוקרים בודדים מהנתונים שלהם, ואם התחום שלהם שונה מאוד משלך, ייתכן שמסקנותיהם אינן נכונות לנתונים שלך. יתר על כן, וזה היה זעזוע בעיני, סטטיסטיקאים לעיתים קרובות לא מסכימים בנקודות המפתח.

4) נסה לנתח נתונים בשיטות שונות ולראות אם התוצאות דומות. הבן כי שום שיטה אינה מושלמת והקפד לבדוק מתי אתה יכול להפר את ההנחות.



שאלה ותשובה זו תורגמה אוטומטית מהשפה האנגלית.התוכן המקורי זמין ב- stackexchange, ואנו מודים לו על רישיון cc by-sa 2.0 עליו הוא מופץ.
Loading...