שְׁאֵלָה:
מדוע מלמדים / משתמשים ב- ANOVA כאילו מדובר במתודולוגיית מחקר שונה בהשוואה לרגרסיה לינארית?
user28
2010-07-23 20:17:57 UTC
view on stackexchange narkive permalink

ANOVA שווה ערך לרגרסיה לינארית עם שימוש במשתני דמה מתאימים. המסקנות נשארות זהות ללא קשר לשאלה אם אתה משתמש ב- ANOVA או ברגרסיה לינארית.

לאור שקילותם, האם יש סיבה להשתמש ב- ANOVA במקום רגרסיה לינארית?

הערה: אני מעוניין במיוחד לשמוע על סיבות טכניות לשימוש ב- ANOVA במקום רגרסיה לינארית.

ערוך

הנה דוגמה אחת המשתמשת ANOVA חד כיווני. נניח, אתה רוצה לדעת אם הגובה הממוצע של גברים ונקבות זהה. כדי לבדוק את ההשערה שלך היית אוסף נתונים ממדגם אקראי של גברים ונקבות (נניח 30 כל אחד) ומבצע את ניתוח ה- ANOVA (כלומר, סכום הריבועים למגדר ולשגיאה) כדי להחליט אם קיימת השפעה.

תוכל גם להשתמש ברגרסיה ליניארית כדי לבדוק זאת באופן הבא:

הגדר: $ \ text {Gender} = 1 $ אם המשיב הוא זכר ו $ 0 $ אחרת. $$ \ text {Height} = \ text {Intercept} + \ beta * \ text {Gender} + \ text {error} $$ איפה: $ \ text {error} \ sim \ mathcal N (0, \ sigma ^ 2) $

בדיקה האם $ \ beta = 0 $ היא מבחן שווה ערך להשערה שלך.
אם אני לא טועה, רגרסיה לינארית היא אומדן המקדמים המגדירים מפה לינארית טובה מ- X ל- Y. ANOVA היא בדיקה לדעת אם יש הבדלים משמעותיים ב- X כאשר Y לוקחים שני ערכים שונים. אתה יכול להסביר לנו מדוע אתה חושב שהם זהים?
ניתן לראות ANOVA כ"סוכר תחבירי "עבור תת-קבוצה מיוחדת של מודלים של רגרסיה לינארית. ANOVA משמש באופן קבוע חוקרים שאינם סטטיסטיקאים על ידי הכשרה. כעת הם "ממוסדים" וקשה להחזיר אותם לשימוש בייצוג הכללי יותר ;-)
הצביע על הערתך, אך הניסויים מטורפים אף יותר ממה שחשבתי אם זה סוכר תחבירי עבורם! איזו גרסה אינטואיטיבית יותר .... מבחן השערת ANOVA ב- $ \ beta $: האם היחס בין השונות המוסברת לשונות הבלתי מוסברת מספיק גבוה? מבחן T על המונח $ \ beta $ של מודל רגרסיה: האם ההשפעה של $ \ beta $ שונה מספיק מאפס? ועם הניסוח האחרון אתה גם מקבל את כיוון השינוי. ואם היית צריך להפוך את הנתונים, תוכל להפוך את אומדן הפרמטר לאחור בכמות משמעותית מבחינה פיזית. בניגוד ל- SS.
ראה גם https://stats.stackexchange.com/questions/268006/whats-the-difference-between-regression-and-analysis-of-variance
חָמֵשׁ תשובות:
#1
+56
Graham Cookson
2010-07-23 20:35:56 UTC
view on stackexchange narkive permalink

ככלכלן, ניתוח השונות (ANOVA) נלמד ומובן בדרך כלל ביחס לרגרסיה לינארית (למשל ב קורס באקונומטריקה של ארתור גולדברגר). כלכלנים / כלכלנים רואים בדרך כלל את ANOVA כלא מעניינת ומעדיפים לעבור ישר למודלים של רגרסיה. מנקודת מבטם של מודלים ליניאריים (או אפילו ליניאריים כלליים), ANOVA מקצה מקדמים לקבוצות, כאשר כל אצווה תואמת "מקור וריאציה" במינוח ANOVA.

באופן כללי תוכלו לשכפל את ההסקות שהייתם משיגים מ- ANOVA באמצעות רגרסיה אך לא תמיד רגרסיה של OLS. יש צורך במודלים מרובי רמות לניתוח מבני נתונים היררכיים כגון "עיצובים בעלילה מפוצלת", כאשר האפקטים בין קבוצה מושווים לשגיאות ברמת הקבוצה, וההשפעות בתוך הקבוצה מושוות לטעויות ברמת הנתונים. העיתון של גלמן [1] מפרט לפרטים רבים על בעיה זו וטוען למעשה כי ANOVA היא כלי סטטיסטי חשוב שעדיין צריך ללמד למען עצמו.

בפרט גלמן טוען. ש- ANOVA היא דרך להבין ולבנות מודלים מרובי-רמות. לכן ANOVA אינה אלטרנטיבה לרגרסיה אלא ככלי לסיכום מסקנות מורכבות בממדים גבוהים ולניתוח נתונים חקרניים.

גלמן הוא סטטיסטיקאי מכובד ויש לתת אמון בדעתו. עם זאת, כמעט כל העבודה האמפירית שאני עושה תשרת באותה מידה רגרסיה ליניארית ולכן אני נופל בתוקף למחנה של לראות בה מעט חסר טעם. כמה תחומים עם עיצובי לימוד מורכבים (למשל פסיכולוגיה) עשויים למצוא ANOVA שימושית.

[1] Gelman, A. (2005). ניתוח שונות: מדוע זה חשוב מתמיד (עם דיון). Annals of Statistics 33, 1–53. doi: 10.1214 / 009053604000001048

תודה על התייחסות גלמן. אני אקרא את העיתון שלו. אך האם איננו יכולים לנתח מודלים מרובי רמות תוך שימוש בסבירות מקסימלית קלאסית? אני מסכים ש- OLS אינו יעיל / לא מתאים למודלים מרובי-רמות.
@Srikant - יש דרכים רבות להתמודד עם נתונים מרובי רמות וגלמן הוא "המלך" בתחום זה. הנקודה שלו היא ש- ANOVA היא שיטה פשוטה / ברורה ללכידת מאפייני המפתח של מבני נתונים מורכבים והיררכיים או עיצובים למחקר ו- ANOVA היא דרך פשוטה / ברורה להציג את תוצאות המפתח. במובן זה תפקידו משלים או חקרני.
+1 לתשובה ברורה ונחמדה. סעיף 3 הוא בעצם מה שלימדו אותי כתואר ראשון בביולוגיה, עם דגש על קלות שילוב משתנים בלתי תלויים ורציפים בקטגוריה במסגרת ANOVA.
#2
+24
ars
2010-07-23 23:42:05 UTC
view on stackexchange narkive permalink

אני חושב שהפסקה השנייה של גרהם עומדת בלב העניין. אני חושד שזה לא כל כך טכני מההיסטורי, כנראה בגלל ההשפעה של " שיטות סטטיסטיות לעובדי מחקר", והקלות בהוראת / יישום הכלי עבור אנשים שאינם סטטיסטיים בניתוח ניסיוני הכרוך בגורמים נפרדים. , במקום להתעמק בבניית מודלים ובכלים נלווים. בסטטיסטיקה, ANOVA נלמד בדרך כלל כמקרה מיוחד של רגרסיה. (אני חושב שזה דומה למה הביוסטטיסטיקה מתמלאת במספר עצום של "מבחנים", אלא דגש על בניית מודלים.)

#3
+14
Michael R. Chernick
2012-08-18 20:29:37 UTC
view on stackexchange narkive permalink

הייתי אומר שחלק מכם משתמשים במונח רגרסיה כאשר עליכם להשתמש במודל ליניארי כללי. אני חושב על רגרסיה כ- glm הכוללת משתנים רציפים. כאשר משולבים משתנים רציפים עם משתני דמה שיש לקרוא להם ניתוח של משתנות. אם משתמשים רק במשתני דמה אנו מתייחסים לאותה צורה מיוחדת של גלם כניתוח שונות. אני חושב שלניתוח השונות יש משמעות שנייה מובהקת כנוהל לבדיקת מקדמים משמעותיים ב- glm תוך שימוש בפירוק השונות למרכיבי מונח המודל ורכיב מונח השגיאה.

(+1) ציינתי מיד את המינוח המעורפל "רגרסיה" לאורך כל הדיון.
(+1) GLM עשויה להיות הדרך הטובה ביותר לפרק משמעויות שונות. כמו כן יש לציין כי בהיסטוריה של נהלי חישוב ANOVA נעשה שימוש שמטשטש את הקשר בין OLS ל- ANOVA. לכן המינוח עשוי להיות מוצדק מסיבות היסטוריות.
#4
+10
Ηλίας
2010-10-13 13:53:32 UTC
view on stackexchange narkive permalink

ניתן להשתמש ב- ANOVA עם משתני הסבר קטגוריים (גורמים) שלוקחים יותר מ -2 ערכים (רמות), ומעניקים בדיקה בסיסית שהתגובה הממוצעת זהה לכל ערך. כך נמנעת בעיית הרגרסיה בהובלת מספר מבחני t זוגיים בין רמות אלה:

  • בדיקות t מרובות ברמת מובהקות קבועה של 5%, יגרמו לכ -5% מהם לתת תוצאות שגויות.
  • בדיקות אלה אינן תלויות זו בזו. השוואת רמות A עם B קשורה להשוואה בין A ל- C, שכן נעשה שימוש בנתונים של A בשני הבדיקות.

עדיף להשתמש ב ניגודים לשילובים שונים ב- את רמות הגורם שאתה רוצה לבדוק.

ייתכן שתרצה להבהיר תשובה זו; ככתוב, אני רואה 3 גיליונות. 2 הראשונים הם מעט בררניים אך עדיין יש לערוך אותם, השלישי הוא מהותי בהקשר לדיון זה. (1) ניתן להשתמש ב- ANOVA בשתי קבוצות בלבד (אם כי רוב האנשים פשוט עורכים בדיקת t אז). (2) מבחני t מרובים w / $ \ alpha = .05 $ יניבו באופן סימפטומי שגיאות מסוג I עבור 5% מאותם ניגודים שבהם * אין הבדל ממשי *; כמה שגיאות יתרחשו תלוי בכמה אפסים נכונים.
(3) התשובה שלך מרמזת שבעיית ההשוואות המרובות חלה על רגרסיה OLS, שהיא אינה עושה, כאשר היא מתנהלת כראוי. הדרך הנכונה לבדוק גורם בהקשר רגרסיה היא לבדוק את המודל המקונן עם כל בובות הגורמים שנפלו מול המודל המלא, כולל כל בובות הגורמים הכלולות. בדיקה זו זהה למבחן ש- ANOVA עורכת. נכון שלא כדאי להשתמש בבדיקות של משתני הדמה האישיים (שלדעתי זה מה שאתה מנסה לתאר כאן).
#5
+4
Jamal
2013-10-19 21:30:46 UTC
view on stackexchange narkive permalink

ANOVA אתה בודק אם יש הבדל משמעותי בין האוכלוסייה, בהנחה שאתה משווה יותר משני אמצעי אוכלוסייה, אז אתה הולך להשתמש במבחן F.

בניתוח רגרסיה אתה בונה מודל בין משתנים בלתי תלויים למשתנה תלוי. אם יש לך משתנה עצמאי אחד עם ארבע רמות אתה יכול להשתמש בשלושה משתני דמה ולהריץ מודל רגרסיה. מבחן ה- F למודל הרגרסיה המשמש לבדיקת המשמעות של מודל הרגרסיה זהה ל- F שמקבלים כאשר בודקים את ההבדל בין אוכלוסיית האוכלוסייה. אם אתה מפעיל רגרסיה שלבים, ייתכן שמשתני הדמה יושמטו מהמודל וערך ה- F שלך יהיה שונה מזה בעת ביצוע בדיקת ANOVA.

זה הופך את ANOVA להיות הליך בדיקה ורגרסיה להיות הליך דוגמנות שבו אתה יכול לבצע בדיקות. אך ל- ANOVA יש גם מודל בסיסי, בין אם זה מודגש בכל טיפולי ההיכרות. לכן, תשובה זו אינה תופסת שום הבדל ביניהם. זה גם לא מתייחס לשאלה, ולכן הם מלמדים כשונים ללא קשר לדמיון חזק.


שאלה ותשובה זו תורגמה אוטומטית מהשפה האנגלית.התוכן המקורי זמין ב- stackexchange, ואנו מודים לו על רישיון cc by-sa 2.0 עליו הוא מופץ.
Loading...