שְׁאֵלָה:
ברגרסיה לינארית, מתי מתאים להשתמש ביומן של משתנה עצמאי במקום בערכים בפועל?
d_2
2010-07-20 18:11:50 UTC
view on stackexchange narkive permalink

האם אני מחפש התפלגות מתנהגת טוב יותר עבור המשתנה הבלתי תלוי המדובר, או כדי להפחית את ההשפעה של חריגים, או משהו אחר?

האם אתה שואל כיצד להפחית את ההשפעה של חריגים או מתי להשתמש ביומן של משתנה כלשהו?
אני חושב שה- OP אומר "שמעתי על אנשים שמשתמשים בכניסה למשתני קלט: מדוע הם עושים זאת?"
למה רק היומן? האם שאלה זו לא אמורה לחול על כל טכניקת טרנספורמציית נתונים שניתן להשתמש בה כדי למזער את השאריות הקשורות ל- mx + b?
@AsymLabs - היומן עשוי להיות מיוחד ברגרסיה, מכיוון שהוא הפונקציה היחידה הממירה מוצר לסיכום.
אזהרה לקוראים: השאלה נשאלת על הפיכת IV, אך נראה כי חלק מהתשובות מדברות על סיבות להפוך את ה- DVs.אל תטעו לחשוב שכולן גם סיבות לשנות IV - חלקן יכולות להיות, אחרות בהחלט אינן.במיוחד, התפלגות ה- IV אינה רלוונטית בדרך כלל (אכן גם ההתפלגות השולית של ה- DV אינה).
שמונה תשובות:
#1
+184
whuber
2010-10-12 23:59:34 UTC
view on stackexchange narkive permalink

אני תמיד מהסס לקפוץ לשרשור עם כמה תשובות מצוינות כמו זה, אבל זה קולט לי שמעט מהתשובות מספקות כל סיבה להעדיף את הלוגריתם על פני טרנספורמציה אחרת ש"מועכת "את הנתונים, כמו שורש או הדדי.

לפני שנגיע לזה, בואו נסכם את החוכמה בתשובות הקיימות באופן כללי יותר. ביטוי מחדש לא ליניארי כלשהו של המשתנה התלוי מסומן כאשר אחד מהדברים הבאים חל:

  • לשאריות יש התפלגות מוטה. מטרת הטרנספורמציה היא להשיג שאריות המופצות באופן סימטרי בקירוב (בערך אפס, כמובן).

  • התפשטות השאריות משתנה באופן שיטתי עם ערכי המשתנה התלוי. ("heteroscedasticity"). מטרת השינוי היא להסיר את השינוי השיטתי בהתפשטות ולהשיג "הומוסקדסטיות" משוערת.

  • כדי לייצר קשר בקושי.

  • מתי התיאוריה המדעית מציינת. לדוגמא, כימיה מציעה לעתים קרובות לבטא ריכוזים כ לוגריתמים (מתן פעילויות או אפילו pH ידוע).

  • כאשר תיאוריה סטטיסטית מעורפלת יותר מציעה שהשאריות משקפות "שגיאות אקראיות" שאינם מצטברים תוספת.

  • כדי לפשט מודל. לדוגמא, לפעמים לוגריתם יכול לפשט את מספר המורכבות והמורכבות של מונחי "אינטראקציה".

(אינדיקציות אלה יכולות להתנגש זו בזו; במקרים כאלה יש צורך בשיפוט. )

אז, מתי מצוין לוגריתם במקום טרנספורמציה אחרת?

  • לשאריות יש התפלגות מוטה באופן "חיובי". בספרו על EDA, ג'ון טוקי מספק דרכים כמותיות לאמוד את הטרנספורמציה (בתוך משפחת בוקס-קוקס, או כוח, טרנספורמציות) בהתבסס על סטטיסטיקה דרגתית של השאריות. זה באמת מסתכם בעובדה שאם לקיחת היומן סימטרית את השאריות, זה כנראה היה הצורה הנכונה של ביטוי מחדש; אחרת, יש צורך בביטוי מחודש אחר.

  • כאשר ה- SD של השאריות עומד ביחס ישר לערכים המותאמים (ולא לכוח כלשהו של הערכים המותאמים).

  • כאשר הקשר קרוב לאקספוננציאלי.

  • כאשר מאמינים כי שרידים משקפים שגיאות מצטברות מכפלת.

  • אתה באמת רוצה מודל שבו שינויים שוליים במשתני ההסבר מתפרשים במונחים של שינויים מכפלים (באחוזים) במשתנה התלוי.

לא - סיבות להשתמש בביטוי מחודש :
  • גורם לחריגים לא להיראות כמו חריגים. יוצא מהכלל הוא נתון שאינו מתאים לתיאור מסודר ופשוט יחסית של הנתונים. שינוי התיאור על מנת לגרום לחריגים להראות טוב יותר הוא בדרך כלל היפוך שגוי של סדרי עדיפויות: ראשית קבל תיאור תקף מדעית, טוב סטטיסטית, של הנתונים ואז חקור את כל החריגים. אל תיתן למתווך המזדמן לקבוע כיצד לתאר את שאר הנתונים!

  • מכיוון שהתוכנה עשתה זאת באופן אוטומטי. (די אמר!)

  • מכיוון שכל הנתונים חיוביים. (חיוביות מרמזת לעיתים קרובות על נטייה חיובית, אך היא לא חייבת. יתר על כן, טרנספורמציות אחרות יכולות לעבוד טוב יותר. לדוגמה, שורש לרוב עובד בצורה הטובה ביותר עם נתונים ספורים.)

  • To לגרום לנתונים "רעים" (אולי באיכות נמוכה) להיראות מתנהגים היטב.

  • כדי להיות מסוגל לשרטט את הנתונים. (אם יש צורך בשינוי כדי להיות מסוגל לשרטט את הנתונים, זה כנראה נחוץ מסיבה טובה אחת או יותר שכבר הוזכרו. אם הסיבה היחידה לשינוי היא באמת לתכנון, המשך ועשה את זה - אבל רק כדי לשרטט את הנתונים. השאר את הנתונים ללא שינוי לניתוח.)

מה לגבי משתנים כמו צפיפות אוכלוסין באזור או יחס ילדים-מורים לכל מחוז בית ספר או מספר מקרי הרצח ל -1000 באוכלוסייה? ראיתי פרופסורים לוקחים את יומן המשתנים הללו. לא ברור לי למה. למשל, האם שיעור ההריגה אינו כבר אחוז? היומן היה אחוז השינוי בשיעור? מדוע יוגן יחס היחס בין ילד למורה? האם צריך לקחת את טרנספורמציית היומן עבור כל משתנה רציף כאשר אין תיאוריה בסיסית לגבי צורה פונקציונאלית אמיתית?
@J G יחסים קטנים נוטים להתפלג באופן מוטה; לוגריתמים ושורשים עשויים להפוך אותם לסימטריים יותר. אני לא מבין את השאלות שלך הקשורות לאחוזים: אולי אתה משלב שימושים שונים באחוזים (אחד לבטא משהו כפרופורציה שלם ואחר לבטא שינוי יחסי)? אני לא מאמין שכתבתי שום דבר הדוגל בכך שתמיד יושמו לוגריתמים - רחוק מזה! אז אני לא מבין את הבסיס לשאלתך האחרונה.
"כאשר מאמינים כי שרידים משקפים טעויות מצטברות מכפלת."אני מתקשה לפרש את הביטוי הזה.האם אפשר לבשר את זה קצת עם עוד משפט או שניים?מהי הצטברות אליה אתה מתייחס?
@user1690130 ליחסים וצפיפות, בדרך כלל צריך להתאים אלה כחלוקה משפחתית של פויסון לספירות עם קיזוז לחשיפה.לְמָשָׁל.מספר האנשים הוא הספירה, והקיזוז הוא אזור האזור.ראה שאלה זו לקבלת הסבר טוב - https://stats.stackexchange.com/questions/11182/when-to-use-an-offset-in-a-poisson-regression
@Hatshepsut דוגמה פשוטה לצבירת ריבוי שגיאות תהיה נפח כמשתנה תלוי ושגיאות במדידות של כל מימד ליניארי.
שים לב שתשובה זו מצדיקה הפיכת משתני הסבר כדי להפוך מודל סטטיסטי לתקף (עם שאריות מפוזרים יותר), אך זכור כי טרנספורמציות אלה ישפיעו על ההשערות שאתה בוחן במודל זה: למשל, בדיקת אפקט שהפך יומן-לוג.של מנבא על תגובה אינו זהה לבדיקת ההשפעה הלינארית הלא-טרנספורמצית שלה על תגובה זו.
#2
+80
Graham Cookson
2010-07-23 19:43:14 UTC
view on stackexchange narkive permalink

אני תמיד אומר לתלמידים שיש שלוש סיבות לשנות משתנה על ידי לקיחת הלוגריתם הטבעי. הסיבה לרישום המשתנה תקבע האם ברצונך לרשום את המשתנה / ים המשתנים העצמאיים, תלויים או שניהם. כדי להיות ברור לאורך כל הדרך אני מדבר על לקיחת הלוגריתם הטבעי.

ראשית, לשיפור התאמת הדגם כפי שציינו פוסטרים אחרים. למשל אם השאריות שלך אינן מופצות בדרך כלל, אזי נטילת לוגריתם של משתנה מוטה עשויה לשפר את ההתאמה על ידי שינוי הסולם והפיכת המשתנה ל"נורמלי "יותר. למשל, הרווחים נחתכים באפס ולעתים קרובות מציגים הטייה חיובית. אם למשתנה יש הטיה שלילית, ראשית תוכל להפוך את המשתנה לפני שתקבל את הלוגריתם. אני חושב כאן במיוחד על סולמות ליקרט המוזנים כמשתנים רציפים. אמנם זה בדרך כלל חל על המשתנה התלוי, אך לעיתים יש לך בעיות בשאריות (למשל הטרוסצסטיות) הנגרמת על ידי משתנה עצמאי אשר ניתן לפעמים לתקן על ידי לקיחת לוגריתם של אותו משתנה. לדוגמה, כאשר הפעלנו מודל שהסביר את הערכות המרצים על קבוצה של משתנים מרצים וכיתות משתנה המשתנה "גודל הכיתה" (כלומר מספר הסטודנטים בהרצאה) היה חריגים אשר גרמו להטרוססקסטיות מכיוון שהשונות בהערכות המרצים הייתה קטנה יותר קבוצות מאשר קבוצות קטנות יותר. רישום המשתנה של התלמיד יעזור, אם כי בדוגמה זו חישוב שגיאות תקניות חזקות או שימוש בריבועים פחותים משוקללים עשויים להקל על הפרשנות.

הסיבה השנייה לרישום משתנה אחד או יותר במודל היא לפרשנות. אני קורא לזה סיבת נוחות. אם אתה רושם את המשתנים (Y) התלויים שלך (Y) וגם את (X) הבלתי תלויים, מקדמי הרגרסיה שלך ($ \ beta $) יהיו אלסטיות והפרשנות תעבור כדלקמן: עלייה של 1% ב- X תוביל ל עלייה ב-% ceteris paribus $ \ beta $ ב- Y (בממוצע). רישום צד אחד בלבד של "משוואת" הרגרסיה יוביל לפרשנויות חלופיות כמפורט להלן:

Y ו- X - עלייה של יחידה אחת ב- X תוביל לעלייה / ירידה של $ \ beta $ ב- Y

יומן Y ויומן X - עלייה של 1% ב- X תוביל לעלייה / ירידה של $ \ beta $% ב- Y

יומן Y ו- X - יחידה אחת עלייה ב- X תוביל לעלייה / ירידה של $ \ beta * 100 $% ב- Y

Y ו- Log X - עלייה של 1% ב- X תוביל לעלייה של $ \ beta / 100 $ / ירידה ב- Y

ולבסוף יכולה להיות סיבה תיאורטית לכך. לדוגמא, כמה דגמים שברצוננו לאמוד הם מכפליים ולכן לא לינאריים. נטילת לוגריתמים מאפשרת להעריך מודלים אלה על ידי רגרסיה לינארית. דוגמאות טובות לכך כוללות את פונקציית הייצור של קוב-דאגלס בכלכלה ומשוואת הכורים בחינוך. פונקציית הייצור של קוב-דאגלס מסבירה כיצד תשומות מומרות ליציאות:

$$ Y = AL ^ \ alpha K ^ \ beta $$

איפה

$ Y $ הוא הייצור או התפוקה הכוללים של ישות כלשהי, למשל המשרד, החווה וכו '

$ A $ הוא פרודוקטיביות הגורם הכולל (השינוי בתפוקה שלא נגרם על ידי התשומות, למשל על ידי שינוי טכנולוגי או מזג אוויר)

$ L $ הוא קלט עבודה

$ K $ הוא קלט ההון

$ \ alpha $ & $ \ beta $ הם גמישות תפוקה.

לקיחת לוגריתמים של זה הופכת את הפונקציה קל לאמוד באמצעות רגרסיה לינארית של OLS ככזו:

$$ \ log (Y) = \ log (A) + \ alpha \ log (L) + \ beta \ log (K) $$

"יומן Y ו- X - עלייה של יחידה אחת ב- X תוביל לעלייה / ירידה של 100% ב- β Y ב- Y": אני חושב שזה חל רק כאשר β קטן כך שה- exp (β) ≈ 1 + β
תודה נחמדה וברורה! שאלה אחת, איך מפרשים יירוטים במקרה יומן Y ו- X? ובאופן כללי אני מוטרד כיצד לדווח על רגרסיות שעברו שינוי ביומן ...
אני פראייר לתשובות שמכילות דוגמאות מכלכלה ["היית אותי ב'** פונקציית הפקה של קוב-דאגלס ** '"] ... אולם דבר אחד: עליך לשנות את מונח היירוט במשוואה השנייה ** לוג (A) ** כדי להתיישב עם המשוואה הראשונה.
@Ida באמת.עבור הקורא המעוניין, הפוסט שלי [כאן] (https://stats.stackexchange.com/a/320815/8013) מתאר מדוע, עבור "y" מחובר, האנליטיקאי צריך לטרוף 100 דולר \ פעמים (e ^ \ beta-1) $ כאשר האחוז משתנה.
#3
+20
onestop
2010-10-13 01:26:53 UTC
view on stackexchange narkive permalink

לקבלת מידע נוסף על הנקודה המצוינת של whuber לגבי סיבות להעדיף את הלוגריתם על פני כמה טרנספורמציות אחרות כגון שורש או הדדי, אך תוך התמקדות ב פרשנות הייחודית של מקדמי הרגרסיה הנובעים מטרנספורמציה ביומן לעומת טרנספורמציות אחרות, ראה:

אוליבר נ. השינוי ביומן מיוחד. סטטיסטיקה ברפואה 1995; 14 (8): 811-819. DOI: 10.1002 / sim.4780140810. (PDF של חוקיות מפוקפקת זמין בכתובת http://rds.epi-ucsf.org/ticr/syllabus/courses/25/2009/04/21/Lecture/readings/log.pdf).

אם אתה מתחבר את המשתנה עצמאי x לבסיס b , אתה יכול לפרש את מקדם הרגרסיה (ו- CI) כ- שינוי במשתנה התלוי y לכל b גידול פי ב x . (לכן יומנים לבסיס 2 מועילים לעיתים קרובות מכיוון שהם תואמים את השינוי ב y להכפלה ב x , או יומנים לבסיס 10 אם משתנה על פי סדרי גודל רבים, וזה נדיר יותר). לתמורות אחרות, כגון שורש ריבועי, אין פרשנות פשוטה כזו.

אם אתה רושם את המשתנה תלוי y (לא השאלה המקורית אלא זו אשר כמה מהתשובות הקודמות התייחסו אליהן), ואז אני מוצא את הרעיון של טים קול של "סימפטורים" מושך להצגת התוצאות (אפילו השתמשתי בהן פעם אחת בעיתון), אם כי נראה שהם לא תפסו את כל זה באופן נרחב:

טים ג'יי קול. סימפטרים: הבדלים באחוזים סימטריים בסולם 100 היומנים (e) מפשטים את הצגת הנתונים שעברו טרנספורמציה ביומן. סטטיסטיקה ברפואה 2000; 19 (22): 3109-3125. DOI: 10.1002 / 1097-0258 (20001130) 19: 22<3109 :: AID-SIM558> 3.0.CO; 2-F [אני כל כך שמח ש Stat Med הפסיק להשתמש SICIs כ- DOI ...]

תודה על ההתייחסות ונקודות טובות מאוד. השאלה המעניינת היא האם נושא זה חל על כל התמורות, ולא רק על היומנים. עבורנו סטטיסטיקה / הסתברות שימושית ככל שהיא מאפשרת חיזוי ביצועים יעיל, או קריטריונים / הנחיות יעילים. במהלך השנים השתמשנו בתמורות כוח (יומנים בשם אחר), טרנספורמציות פולינומיות ואחרות (אפילו טרנספורמציות חלקית) כדי לנסות להפחית את השאריות, להדק את מרווחי הביטחון ולשפר בדרך כלל את יכולת הניבוי ממערכת נתונים נתונה. האם אנו אומרים כעת שזה לא נכון?
-1
#4
+14
Shane
2010-07-20 18:16:29 UTC
view on stackexchange narkive permalink

בדרך כלל לוקחים את היומן של משתנה קלט כדי לשנות את קנה המידה ולשנות את ההתפלגות (למשל כדי להפוך אותו להפצה רגילה). לא ניתן לעשות זאת באופן עיוור; עליכם להיזהר בעת ביצוע קנה המידה בכדי להבטיח שהתוצאות עדיין ניתנות לפרשנות.

זה נדון ברוב הטקסטים הסטטיסטיים המקדימים. אתה יכול גם לקרוא את המאמר של אנדרו גלמן על "קנה מידה של תשומות רגרסיה על ידי חלוקה בשתי סטיות תקן" לדיון בנושא. יש לו דיון נחמד מאוד על כך גם בתחילת "ניתוח נתונים באמצעות רגרסיה ומודלים מרובי רמות / היררכיות".

לקיחת היומן אינה שיטה מתאימה להתמודדות עם נתונים רעים / חריגים.

#5
+11
csgillespie
2010-07-20 18:22:40 UTC
view on stackexchange narkive permalink

אתה נוטה לקחת יומני נתונים כאשר יש בעיה בשאריות. לדוגמא, אם אתה מתווה את השאריות כנגד משתנה מסוים ומתבונן בתבנית הולכת וגדלה (צורת משפך), ייתכן ששינוי מתאים. שאריות שאינן אקראיות בדרך כלל מצביעות על כך שהנחות המודל שלך שגויות, כלומר נתונים לא נורמליים.

סוגי נתונים מסוימים מעניקים את עצמם באופן אוטומטי לתמורות לוגריות. לדוגמא, אני בדרך כלל לוקח יומני כאשר אני מתמודד עם ריכוזים או גיל.

למרות ששינויים לא משמשים בעיקר להתמודדות עם חריגים, הם כן עוזרים מאחר ולקיחת יומנים מועכת את הנתונים שלך.

אבל עדיין, שימוש ביומן משנה את המודל - עבור רגרסיה לינארית זה y ~ a * x + b, עבור רגרסיה ליניארית ביומן זה y ~ y0 * exp (x / x0).
אני מסכים - אם לוקחים יומן משנה את המודל שלך. אבל אם אתה צריך לשנות את הנתונים שלך, זה מרמז שהמודל שלך לא היה מתאים מלכתחילה.
ריכוזי @cgillespie:, כן; אבל גיל? זה מוזר.
@whuber: אני מניח שזה תלוי מאוד בנתונים, אך מערכי הנתונים שהשתמשתי בהם הייתם רואים הבדל גדול בין גיל 10 ל 18, אך הבדל קטן בין גיל 20 ל 28. גם לילדים צעירים ההבדל בין גיל 0-1 שנים אינו זהה להבדל בין גיל 1-2.
כן, זה יהיה תלוי בנתונים: היכולת שלך לבצע ניתוח תובנה ויעיל היא השופט האולטימטיבי בנושא זה, ולא התפיסות המוקדמות שלי. רק ניסיתי לחזות במצבים שבהם הגיל כמשתנה * עצמאי * יזכה לשינוי כה חזק. כמה דברים מוזרים יקרו גם אצל תינוקות ;-).
@whuber "שאריות לא אקראיות בדרך כלל מצביעות על כך שהנחות המודל שלך שגויות, כלומר נתונים לא נורמליים." במקום אחר באתר זה ניתן לי להבין ש- OLS לא מטילה הנחות הפצה על הנתונים הבסיסיים, אך מטילה תנאים כאלה רק על השאריות כאשר אתה מבצע הסקה תיאורטית רגילה. אז האם אני לא מבין את האמור לעיל, או שמא הוא מנוסח בצורה גרועה?
@landroni זה מנוסח בקצרה. לא הייתי אומר שזה עני, אלא שזה כנראה "למשל" נועד במקום "כלומר" אני מבין את השימוש ב"אקראי "כאן במובן של" עצמאי ומופץ זהה ", שהיא אכן ההנחה הכללית ביותר בהנחת OLS. בהגדרות * מסוימות * אנשים בנוסף מניחים שההתפלגות הבסיסית הנפוצה הזו היא נורמלית, אך אין זה הכרחי בהחלט בפועל או בתיאוריה: כל מה שצריך הוא שהתפלגות הדגימה של סטטיסטיקה רלוונטית תהיה קרובה לנורמה.
#6
+10
Frank Harrell
2015-10-19 16:37:38 UTC
view on stackexchange narkive permalink

שינוי של משתנה עצמאי $ X $ הוא אירוע אחד שבו אפשר פשוט להיות אמפירי מבלי לעוות את ההיסק כל עוד אנו כנים לגבי מספר דרגות החופש במשחק. אחת הדרכים היא להשתמש בזריחות רגרסיה עבור $ X $ רציף שלא ידוע שכבר פועל באופן ליניארי. בעיני זו לא שאלה של יומן לעומת סולם מקורי; שאלה איזו טרנספורמציה של $ X $ מתאימה לנתונים. נורמליות של שאריות איננה קריטריון כאן.

כאשר $ X $ מוטה ביותר, קוביות $ X $ כנדרש בפונקציות קו קו מעולות בערכים קיצוניים שעלולים לגרום לפעמים לבעיות מספריות. אני פותר זאת על ידי התאמת פונקציית השורה הקובית ב- $ \ sqrt [3] {X} $. החבילה R rms מחשיבה את המשתנה הפנימי ביותר כמנבא, ולכן בהתוויית הערכים החזויים יהיה $ X $ על הציר $ x $. דוגמה:

  require (rms) dd <- datadist (mydata); אפשרויות (datadist = 'dd') cr <- פונקציה (x) x ^ (1/3) f <- ols (y ~ rcs (cr (X), 5), נתונים = mydata) ggplot (חיזוי (f)) # שורת עלילה של cr (X) מול X  

זה מתאים לשורה מעוקבת מוגבלת ב- $ \ sqrt [3] {X} $ עם 5 קשרים במיקומי כמות ברירת המחדל. ההתאמה של $ X $ כוללת 4 d.f. (מונח ליניארי אחד, 3 מונחים לא לינאריים). להקות אמון ומבחני התאגדות מכבדים את 4 d.f. אלה, תוך הכרה מלאה ב"חוסר וודאות טרנספורמציה ".

(+1) אם יש עמימות כלשהי לגבי הצורה הפונקציונלית של $ E [Y | X] = f (X) $, בתנאי שיש מספיק נתונים, על האנליטיקאי להשתמש בהליכי החלקה כמו זרעים או רגרסיה מקומית במקום "לגלגל עין עלהכי מתאים".למסקנה, מגמות יומניות וליניאריות מסכימות לעתים קרובות לגבי כיוון וגודל האסוציאציות.היתרון העיקרי של טרנספורמציה ביומן הוא פרשנות.
#7
+9
Sannita
2015-10-19 16:24:59 UTC
view on stackexchange narkive permalink

ברצוני להגיב לשאלת user1690130 שנשארה כהערה לתשובה הראשונה ב- 26 באוקטובר 12 וקוראת כדלקמן: "מה לגבי משתנים כמו צפיפות אוכלוסין באזור או יחס ילד-מורה לכל מחוז בית ספר או מספר מקרי הרצח ל -1000 באוכלוסייה? ראיתי פרופסורים לוקחים את יומן המשתנים הללו. לא ברור לי מדוע. למשל, האם שיעור ההריגה כבר אינו אחוז? היומן היה השינוי באחוז השיעור? מדוע יועדף היומן של יחס מורה לילד? "

חיפשתי לענות על בעיה דומה ורציתי לשתף את ספר הלימודים הסטטיסטי הישן שלי ( ג'פרי וולדרידג '. 2006. אקונומטריה מבוא - גישה מודרנית, מהדורה רביעית. פרק 6 ניתוח רגרסיה מרובה: סוגיות נוספות. 191 ) אומר על כך. וולדרידג מייעץ:

משתנים המופיעים בצורה פרופורציונלית או באחוזים, כגון שיעור האבטלה, שיעור ההשתתפות בתכנית פנסיונית, אחוז הסטודנטים שעברו בחינה סטנדרטית ושיעור המעצר על פשעים שדווחו - יכולים להופיע בצורה המקורית או הלוגריתמית, אם כי יש נטייה להשתמש בהם בצורה רמה . הסיבה לכך היא שלכל מקדמי רגרסיה הכוללים את המשתנה המקורי - בין אם זה המשתנה התלוי או המשתנה הבלתי תלוי - יהיה פרשנות של נקודת אחוז. אם אנו משתמשים, נגיד, יומן ( unem ) ברגרסיה, כאשר unem הוא אחוז האנשים המובטלים, עלינו להקפיד מאוד להבחין בין שינוי של נקודת אחוז לבין שינוי באחוזים. זכרו, אם unem עובר מ- 8 ל- 9, מדובר בעלייה של נקודת אחוז אחת, אך בעלייה של 12.5% ​​לעומת רמת האבטלה הראשונית. השימוש ביומן פירושו שאנחנו מסתכלים על אחוז השינוי בשיעור האבטלה: לוג (9) - לוג (8) = 0.118 או 11.8%, שהוא הקירוב הלוגריתמי לעלייה בפועל של 12.5%.

בהתבסס על כך ועל פי התגובה הקודמת של whuber לשאלת user1690130, אני אמנע מלהשתמש בלוגריתם של משתנה צפיפות או אחוז אחוז כדי לשמור על פירוש פשוט, אלא אם כן שימוש בטופס היומן יביא לפיזור משמעותי כגון כדי להפחית את הנטייה של משתנה הצפיפות או הקצב.

לעתים קרובות באחוזים (כלומר פרופורציות ב- (0,1), נעשה שימוש בטרנספורמציית logit. זאת מכיוון שנתונים פרופורציונליים לעיתים קרובות מפרים את ההנחה של נורמליות של שאריות, באופן שהטרנספורמציה של יומן לא תתקן.
#8
+3
russellpierce
2010-07-20 19:13:50 UTC
view on stackexchange narkive permalink

הנקודה של שיין שלוקחת היטב את היומן כדי להתמודד עם נתונים גרועים. כמו גם קולין לגבי חשיבותם של שאריות נורמליות. בפועל אני מוצא שבדרך כלל ניתן לקבל שאריות רגילות אם משתני הקלט והפלט הם גם נורמליים יחסית. בפועל, משמעות הדבר היא גלגלת עין להפצת מערכי הנתונים שהוסבו ולא הועברו ולהבטיח לעצמם שהם הפכו לנורמליים יותר ו / או לערוך בדיקות תקינות (למשל בדיקות שפירו-וילק או קולמוגורוב-סמירנוב) ולקבוע אם התוצאה נורמלית יותר. פרשנות ומסורת חשובים גם הם. לדוגמא, בפסיכולוגיה קוגניטיבית משתמשים לעתים קרובות בטרנספורמציות של זמן תגובה, אולם, לפחות בעיני, הפרשנות ל RT RT אינה ברורה. יתר על כן, יש להיזהר באמצעות ערכי טרנספורמציה ביומן כיוון שהשינוי בקנה מידה יכול לשנות אפקט עיקרי לאינטראקציה ולהיפך.

התשובות יסודרו מחדש על סמך הצבעות, לכן נסה לא להתייחס לתשובות אחרות.
מבחן נורמליות הוא בדרך כלל חמור מדי. לעיתים קרובות מספיק להשיג שאריות המופצות באופן סימטרי. (בפועל, שאריות נוטות להיות בעלות התפלגויות שיא חזקות, בין השאר כחפץ אומדן שאני חושד, ולכן יבדקו כלא "נורמליות", לא משנה איך מבטאים מחדש את הנתונים.)
@whuber: מוסכם. לכן ציינתי "להיות נורמלי יותר". המטרה צריכה להיות לגלגל את נתוני המבחן לשינויים ולא לקבל / לדחות החלטה על בסיס ערך ה- p של המבחן.
צריך תמיד להתייחס לתשובות אחרות לפי הצורך!
@abalter?אני לא עוקב.
מצטער, התייחסתי לתגובת @VebjornLjosa's.


שאלה ותשובה זו תורגמה אוטומטית מהשפה האנגלית.התוכן המקורי זמין ב- stackexchange, ואנו מודים לו על רישיון cc by-sa 2.0 עליו הוא מופץ.
Loading...