שְׁאֵלָה:
מתי R בריבוע שלילי?
Anne
2011-07-11 22:07:35 UTC
view on stackexchange narkive permalink

ההבנה שלי היא ש- $ R ^ 2 $ לא יכול להיות שלילי מכיוון שהוא הריבוע של R. עם זאת ניהלתי רגרסיה לינארית פשוטה ב- SPSS עם משתנה עצמאי יחיד ומשתנה תלוי. תפוקת SPSS שלי נותנת לי ערך שלילי עבור $ R ^ 2 $. אם הייתי מחשב זאת ביד R מ- $ R ^ 2 $ יהיה חיובי. מה SPSS עשה כדי לחשב את זה כשלילי?

  R = -. 395R בריבוע = -. 156B (לא סטנדרטי) = - 1261.611  

קוד שהשתמשתי בו:

  DATASET ACTIVATE DataSet1. רגרסיה / MISTING LISTWISE / STATISTICS COEFF OUTS R ANOVA /CRITERIA=PIN(.05) POUT (.10) / NOORIGIN / Dependent valueP / METHOD = ENTER ageP  

אני מקבל ערך שלילי. האם מישהו יכול להסביר מה זה אומר?

Negative RSquared

enter image description here

האם זה עונה על שאלתך? http://stats.stackexchange.com/questions/6181/can-the-multiple-linear-correlation-coefficient-be-negative אם לא, אנא אנא ספק מידע נוסף: זהו "פלט SPSS" של איזו הליך?
תודה וובר. לא זה לא בגלל שנראה שיש מחלוקת בשאלה האם R בריבוע יכול להיות שלילי או לא, איך אני לא מחשב את R בריבוע כשלילי. ערכתי את האמור לעיל. אנא יידע אותי אם עלי להוסיף פרטים נוספים. הרבה תודות!
בסדר. עם זאת, ייתכן שהיית ממהר בקריאה שלך. התשובה לשאלה זו מאת @probabilityislogic מתחילה באמירת R בריבוע "לא יכולה להיות שלילית", אך בהמשך היא מודה שאכן היא "יכולה להיות שלילית". לפיכך אין מחלוקת. מוסר ברור הוא שעליך ליידע אותנו באיזו פרוצדורה משתמשים לחישוב R בריבוע.
האם למודל הרגרסיה הליניארית שלך יש יירוט?
@Anne שוב, ** באיזה הליך SPSS אתה משתמש? **
כן, הקבוע הוא 137278.4. אני מפעיל רגרסיה פשוטה של ​​OLS ב- SPSS. תודה!
התחביר הוא DATASET ACTIVATE DataSet1.REGRESSION / MISSING LISTWISE / STATISTICS COEFF OUTS R ANOVA /CRITERIA=PIN(.05) POUT (.10) / NOORIGIN / Dependent value / Method = Enter age
Whuber, האם אתה מסוגל לסייע בהינתן מידע נוסף זה? מה עדיין לא ברור לי לאחר שבדקתי את התשובות בכתובת http://stats.stackexchange.com/questions/6181/can-the-multiple-linear-correlation-coefficient-be-negative זה האם R שלילי בריבוע או לא. מציין שמשהו לא בסדר במודל. נראה שהתשובה שלמטה מעידה על כך שהמודל מעוות.
@Anne אני מציע לך להתעלם מתשובת סדרות הזמן, כי הנתונים שלך אינם סדרות זמן ואינך משתמש בהליך של סדרות זמן. האם אתה באמת בטוח ש- R בריבוע ניתן כערך שלילי? גודלו נכון: $ (- 0.395) ^ 2 = 0.156 $. בדקתי בעזרת העזרה של SPSS אם אולי כמוסכמה הערך R בריבוע של R שליליים נשלל, אבל אני לא רואה שום ראיות לכך. אולי תוכל לפרסם צילום מסך של הפלט במקום בו אתה קורא את ריבוע ה- R?
@Whuber, תודה. כן, אני בטוח שזה נותן ערך שלילי. פרסמתי תמונה של הפלט.
-1
נראה שמצאת באג, אולי עדיף לפנות לתמיכת הלקוחות של SPSS. אין שום דבר הטמון בקוד שלך שמייצר באופן לוגי ערך ריבועי R.
גם אני סתום, אבל הייתי עונה גם כן, יש משהו לא בסדר במודל שלך, בהתבסס על טעות ההערכה הסטנדרטית למראה אסטרונומי. זה מצביע על כך ש- CI95 לערך חזוי נתון יהיה הערך +/- 120,000: האם זה לא נראה מחוץ לטווח בהתחשב במשתנה התלוי שלך?
המשתנה התלוי הוא מחיר הבתים ולכן ניתן לבצע כי רווח סמך 95% עשוי להיות 120,000. לצערי אני לא יכול לפרסם את הנתונים כאן מכיוון שהם מנוגדים לתנאי השימוש בנתונים.
@Anne אין שום דבר עם שגיאות תקן גדולות: הן רק משקפות את היחידות בהן נמדד המשתנה התלוי. עם זאת, יתכן שהתוצאות המוזרות נובעות מחוסר יציבות מספרי. לפעמים זה עוזר לבטא מחדש את הנתונים באופן שמקטין את ההשפעות האפשריות של שגיאת נקודה צפה. במקרה זה, הנתונים הסטטיסטיים מציעים לך לחשב את y = (valueP - 100000) / 1000 ולנסות שוב לרגר את y מול ageP. האם אתה עדיין מקבל ריבוע R שלילי?
נתקלתי בבעיה דומה בעת הטמעת פיתרון ריבועים קטנים בפייתון.הבעיה התבררה ככישלון מצדי לנרמל את הקלטים ל- R 2 כשנורמלתי גם את הקלטים לשיטת הריבועים הקטנים.ערכי R 2 השליליים וכתוצאה מכך נגרמים על ידי הפער בין הערכים הריאליים הגדולים יותר של התשומות המקוריות לעומת התשומות הנורמליות הקטנות יותר.
אם adj R מרובע שלילי פירושו גודל המדגם פחות ממספר הפרמטרים אם הגדלת גודל המדגם העניין יפתור.
אני לא בטוח שזה המקרה, האם מישהו אחר יכול לאשר?
מתישהו מועיל לבדוק את המסמך.חשבתי ש- "הערך" של פיתון `scipy.stats.lingress` היה ריבועי, זה תמיד נתן לי ערכים של-ve.
שְׁלוֹשָׁה תשובות:
Harvey Motulsky
2011-07-13 20:07:34 UTC
view on stackexchange narkive permalink

$ R ^ 2 $ משווה את ההתאמה של המודל הנבחר לזה של קו ישר אופקי (השערת האפס). אם המודל שנבחר מתאים יותר לקו אופקי, אז $ R ^ 2 $ הוא שלילי. שים לב ש- $ R ^ 2 $ הוא לא תמיד הריבוע של כל דבר, כך שהוא יכול להיות בעל ערך שלילי מבלי להפר כללי מתמטיקה. $ R ^ 2 $ הוא שלילי רק כאשר המודל שנבחר אינו עוקב אחר מגמת הנתונים, כך שהוא מתאים גרוע יותר מקו אופקי.

דוגמה: התאמת נתונים ליניארית מודל רגרסיה מוגבל כך שיירוט $ Y $ חייב להיות שווה $ 1500 $.

enter image description here

המודל אינו הגיוני כלל בהתחשב בנתונים אלה. ברור שזהו המודל הלא נכון, אולי נבחר במקרה.

ההתאמה של המודל (קו ישר שאולץ לעבור את הנקודה (0,1500)) גרועה יותר מהתאמה של קו אופקי. לפיכך סכום הריבועים מהמודל $ (SS_ \ text {reg}) $ גדול מסכום הריבועים מהקו האופקי $ (SS_ \ text {tot}) $. $ R ^ 2 $ מחושב כ- $ 1 - \ frac {SS_ \ text {reg}} {SS_ \ text {tot}} $. כאשר $ SS_ \ text {reg} $ גדול מ- $ SS_ \ text {tot} $, המשוואה הזו מחשבת ערך שלילי עבור $ R ^ 2 $.

עם רגרסיה ליניארית ללא אילוצים, $ R ^ 2 $ חייב להיות חיובי (או אפס) ושווה לריבוע מקדם המתאם, $ r $. $ R ^ 2 $ שלילי אפשרי רק עם רגרסיה ליניארית כאשר היירוט או השיפוע מוגבלים כך שקו "הכי מתאים" (בהתחשב באילוץ) מתאים גרוע יותר מקו אופקי. עם רגרסיה לא לינארית, $ R ^ 2 $ יכול להיות שלילי בכל פעם שהמודל המתאים ביותר (בהתחשב במשוואה שנבחרה, ואילוציו, אם בכלל) מתאים לנתונים גרוע יותר מקו אופקי.

בשורה התחתונה: $ R ^ 2 $ שלילי אינו אפשרות בלתי מתמטית או סימן לבאג מחשב. זה פשוט אומר שהמודל הנבחר (עם האילוצים שלו) מתאים לנתונים בצורה גרועה באמת.

זה המחשה יפה של הנקודה שהעלה @jefflovejapan. היכן בפקודה SPSS מוגדר אילוץ כזה?
@whuber אני חושב / NOORIGIN מכוון את היירוט ל- 0.
@JMS זה ההפך ממה שהגוגל שלי מציין: "/ ORIGIN" מתקן את היירוט ב -0; "/ NOORIGIN" "אומר ל- SPSS לא לדכא את הקבוע" ([מדריך מבוא ל- SPSS עבור Windows] (http://books.google.com/books?id=f7ogAII5QNMC&pg=PA106&lpg=PA106&dq=SPSS+/NOORIGIN&source=bl&ots= 4QXqyYlcY4 & sig = CzfM3P8ikTOeA-4MINNCpNv__NI & hl = en & ei = yt8dTsCEEpPTgQeZ9dngCQ & sa = X & oi = book_result & ct = result & resnum = 1 & ved = 0CBUQ6AF = Q = שגיאה = F
@whuber נכון. @harvey-motulsky ערך R ^ 2 שלילי ** הוא ** אי אפשרות מתמטית (ומציע באג מחשב) לרגרסיה OLS רגילה (עם יירוט). זה מה שעושה הפקודה 'REGRESSION' ועל מה הכרזה המקורית שואלת. כמו כן, עבור רגרסיה של OLS, R ^ 2 ** הוא ** המתאם בריבוע בין הערכים החזויים לערכים הנצפים. לפיכך, זה חייב להיות לא שלילי. עבור רגרסיה פשוטה של ​​OLS עם מנבא אחד, זה שווה ערך למתאם בריבוע בין החיזוי למשתנה התלוי - שוב, זה חייב להיות לא שלילי.
@whuber אכן. טעות שלי; ברור שאני לא משתמש ב- SPSS - או קורא, כנראה :)
@whuber. הוספתי פסקה המציינת כי עם רגרסיה ליניארית, R2 יכול להיות שלילי רק כאשר היירוט (או אולי השיפוע) מוגבל. ללא אילוצים, ה- R2 חייב להיות חיובי ושווה לריבוע r, מקדם המתאם.
@HarveyMotulsky, במקרה זה היירוט או השיפוע לא היו מוגבלים. נראה שאתה אומר ש- Rsquared יכול להיות שלילי רק אם אלה מוגבלים. האם תוכל לפרט על מה שהיה עלול להתרחש במקרה הספציפי הזה?
@anne. עם רגרסיה לינארית ללא אילוצים, R2 אינו יכול להיות שלילי. אני לא יכול להבין מדוע התוצאות שאתה מציג כוללות R2 שלילי. זה עשוי לעזור לכלול את קובץ הנתונים ואת צילומי המסך של כל אפשרויות SPSS, כך שאחרים (שמכירים את SPSS היטב) יוכלו להבין מה קרה.
מדוע זה נקרא $ R ^ 2 $ אם הריבוע אינו בהכרח מעורב?גם מדוע זה מעורב לפעמים אבל לא באחרים (האם חסרת הגדרה עקבית של $ R ^ 2 $?)?
נא לברר: האם יש הגדרות מנוגדות שונות של R2?בוויקיפדיה יש אפילו מספר הגדרות באותו דף.אנא התחל עם ההגדרה האמיתית.
jefflovejapan
2011-07-12 12:04:06 UTC
view on stackexchange narkive permalink

האם שכחת לכלול יירוט ברגרסיה שלך? אני לא מכיר את קוד SPSS, אבל בעמוד 21 לכלכלה של Hayashi:

אם הרגרסורים אינם כוללים קבוע אך (כפי שעושים כמה חבילות תוכנת רגרסיה) בכל זאת אתה מחשב $ R ^ 2 $ לפי הנוסחה

$ R ^ 2 = 1- \ frac {\ sum_ {i = 1} ^ {n} e_i ^ 2} {\ sum_ {i = 1} ^ {n} ( y_i- \ bar {y}) ^ 2} $

ואז $ R ^ 2 $ יכול להיות שלילי. הסיבה לכך היא שללא תועלת של יירוט, הרגרסיה עשויה להיות גרועה יותר מממוצע המדגם במונחים של מעקב אחר המשתנה התלוי (כלומר, המונה יכול להיות גדול יותר מהמכנה).

הייתי בודק ומוודא ש- SPSS כולל יירוט ברגרסיה שלך.

פקודת המשנה של NOORIGIN בקוד שלה מספרת כי יירוט נכלל במודל
זה מוזר.הייתי מנחש ש- 'NOORIGIN' פירושו שיירוט לא נכלל במודל, אלא פשוט יורד מהשם.
IrishStat
2011-07-11 23:11:53 UTC
view on stackexchange narkive permalink

זה יכול לקרות אם יש לך סדרת זמן שהיא N.i.i.d. ואתה בונה מודל ARIMA לא מתאים של הצורה (0,1,0) שהוא מודל ההליכה האקראי הראשון בהבדל ללא סחיפה ואז השונות (סכום הריבועים - SSE) של השאריות תהיה גדולה מהשונות (סכום של ריבועים SSO) של הסדרה המקורית. לפיכך המשוואה 1-SSE / SSO תניב מספר שלילי כאשר SSE עבר את SSO. ראינו זאת כאשר משתמשים פשוט מתאימים למודל משוער או משתמשים בהליכים לקויים כדי לזהות / ליצור מבנה מתאים של ARIMA. המסר הגדול יותר הוא שמודל יכול לעוות את הראייה שלך (כמו זוג משקפיים גרועים). מבלי שיהיה לי גישה לנתונים שלך, אחרת תהיה לי בעיה להסביר את התוצאות הפגומות שלך. האם הבאתם את תשומת ליבם של יבמ?

הרווי מוטלסקי הדגיש כי מודל משוער הוא כנגד פרודוקטיבי. פוסט נהדר הארווי!

סטט. תודה. לא לא דיברתי עם יבמ. הנתונים אינם סדרות זמן. זה מנתוני נקודת זמן.
@Anne ואחרים: מכיוון שהנתונים שלך אינם סדרות זמן ואינך משתמש בהליך של סדרות זמן, אנא התעלם מתשובתי. אחרים שראו ריבועי R שליליים כשהם מעורבים בסדרות זמן עשויים למצוא את ההודעה שלי מעניינת ואינפורמטיבית באופן משיק. אחרים למרבה הצער אולי לא.
@IrishStat: האם אתה יכול להוסיף קישור לפוסט של הארווי מוטולסקי?
הארווי ענה על השאלה כאן.


שאלה ותשובה זו תורגמה אוטומטית מהשפה האנגלית.התוכן המקורי זמין ב- stackexchange, ואנו מודים לו על רישיון cc by-sa 3.0 עליו הוא מופץ.
Loading...