שְׁאֵלָה:
מהם ציוני המרכיבים העיקריים?
vrish88
2010-07-20 10:37:47 UTC
view on stackexchange narkive permalink

מהם ציוני המרכיבים העיקריים (ציוני מחשב, ציוני PCA)?

לשף אל יש תשובה מרוכזת כאן -> http://stats.stackexchange.com/questions/146/pca-scores-in-multiple-regression. HTH
[ציוני מחשב / ציוני פקטורים לפי מחשב המתוקנן באמצעות עומסים] (http://stats.stackexchange.com/q/126885/3277).
[ציוני המחשב והעומס על המחשב כקואורדינטות של שורה ועמודה רק ב- biplot] (http://stats.stackexchange.com/q/141754/3277).
(סטנדרטי) [ציוני מחשב (וציוני פקטורים מסוגים שונים)] (http://stats.stackexchange.com/q/126885/3277).
שבע תשובות:
#1
+71
Tony Breyal
2010-07-20 17:02:27 UTC
view on stackexchange narkive permalink

ראשית, נגדיר ציון.

ג'ון, מייק וקייט מקבלים את האחוזים הבאים לבחינות במתמטיקה, מדעים, אנגלית ומוסיקה באופן הבא:

  מדעי המתמטיקה מוסיקה אנגלית John 80 85 60 55 Mike 90 85 70 45Kate 95 80 40 50  

במקרה זה יש 12 ציונים בסך הכל. כל ציון מייצג את תוצאות הבחינה עבור כל אדם בנושא מסוים. אז ציון במקרה זה הוא פשוט ייצוג של המקום שבו שורה ועמודה מצטלבים.

כעת בואו נגדיר באופן בלתי פורמלי רכיב עיקרי.

בטבלה למעלה, האם אתה יכול בקלות לתכנן את הנתונים בגרף דו ממדי? לא, מכיוון שיש ארבעה מקצועות (שמשמעותם ארבעה משתנים: מתמטיקה, מדעים, אנגלית ומוסיקה), כלומר:

  • תוכל לתכנן שני נושאים בדיוק באותו אופן שהיית עושה עם $ x $ ו- $ y $ מתואמים בגרף דו-ממדי.
  • אתה יכול אפילו לשרטט שלושה נושאים באותו אופן שבו תשרטט $ x $, $ y $ ו- $ z $ בגרף תלת ממדי (אם כי בדרך כלל זה נוהג רע, מכיוון שעיוות מסוים הוא בלתי נמנע ב ייצוג דו-ממדי של נתוני תלת מימד).

אבל איך היית מתווה 4 נושאים?

כרגע יש לנו ארבעה משתנים שכל אחד מהם מייצג נושא אחד בלבד. אז שיטה סביב זה עשויה להיות איכשהו לשלב את הנושאים לשני משתנים חדשים בלבד, ואז נוכל לשרטט. זה ידוע כ קנה מידה רב ממדי .

ניתוח רכיבים עיקרי הוא סוג של קנה מידה רב מימדי. זוהי טרנספורמציה לינארית של המשתנים למרחב ממדי נמוך יותר השומר על מידע מרבי על המשתנים. לדוגמא, פירוש הדבר שנוכל להסתכל על סוגי המקצועות שכל תלמיד מתאים להם יותר.

רכיב עיקרי הוא אפוא שילוב של המשתנים המקוריים לאחר שינוי לינארי. ב- R זה:

  DF<-data.frame (Maths = c (80, 90, 95), Science = c (85, 85, 80), אנגלית = c (60, 70, 40), Music = c (55, 45, 50)) prcomp (DF, scale = FALSE)  

מה שייתן לך משהו כזה (שני הרכיבים העיקריים הראשונים רק למען העניין של פשטות):

  PC1 PC2Maths 0.27795606 0.76772853 Science -0.17428077 -0.08162874 אנגלית -0.94200929 0.19632732 מוסיקה 0.07060547 -0.60447104 

העמודה הראשונה כאן מציגה מקדמים ליניאריים שילוב המגדיר רכיב עיקרי מספר 1, והעמודה השנייה מציגה מקדמים לרכיב עיקרי מס '2.

אז מהו ציון רכיב עיקרי?

זהו ציון מהטבלה בסוף ההודעה הזו (ראה להלן).

הפלט הנ"ל מ- R פירושו שאנחנו יכולים כעת לשרטט את הציון של כל אדם בכל הנושאים בגרף דו-ממדי כדלקמן. ראשית, עלינו למרכז את המשתנים המקוריים שפירוש העמודה החסרת שלי הוא:

  Mathics Science English Music John -8.33 1.66 3.33 5 Mike 1.66 1.66 13.33 -5Kate 6.66 -3.33 -16.66 0  

ואז ליצור שילובים לינאריים כדי לקבל PC1 ו- PC2 ציונים:

  x yJohn -0.28 * 8.33 + -0.17 * 1.66 + - 0.94 * 3.33 + 0.07 * 5 -0.77 * 8.33 + -0.08 * 1.66 + 0.19 * 3.33 + -0.60 * 5 מייק 0.28 * 1.66 + -0.17 * 1.66 + -0.94 * 13.33 + -0.07 * 5 0.77 * 1.66 + -0.08 * 1.66 + 0.19 * 13.33 + -0.60 * 5 קייט 0.28 * 6.66 + 0.17 * 3.33 + 0.94 * 16.66 + 0.07 * 0 0.77 * 6.66 + 0.08 * 3.33 + -0.19 * 16.66 + -0.60 * 0  

מה שמפשט ל:

  x yJohn -5.39 -8.90Mike -12.74 6.78Kate 18.13 2.12  

ישנם שישה רכיבים עיקריים ציונים בטבלה לעיל. כעת תוכל לשרטט את הציונים בגרף דו-מימדי כדי להבין את סוג המקצועות שכל תלמיד מתאים להם יותר.

ניתן להשיג את אותה פלט ב- R על ידי הקלדת prcomp (DF, scale = FALSE) $ x .

עריכה 1: הממ, כנראה שיכולתי לחשוב על דוגמה טובה יותר, ויש בזה יותר ממה שהבאתי כאן, אבל אני מקווה שתקבל את הרעיון.

עריכה 2: קרדיט מלא ל- @ drpaulbrewer על הערתו בשיפור התשובה הזו.

המאמץ ראוי להערכה - אבל - לא PC1 וגם PC2 לא מספרים לכם מי הצליח הכי טוב בכל הנושאים. לשם כך מקדמי הנושא למחשב כולם יצטרכו להיות חיוביים. ל- PC1 משקולות חיוביות למתמטיקה ולמוזיקה, אך שליליות למדע ואנגלית. ל- PC2 משקולות חיוביות למתמטיקה ואנגלית אך לשלילה למדע ולמוזיקה. מה שהמחשבים אומרים לך הוא היכן נמצא השונות הגדולה ביותר במערך הנתונים. אז על ידי שקלול הנבדקים לפי המקדמים ב- PC1, ובאמצעות זה לניקוד התלמידים, אתה מקבל את השונות או ההתפשטות הגדולה ביותר בהתנהגויות התלמידים. זה יכול לסווג סוגים אך לא ביצועים.
+1 תגובה טובה, לחיים. אתה כמובן צודק, הייתי צריך לכתוב את זה טוב יותר ועכשיו ערכתי את הקו הפוגע כדי להבהיר אני מקווה.
אתה יכול לתקן את האוניברסיטה, ומכאן לחשב את הסכום, כדי לראות מי הכי טוב, או אם אתה מעדיף, ב- R: 'החל (dtf, 1, פונקציה (x) סכום (סולם (x)))'
האם בשורה "כרגע יש לנו ארבעה משתנים שכל אחד מהם מייצג רק נושא אחד" לא צריכה לקרוא "כרגע יש לנו שלושה משתנים שכל אחד מהם מייצג נושא אחד בלבד"?
@JohnPrior ארבעת המשתנים (העמודות) הם מתמטיקה, מדעים, אנגלית ומוסיקה והשורות מייצגות יחידים.המונח "נושא" נהיה מעורפל לעיתים מכיוון שלפני חמש שנים בחרתי דוגמה איומה לתשובה.
@Tony, המשכתי וערכתי את תשובתך למרכז המשתנים לפני חישוב הציונים.כעת הציונים המחושבים מתאימים לאילו תפוקות 'prcomp'.לפני שזה לא.
האם לא מה שאתה מכנה "רכיבים עיקריים" הם למעשה רק הווקטורים העצמיים ($ W $)?ומה שאתה מכנה "ציוני רכיבים עיקריים" הם למעשה "רכיבים עיקריים" ($ PC $) ללא "ציונים" כלשהם?אז, $ PC = XW $.מדוע לבלבל דברים עם דיבורים על "ציונים", "גורמים", "טעינה" וכו '?
#2
+23
seancarmody
2010-07-20 11:23:22 UTC
view on stackexchange narkive permalink

ניתוח רכיבים עיקריים (PCA) הוא גישה פופולרית אחת לניתוח שונות כאשר אתה מתמודד עם נתונים רב משתנים. יש לך משתנים אקראיים X1, X2, ... Xn שכולם מתואמים (באופן חיובי או שלילי) בדרגות שונות, ואתה רוצה להבין טוב יותר את המתרחש. PCA יכול לעזור.

מה ש- PCA נותן לך הוא שינוי של משתנה ל- Y1, Y2, ..., Yn (כלומר אותו מספר משתנים) שהם שילובים ליניאריים של ה- Xs. לדוגמא, ייתכן שיהיה Y1 = 2.1 X1 - 1.76 X2 + 0.2 X3 ...

ה- Ys הוא המאפיין הנחמד שלכל אחד מאלה יש אפס מתאם זה לזה. יתרה מכך, אתה מקבל אותם בסדר הפחתה של השונות. אז, Y1 "מסביר" נתח גדול מהשונות של המשתנים המקוריים, Y2 קצת פחות וכן הלאה. בדרך כלל לאחר ה- Y הראשונים, המשתנים הופכים חסרי משמעות למדי. ציון ה- PCA עבור כל אחד מה- Xi הוא רק שהוא המקדם בכל אחד מה- Ys. בדוגמה הקודמת שלי, הציון עבור X2 ברכיב העיקרי הראשון (Y1) הוא 1.76.

הדרך בה PCA עושה את הקסם הזה היא על ידי חישוב וקטורים עצמיים של מטריצת הביוב. תן דוגמה קונקרטית, דמיין ש- X1, ... X10 הם שינויים בתשואות אג"ח של האוצר לשנה, שנתיים, ..., 10 שנים לאורך זמן מסוים. כאשר אתה מחשב PCA אתה בדרך כלל מגלה כי לרכיב הראשון יש ציונים עבור כל קשר של אותו סימן וכמעט אותו סימן. זה אומר לך שרוב השונות בתשואות האג"ח נובעת מכל מה שנע באותה צורה: "משמרות מקבילות" מעלה או מטה. המרכיב השני מראה בדרך כלל "תלול" ו"השטחה "של העקומה ויש לו סימנים מנוגדים ל- X1 ו- X10.

כיצד ערך Y גבוה יותר "מסביר" נתח גדול יותר של השונות? האם כך מחשבים את ה- PCA? אם כן אני חושב שיש לי שאלה נוספת לפרסם;)
זה נכון - אם השונות של המחשב היא, נניח 3.5, אז המחשב הזה "מסביר" את השונות של 3.5 משתנים מהמערכת הראשונית. מכיוון שמחשבים אישיים הם תוספים, 'PC1> PC2> ...> PCn' וסכום השונות שלהם שווה לסכום השונות של ערכת המשתנים הראשונית, מכיוון ש- PCA מחושב על-פי מטריצת-משתנות, כלומר המשתנים הם סטנדרטיים ( SD = 1, VAR = 1).
#3
+8
probabilityislogic
2011-08-28 05:03:40 UTC
view on stackexchange narkive permalink

אני אוהב לחשוב על ציוני המרכיבים העיקריים כ"חסרי משמעות בעצם "עד שאתה באמת נותן להם משמעות כלשהי. פרשנות ציוני מחשב במונחים של "מציאות" היא עסק מסובך - ולא יכולה להיות דרך ייחודית לעשות זאת. זה תלוי במה שאתה יודע על המשתנים הספציפיים שנכנסים ל- PCA, וכיצד הם קשורים זה לזה מבחינת פרשנויות. הקואורדינטות של כל נקודה, ביחס לצירי המרכיב העיקריים. אז במשתנים הגולמיים יש לך $ \ bf {} x_i $ $ = (x_ {1i}, x_ {2i}, \ dots, x_ {pi}) $ $ שמהווה "נקודה" במרחב p- ממדי. בקואורדינטות אלה, פירוש הדבר שלאורך ציר $ x_ {1} $ הנקודה היא מרחק $ x_ {1i} $ מהמקור. כעת PCA הוא בעצם דרך אחרת לתאר את ה"נקודה "הזו - ביחס לציר המרכיב העיקרי שלה, ולא לציר" המשתנה הגולמי ". אז יש לנו $ \ bf {} z_i $ $ = (z_ {1i}, z_ {2i}, \ dots, z_ {pi}) = \ bf {} A (x_i- \ overline {x}) $, כאשר $ \ bf {} A $ הוא המטריצה ​​$ p \ times p $ של משקולות רכיב עיקריות (כלומר, ווקטורים עצמיים בכל שורה), ו- $ \ bf {} \ overline {x} $ הוא "מרכז התאים" של הנתונים (או ממוצע וקטור של נקודות הנתונים).

אז אתה יכול לחשוב על הווקטורים העצמיים כמתארים היכן נמצאים "הקווים הישרים" המתארים את המחשבים האישיים. ואז ציוני הרכיבים העיקריים מתארים היכן כל נקודת נתונים מונחת על כל קו ישר, ביחס ל"מרכז "של הנתונים. אתה יכול גם לחשוב על ציוני המחשב בשילוב עם המשקלים / ווקטורים עצמיים כסדרה של תחזיות דרגה 1 לכל אחת מנקודות הנתונים המקוריות, בעלות הטופס:

$$ \ hat {x} _ {ji} ^ {(k)} = \ אוברליין {x} _j + z_ {ki} A_ {kj} $$

איפה $ \ hat {x} _ {ji} ^ {(k) } $ הוא החיזוי לתצפית $ i $, למשתנה $ j $ th באמצעות המחשב $ k $ th.

#4
+6
Jonas
2010-07-20 11:47:14 UTC
view on stackexchange narkive permalink

נניח שיש לך ענן של נקודות N, נניח, בתלת מימד (שניתן לרשום במערך 100x3). לאחר מכן, ניתוח הרכיבים העיקריים (PCA) מתאים אליפסואיד מונחה שרירותית לנתונים. ציון הרכיב העיקרי הוא אורך הקוטר של האליפסואיד.

בכיוון בו הקוטר גדול, הנתונים משתנים מאוד ואילו בכיוון בו הקוטר קטן, הנתונים משתנים מעט. אם רצית להקרין נתוני Nd לעלילת פיזור דו-ממדי, אתה מתווה אותם לאורך שני המרכיבים העיקריים הגדולים ביותר, מכיוון שעם גישה זו אתה מציג את מרבית השונות בנתונים.

האם יש תועלת כלשהי או שתוכל לתכנן אותם על עלילה מפוזרת בתלת-ממד?
#5
+4
Roman Luštrik
2010-07-20 11:24:33 UTC
view on stackexchange narkive permalink

תן ל- $ i = 1, \ dots, N $ לאינדקס את השורות ו- $ j = 1, \ dots, M $ לאינדקס את העמודות. נניח שאתה מייצר קו שילוב של משתנים (עמודות):

$$ Z_ {i, 1} = c_ {i, 1} \ cdot Y_ {i, 1} + c_ {i, 2} \ cdot Y_ {i, 2} + ... + c_ {i, M} \ cdot Y_ {i, M} $$

הנוסחה שלעיל בעצם אומרת להכפיל רכיבי שורה עם ערך מסוים $ c $ (עומסים) וסכם אותם לפי עמודות. ערכים כתוצאה ($ Y $ ערכים כפול הטעינה) הם ציונים.

רכיב עיקרי (PC) הוא שילוב ליניארי $ Z_1 = (Z_ {1,1}, ..., Z_ {N, 1} $) (ערכים לפי עמודות המכונים ציונים). למעשה, המחשב צריך להציג את התכונות החשובות ביותר של משתנים (עמודות). ארגו, אתה יכול לחלץ כמה מחשבים שיש משתנים (או פחות).

פלט מ- R ב- PCA (דוגמה מזויפת) נראה ככה. PC1, PC2 ... הם רכיבים עיקריים 1, 2 ... הדוגמה שלהלן מציגה רק את 8 הרכיבים העיקריים הראשונים (מתוך 17). ניתן גם לחלץ אלמנטים אחרים מ- PCA, כמו עומסים וציונים.

  חשיבות הרכיבים: PC1 PC2 PC3 PC4 PC5 PC6 PC7 PC8 סטיית תקן 1.0889 1.0642 1.0550 1.0475 1.0387 1.0277 1.0169 1.0105 שיעור השונות 0.0697 0.0666 0.0655 0.0645 0.0635 0.0621 0.0608 0.0601 שיעור מצטבר 0.0697 0.1364 0.2018 0.2664 0.3298 0.3920 0.4528 0.5129  
מצטער, אבל מה הם עומסים (c בנוסחה שלך) ואיך אתה קובע אותם?
@vrish88 אני מאמין שה- c הם "העומסים" של הווקטורים העצמיים.ההבנה שלי היא שאלה הם בעצם רק השקולות שאתה נותן לכל אחד מהמשתנים.טים מסביר זאת היטב בתשובתו.
#6
+4
Tim
2010-07-27 00:58:28 UTC
view on stackexchange narkive permalink

המרכיבים העיקריים של מטריצת נתונים הם צמדי הערך העצמי-ווקטורי של מטריצת השונות-משתנות שלה. במהותם, הם החלקים המנותקים של השונות. כל אחד מהם הוא שילוב לינארי של המשתנים לתצפית - נניח שאתה מודד w, x, y, z על כל אחד מחבורת הנושאים. המחשב הראשון שלך עשוי להסתדר כ-

0.5w + 4x + 5y - 1.5z

העומסים (ווקטורים עצמיים) כאן הם (0.5, 4, 5, -1.5) . הציון (ערך עצמי) עבור כל תצפית הוא הערך המתקבל כאשר אתה מחליף בתצפית (w, x, y, z) ומחשב את הסכום.

זה שימושי כשאתה מקרין דברים על עיקרם. רכיבים (למשל, זיהוי חריגים) מכיוון שאתה פשוט מתווה את הציונים על כל אחד כמו כל נתונים אחרים. זה יכול לחשוף הרבה על הנתונים שלך אם הרבה מהשונות מתואמת (== במחשבים הראשונים הראשונים).

רק לשם הבהרה, כאשר אתה אומר "נניח שאתה מודד w, x, y, z על כל אחד מחבורת הנושאים", אתה לא מתייחס ל"נושאים "מהתשובה של @TonyBreyal לעיל, נכון?אתה משתמש במילה "נושאים" כדי להיות שם נרדף ל"תצפיות "/" רשומות "/" שורות נתונים "?
#7
+3
russellpierce
2010-07-20 13:20:36 UTC
view on stackexchange narkive permalink

ציוני רכיבים עיקריים הם קבוצת ציונים שמתקבלת בעקבות ניתוח רכיבי עקרון (PCA). ב- PCA נותחים את היחסים בין קבוצת ציונים כך שנוצר מספר שווה של משתנים "דמיוניים" חדשים (aka רכיבים עקרוניים). הראשון מבין המשתנים הדמיוניים החדשים הללו נמצא בקורלציה מקסימאלית עם כל קבוצת המשתנים המקורית. הבא מעט פחות מתואם, וכך הלאה עד לנקודה שאם היית משתמש בכל ציוני המרכיבים העיקריים כדי לחזות כל משתנה נתון מהקבוצה הראשונית, תוכל להסביר את כל השונות שלו. אופן התקדמות ה- PCA מורכב ובעל מגבלות מסוימות. בין אלה המגבלה לפיה המתאם בין שני מרכיבים עיקריים כלשהם (כלומר משתנים דמיוניים) הוא אפס; לכן לא הגיוני לנסות לחזות רכיב עיקרי אחד עם אחר.



שאלה ותשובה זו תורגמה אוטומטית מהשפה האנגלית.התוכן המקורי זמין ב- stackexchange, ואנו מודים לו על רישיון cc by-sa 2.0 עליו הוא מופץ.
Loading...