ובכן, אני חושב שממש קשה להציג הסבר ויזואלי ל ניתוח מתאם קנוני (CCA) מול ניתוח רכיבים עיקריים (PCA) או רגרסיה לינארית . שני האחרונים מוסברים לעיתים קרובות ומושווים באמצעות פיזור נתונים דו-ממדי או תלת-ממדי, אך אני בספק אם זה אפשרי באמצעות CCA. להלן ציירתי תמונות שעשויות להסביר את המהות ואת ההבדלים בשלושת ההליכים, אך גם בתמונות אלה - המהוות ייצוגים וקטוריים ב"מרחב הנושא "- יש בעיות בלכידת CCA בצורה מספקת. (לאלגברה / אלגוריתם של ניתוח מתאם קנוני חפש כאן.)
ציור אנשים כנקודות במרחב שבו הצירים הם משתנים, פיזור רגיל, הוא מרחב משתנה . אם תצייר את הדרך ההפוכה - משתנים כנקודות ויחידים כצירים - זה יהיה מרחב נושא . ציור הצירים הרבים למעשה מיותר מכיוון שלמרחב יש מספר ממדים לא מיותרים השווים למספר המשתנים הלא קולינריים. נקודות משתנות קשורות למוצרי וקטור המוצא, החצים, המשתרעים על מרחב הנושא; אז הנה אנחנו ( ראה גם). במרחב נושא, אם התרכזו משתנים, הקוסינוס של הזווית בין הווקטורים שלהם הוא מתאם פירסון ביניהם, ואורכי הווקטורים בריבוע הם ה שונות . בתמונות למטה מרוכזים המשתנים המוצגים (אין צורך בקבוע).
רכיבים עיקריים
משתנים $ X_1 $ ו- $ X_2 $ מתואמים באופן חיובי: יש להם זווית חדה ביניהם. המרכיבים העיקריים $ P_1 $ ו- $ P_2 $ שוכנים באותו שטח "מישור X" המשתרע על ידי השניים משתנים. הרכיבים הם גם משתנים, רק אורתוגונליים הדדיים (לא מתואמים). הכיוון של $ P_1 $ הוא כזה שמקסם את סכום שני העומסים בריבוע של רכיב זה; ו $ P_2 $ , הרכיב הנותר, עובר אורטוגונלית ל $ P_1 $ במישור X. האורכים בריבוע מכל ארבעת הווקטורים הם השונות שלהם (השונות של רכיב היא הסכום הנ"ל של העומסים בריבוע שלו). עומסי רכיבים הם הקואורדינטות של המשתנים על הרכיבים - $ a $ מוצגים בתמונה השמאלית. כל משתנה הוא השילוב הליניארי נטול השגיאות של שני המרכיבים, כאשר העומסים המקבילים הם מקדמי הרגרסיה. ו להיפך כל רכיב הוא השילוב הליניארי נטול השגיאות של שני המשתנים; מקדמי הרגרסיה בשילוב זה ניתנים על ידי קואורדינטות הטיה של הרכיבים אל המשתנים - $ b $ מוצגים בתמונה הנכונה. גודל מקדם הרגרסיה בפועל יהיה $ b $ חלקי תוצר האורכים (סטיות התקן) של הרכיב החזוי ומשתנה החיזוי, למשל. $ b_ {12} / (| P_1 | * | X_2 |) $ . [הערת שוליים: ערכי הרכיבים המופיעים לעיל שני שילובים לינאריים הם ערכים סטנדרטיים, st. dev. = 1. זאת מכיוון שהמידע על השונות שלהם נלכד על ידי ה עומסים . כדי לדבר במונחים של ערכי רכיבים לא סטנדרטיים, $ a $ בתמונה לעיל צריכים להיות ערכי ווקטורים עצמיים, שאר הנימוקים. להיות זהה.]
רגרסיה מרובה
בעוד שב- PCA הכל טמון במישור X, ברגרסיה מרובה מופיע משתנה תלוי $ Y $ שלרוב אינו שייך למישור X, שטח המנבאים $ X_1 $ , $ X_2 $ . אבל $ Y $ מוקרן בניצב על מישור X, וההקרנה $ Y '$ , ה $ Y $ הגוון, הוא החיזוי על ידי או שילוב לינארי של שני $ X $ . בתמונה, אורך הריבוע של $ e $ הוא שונות השגיאה. הקוסינוס שבין $ Y $ ו- $ Y '$ הוא מקדם המתאם המרובה. כמו שהיה עם PCA, מקדמי הרגרסיה ניתנים על ידי הקואורדינטות המוטות של החיזוי ( $ Y '$ ) על המשתנים - $ b $ . גודל מקדם הרגרסיה בפועל יהיה $ b $ חלקי האורך (סטיית התקן) של משתנה החיזוי, למשל. $ b_ {2} / | X_2 | $ .
מתאם קנוני
ב- PCA, קבוצה של משתנים מנבאת את עצמם: הם מדגמנים רכיבים עיקריים אשר בתורם מדגמים את המשתנים, אתה לא משאיר את שטח המנבאים (אם אתה משתמש בכל הרכיבים) החיזוי הוא ללא שגיאות . ברגרסיה מרובה, קבוצת משתנים מנבאת משתנה חיצוני אחד ולכן קיימת שגיאת ניבוי כלשהי. ב- CCA, המצב דומה למצב ברגרסיה, אך (1) המשתנים הזרים הם מרובים, ויוצרים מערך משלהם; (2) שתי הסטים מנבאים זה את זה בו זמנית (מכאן מתאם ולא רגרסיה); (3) מה שהם חוזים זה בזה הוא דווקא תמצית, משתנה סמוי, מאשר הניבוי הנצפה של רגרסיה ( ראה גם).
בואו נשתמש בקבוצת המשתנים השנייה $ Y_1 $ ו- $ Y_2 $ כדי לתאם קנונית עם שלנו ערכת $ X $ . יש לנו רווחים - כאן, מישורים - X ו- Y. יש להודיע שכדי שהמצב יהיה לא פרטי - כמו זה היה למעלה עם רגרסיה שם $ Y $ מחוץ למישור X - על המישורים X ו- Y להצטלב רק בנקודה אחת, המקור. למרבה הצער אי אפשר לצייר על נייר מכיוון שמצגת 4D היא הכרחית. בכל מקרה, החץ האפור מציין ששני המקורות הם נקודה אחת והיחיד המשותף לשני המטוסים. אם זה נלקח, שאר התמונה דומה למה שהיה עם רגרסיה. $ V_x $ ו- $ V_y $ הם צמד המשתנים הקנוניים. כל משתנה קנוני הוא השילוב הליניארי של המשתנים המתאימים, כמו ש $ Y '$ היה. $ Y '$ הייתה ההקרנה האורתוגונאלית של $ Y $ למישור X. כאן $ V_x $ היא השלכה של $ V_y $ במישור X ובו זמנית $ V_y $ היא הקרנה של $ V_x $ במישור Y, אך הם לא תחזיות אורתוגונליות. במקום זאת הם נמצאים (חולצו) כדי למזער את הזווית $ \ phi $ בין אותם . קוסינוס של זווית זו הוא המתאם הקנוני. מכיוון שהתחזיות אינן צריכות להיות אורתוגונליות, אורכים (ומכאן שונות) של המשתנים הקנוניים אינם נקבעים אוטומטית על ידי האלגוריתם המתאים והם כפופים למוסכמות / אילוצים אשר עשויים להיות שונים ביישומים שונים. מספר זוגות המשתנים הקנוניים (ומכאן מספר המתאמים הקנוניים) הוא מינימלי (מספר $ X $ s, מספר $ Y $ s). וכאן מגיע הזמן שבו CCA דומה ל- PCA. ב- PCA, אתה גולש על רכיבים עיקריים אורתוגונליים הדדית (כאילו) רקורסיבית עד ש הכל המיצוי הרב-משתני מוצה. באופן דומה, ב- CCA מופקים זוגות אורטוגונליים הדדיים של משתנים בקורלציה מקסימאלית עד שכל השונות ה רב-משתנית שניתן לחזות במרחב הקטן יותר (ערכה פחותה) מוגמרת. בדוגמה שלנו עם $ X_1 $ $ X_2 $ לעומת $ Y_1 $ $ Y_2 $ נשאר הצמד הקנוני השני והחלש יותר $ V_ {x (2)} $ (מאונך ל $ V_x $ ) ו- $ V_ {y (2)} $ (מאונך ל $ V_y $ ).
להבדל בין CCA ל- PCA + רגרסיה ראה גם ביצוע CCA לעומת בניית משתנה תלוי עם PCA ואז ביצוע רגרסיה.
מה היתרון של מתאם קנוני על קשרים בודדים של פירסון של זוגות משתנים משתי המערכות? (התשובה שלי היא בתגובות).