בואו נבנה על מה שאנחנו יודעים, כלומר, בכל פעם שמטריצת המודל $ n \ times p $ היא $ X $, התגובה $ n $ -ווקטור היא $ y $, והפרמטר $ p $ - וקטור הוא $ \ beta $, הפונקציה האובייקטיבית
$$ f (\ beta) = (y - X \ beta) ^ \ prime (y - X \ beta) $$
(שהוא סכום הריבועים של שאריות) ממוזער כאשר $ \ beta $ פותר את המשוואות הרגילות
$$ (X ^ \ prime X) \ beta = X ^ \ prime y . $$
רגרסיה של רכס מוסיפה מונח נוסף לפונקציה האובייקטיבית (בדרך כלל לאחר סטנדרטיזציה של כל המשתנים על מנת להעמיד אותם על בסיס משותף), ומבקשת למזער
$$ (y - X \ beta) ^ \ prime (y - X \ beta) + \ lambda \ beta ^ \ prime \ beta $$
עבור קבוע שאינו שלילי $ \ lambda $. זהו סכום הריבועים של השאריות בתוספת מכפיל מסכום הריבועים של המקדמים עצמם (מה שמבהיר שיש לו מינימום גלובלי). מכיוון ש $ \ lambda \ ge 0 $, יש לו שורש ריבועי חיובי $ \ nu ^ 2 = \ lambda $.
שקול את המטריצה $ X $ המוגדלת עם שורות המקבילות ל- $ \ nu $ פי $ p \ times p $ מטריצת זהות $ I $:
$$ X _ {*} = \ pmatrix {X \\ \ nu I} $$
כאשר הווקטור $ y $ מורחב באופן דומה עם $ p $ אפסים בסוף ל- $ y _ {*} $, מוצר המטריצה בפונקציה האובייקטיבית מוסיף $ p $ תנאים נוספים של הטופס $ (0 - \ nu \ beta_i) ^ 2 = \ lambda \ beta_i ^ 2 $ למטרה המקורית. לכן
$$ (y _ {*} - X _ {*} \ beta) ^ \ prime (y _ {*} - X _ {*} \ beta) = (y - X \ beta) ^ \ prime (y - X \ beta) + \ lambda \ beta ^ \ prime \ beta. $$
מצורת הביטוי ביד שמאל, המיידיות שהמשוואות הרגילות הן
$$ (X _ {*} ^ \ prime X _ {*}) \ beta = X _ {*} ^ \ prime y _ {*}. $$
מכיוון שצירפנו אפסים לסוף $ y $ הצד הימני זהה ל- $ X ^ \ prime y $. בצד שמאל $ $ \ nu ^ 2 I = \ lambda I $ מתווסף ל- $ X ^ \ prime X $ המקורי. לכן המשוואות הרגילות החדשות מפשטות ל
$$ (X ^ \ prime X + \ lambda I) \ beta = X ^ \ prime y. $$
מלבד היותך חסכוני מבחינה רעיונית - אין צורך במניפולציות חדשות בכדי להפיק תוצאה זו - היא גם חסכונית מבחינה חישובית: התוכנה שלך לביצוע ריבועי מינימום רגילים תעשה גם רגרסיה של הרכס ללא כל לשנות כל דבר שהוא. (בכל זאת יכול להיות מועיל בבעיות גדולות להשתמש בתוכנות המיועדות למטרה זו, מכיוון שהיא תנצל את המבנה המיוחד של $ X _ {*} $ כדי להשיג תוצאות ביעילות למרווח צפוף של $ \ lambda $, מה שמאפשר לך לחקור כיצד התשובות משתנות עם $ \ lambda $.)
יופי נוסף של דרך זו להסתכל על דברים הוא כיצד זה יכול לעזור לנו להבין רגרסיה של הרכס . כשאנחנו רוצים להבין באמת רגרסיה, זה כמעט תמיד עוזר לחשוב על זה גאומטרית: העמודים של $ X $ מהווים $ p $ וקטורים במרחב וקטורי אמיתי של מימד $ n $. על ידי צירוף של $ \ nu I $ ל- $ X $, ובכך מאריך אותם מ- $ n $ -ווקטורים ל- $ n + p $ -ווקטורים, אנו משבצים $ \ mathbb {R} ^ n $ לחלל גדול יותר $ \ mathbb { R} ^ {n + p} $ על ידי הכללת כיוונים אורתוגונליים הדומים $ p $ "דמיוניים". העמודה הראשונה של $ X $ ניתנת למרכיב דמיוני קטן בגודל $ \ nu $, ובכך מאריכה אותה ומעבירה אותה מהשטח שנוצר על ידי העמודות המקוריות $ p $. העמודות השנייה, השלישית, ..., $ p ^ \ text {th} $ מאורכות באופן דומה ומועברות מהחלל המקורי באותה הכמות $ \ nu $ - אך הכל בכיוונים חדשים שונים. כתוצאה מכך, כל קולינאריות הקיימת בעמודות המקור תיפתר מיד . יתר על כן, ככל שה $ \ nu $ גדול יותר, כך הווקטורים החדשים הללו מתקרבים יותר לכיוונים הדמיוניים של $ p $: הם הופכים ליותר ויותר אורטונמלים. כתוצאה מכך, הפיתרון של המשוואות הרגילות יתאפשר מייד והוא יהפוך במהירות ליציב מבחינה מספרית כאשר $ \ nu $ יגדל מ- $ 0 $.
תיאור זה של התהליך מרמז על גישה חדשנית ויצירתית להתמודד עם הבעיות שרכס רגרסיה תוכנן לטפל. למשל, באמצעות כל אמצעי שהוא (כגון פירוק השונות שתוארו על ידי בלסלי, קוה וולש בספרם משנת 1980 על אבחון רגרסיה פרק 3), ייתכן שתוכל לזהות תת-קבוצות של כמעט קולינאריות עמודות של $ X $, כאשר כל תת-קבוצה כמעט אורתוגונלית לכל אחת מהן. אתה צריך לצרף רק כמה שורות ל- $ X $ (ואפסים ל- $ y $) מכיוון שיש אלמנטים בקבוצה הגדולה ביותר, ומקדישים מימד "דמיוני" חדש להעתקת כל אלמנט בקבוצה הרחק מאחיה: אתה לא לא צריך $ p $ ממדים דמיוניים כדי לעשות זאת.