באופן עקרוני:
ערוך את התחזיות שלך באמצעות מודל יחיד המאומן על כל מערך הנתונים (כך שיש רק קבוצה אחת של תכונות). אימות צולב משמש רק להערכת ביצועי הניבוי של המודל היחיד שהוכשר על כל מערך הנתונים. זה חיוני בשימוש באימות צולב שבכל קיפול אתה חוזר על כל ההליך המשמש להתאמה למודל הראשי, אחרת אתה יכול לקבל הטיה אופטימית משמעותית בביצועים.
כדי לראות מדוע זה קורה שקול בעיית סיווג בינארי עם 1000 תכונות בינאריות אך רק 100 מקרים, כאשר המקרים והתכונות כולם אקראיים לחלוטין, כך שאין קשר סטטיסטי בין התכונות לבין המקרים. אם אנו מכשירים מודל ראשוני במערך הנתונים המלא, תמיד נוכל להשיג שגיאת אפס במערך האימונים מכיוון שיש יותר תכונות מאשר מקרים. אנו יכולים אפילו למצוא תת-קבוצה של תכונות "אינפורמטיביות" (שבמקרה מתואמות במקרה). אם נבצע אימות צולב רק באמצעות תכונות אלה, נקבל אומדן ביצועים שהוא טוב יותר מניחוש אקראי. הסיבה היא שבכל קיפול הליך אימות צולב יש מידע על המקרים המוחזקים ששימשו לבדיקה כיוון שנבחרו התכונות מכיוון שהיו טובים לחיזוי, כולם, כולל אלה שהוחזקו. כמובן ששיעור השגיאות האמיתי יהיה 0.5.
אם נקיים את ההליך הנכון, ונבצע בחירת תכונות בכל קיפול, אין עוד מידע על המקרים המוחזקים בבחירת התכונות המשמשות ב הקפל הזה. אם תשתמש בהליך הנכון, במקרה זה, תקבל שיעור שגיאות של כ 0.5 (אם כי זה ישתנה מעט למימושים שונים של מערך הנתונים).
מאמרים טובים לקרוא הם:
כריסטוף אמברוז, ג'פרי ג'יי מקלכלן, "הטיה של בחירה במיצוי גנים על בסיס נתוני ביטוי גנים של מיקרו מערך", PNAS http://www.pnas.org/content/99/10/ 6562. מופשט
שהוא מאוד רלוונטי ל- OP ול
Gavin C. Cawley, Nicola LC Talbot, "על התאמת יתר בבחירת המודל והטיית הבחירה לאחר מכן בהערכת ביצועים", JMLR 11 (Jul): 2079−2107, 2010 http://jmlr.csail.mit.edu/papers/v11/cawley10a.html
המדגים שאותו דבר יכול להתרחש בקלות בבחירת הדגם. (למשל כיוונון הפרמטרים ההיפרריים של SVM, אותם יש לחזור גם בכל איטרציה של הליך קורות החיים).
בפועל:
הייתי ממליץ להשתמש ב- Bagging, ו- שימוש בשגיאה מחוץ לתיק לצורך הערכת ביצועים. תקבל מודל ועדה המשתמש בתכונות רבות, אבל זה בעצם דבר טוב. אם אתה משתמש רק במודל יחיד, סביר להניח שתתאים יותר מדי לקריטריון לבחירת התכונות, ותקבל מודל שנותן חיזויים גרועים יותר מאשר מודל המשתמש במספר גדול יותר של תכונות.
ספרו של אלן מילרס על בחירת קבוצות משנה ברגרסיה (מונוגרפיות של צ'פמן והול על סטטיסטיקה והסתברות יישומית, כרך 95) נותנות את העצה הטובה (עמוד 221) שאם ביצועי חיזוי הם הדבר החשוב ביותר, אז אל תעשה שום תכונה בחירה, פשוט השתמש במקום זאת ברגרסיה של הרכס. וזה בספר על בחירת תת קבוצות !!! ; o)