אימות צולב של K-fold (CV) מפרק באופן אקראי את הנתונים שלך למחיצות K, ואתה מצידך מחזיק את אחד מאותם חלקי K כמקרה מבחן, ומגבש את חלקי K-1 האחרים יחד כנתוני האימון שלך. . השאר אחד בחוץ (LOO) הוא המקרה המיוחד שבו אתה לוקח את פריטי הנתונים שלך N ועורך קורות חיים בקיפול N. במובן מסוים, הולד אאוט הוא מקרה מיוחד נוסף, שבו אתה בוחר רק אחד מקיפולי K שלך כמבחן ולא מסתובב בכל קפלי K.
עד כמה שידוע לי, קורות חיים פי 10 זה יפה במידה רבה הקפדנות, מכיוון שהוא משתמש בנתונים שלך ביעילות ומסייע גם במניעת אפשרויות מחיצה לא מוצלחות. ה- Hold Out אינו עושה שימוש יעיל בנתונים שלך, ו- LOO אינו חזק כמוהו (או משהו כזה), אך קיפול 10-איש נכון בדיוק.
אם אתה יודע שהנתונים שלך מכילים יותר מ- קטגוריה אחת, וקטגוריה אחת או יותר קטנות בהרבה מהשאר, חלק מהמחיצות האקראיות של K יכולות אפילו לא להכיל אף אחת מהקטגוריות הקטנות, וזה יהיה רע. כדי לוודא שכל מחיצה מייצגת באופן סביר, אתה משתמש בשכבות: מחלק את הנתונים שלך לקטגוריות ואז יוצר מחיצות אקראיות על ידי בחירה אקראית ופרופורציונית מכל קטגוריה.
כל הווריאציות הללו בקורות החיים בקיפול K בחר מתוך הנתונים שלך ללא החלפה. ה- bootstrap בוחר בנתונים עם החלפה, כך שניתן לכלול את אותו נתון מספר פעמים וייתכן שחלק מהנתונים כלל לא ייכללו. (בכל "מחיצה" יהיו גם פריטי N, בניגוד לקיפול K, ובכל מחיצה יהיו פריטי N / K.)
(אצטרך להודות שאני לא יודע בדיוק איך עם זאת, ה- bootstrap ישמש בקורות חיים. העיקרון של בדיקה וקורות חיים הוא לוודא שלא תבדוק נתונים שהתאמנת עליהם, כך שתקבל מושג מציאותי יותר לגבי האופן שבו הטכניקה + המקדמים שלך עשויים לעבוד במציאות עולם.)
עריכה: הוחלף "החזק מעמד אינו יעיל" ל"החזק מעמד אינו עושה שימוש יעיל בנתונים שלך "כדי לעזור להבהיר, לפי ההערות.