הרבה מדריכים ברשת מדברים על ירידת שיפוע וכמעט כולם משתמשים בגודל צעד קבוע (שיעור למידה $ \ alpha $).מדוע אין שימוש בחיפוש קווים (כגון חיפוש קווים במעקב אחורה או חיפוש קווים מדויק)?
הרבה מדריכים ברשת מדברים על ירידת שיפוע וכמעט כולם משתמשים בגודל צעד קבוע (שיעור למידה $ \ alpha $).מדוע אין שימוש בחיפוש קווים (כגון חיפוש קווים במעקב אחורה או חיפוש קווים מדויק)?
ניתן לעשות אמינות יותר בירידות שיפוע וניל באמצעות חיפושי קו; כתבתי אלגוריתמים שעושים זאת וזה גורם לאלגוריתם יציב מאוד (אם כי לא בהכרח מהיר).
עם זאת, כמעט ואין היגיון לעשות חיפוש בשורות סטוכסטיות שיטות מעבר. הסיבה שאני אומר זאת היא שאם אנו מבצעים חיפוש קווים המבוסס על מזעור פונקציית האובדן המלא, איבדנו מיד את אחד המניעים העיקריים לעשות שיטות סטוכסטיות; כעת עלינו לחשב את פונקציית ההפסד המלאה לכל עדכון, אשר בדרך כלל בעלות חישובית בהשוואה למחשוב הנגזרת הראשונה המלאה. בהתחשב בכך שרצינו להימנע מחישוב שיפוע מלא בגלל עלויות חישוב, נראה מאוד לא סביר שאנחנו רוצים שיהיה בסדר עם מחשוב פונקציית ההפסד המלא.
לחלופין, אתה עשוי לחשוב לעשות משהו כמו חיפוש קווים על סמך נקודת הנתונים שנדגמה באקראי. עם זאת, גם זה לא רעיון טוב; זה לא יגיד לך כלום אם צעדת רחוק מדי (וזה היתרון העיקרי של חיפושי קווים). לדוגמא, נניח שאתה מבצע רגרסיה לוגיסטית. ואז כל תוצאה היא פשוט 0 או 1, ובכל דגימה אחת אנו מקבלים הפרדה מושלמת כך שהפתרון האופטימלי לפרמטרי הרגרסיה שלנו בהתבסס על המדגם של 1 הוא טריוויאלי $ - \ infty $ או $ \ infty $ על ידי האוק אפקט דונר. זה לא טוב.
EDIT
@DeltaIV מציין כי הדבר חל גם על מיני אצווה, ולא רק על דוגמאות בודדות.
המדריכים מדברים על ירידת שיפוע ככל הנראה מכיוון שזה אחד האלגוריתמים הפשוטים ביותר המשמשים לאופטימיזציה, ולכן קל להסביר אותו.מכיוון שרוב מדריכים כאלה הם קצרים למדי, הם מתמקדים בדברים פשוטים.ישנם לפחות כמה אלגוריתמי אופטימיזציה פופולריים מעבר לירידת שיפוע פשוטה המשמשים למידה עמוקה.למעשה אנשים לעיתים קרובות משתמשים באלגוריתמים שונים ואז בירידת שיפוע מכיוון שהם בדרך כלל מתכנסים מהר יותר.לחלקם קצב למידה לא קבוע (למשל יורד עם הזמן).לסקירת אלגוריתמים כאלה תוכלו לבדוק את הפוסט סקירה כללית של אלגוריתמי אופטימיזציה של ירידה בשיפוע מאת סבסטיאן רודר (או את המאמר arXived).