אני לא חושב שיש תשובה ברורה לשאלותיך. אבל אני חושב שהחוכמה המקובלת הולכת כדלקמן:
בעיקרון, ככל שמרחב ההשערה של אלגוריתם למידה גדל, האלגוריתם יכול ללמוד מבנים עשירים ועשירים יותר. אך יחד עם זאת, האלגוריתם נוטה יותר להתאמת יתר ושגיאת ההכללה שלו עשויה לגדול.
אז בסופו של דבר, עבור כל מערך נתונים נתון, מומלץ לעבוד עם המודל המינימלי שיש לו מספיק יכולת ללמוד את המבנה האמיתי של הנתונים. אך זו עצה מאוד גלי-ידיים, מכיוון שבדרך כלל "המבנה האמיתי של הנתונים" אינו ידוע, ולעתים קרובות אפילו היכולות של מודלים המועמדים מובנות רק במעורפל.
כשמדובר ברשתות עצביות. , גודל מרחב ההשערה נשלט על ידי מספר הפרמטרים. ונראה כי עבור מספר קבוע של פרמטרים (או סדר גודל קבוע), העמקה יותר מאפשרת למודלים לתפוס מבנים עשירים יותר (למשל מאמר זה).
זה עשוי להסביר חלקית את ההצלחה של מודלים עמוקים יותר עם פחות פרמטרים: ל- VGGNet (משנת 2014) יש 16 שכבות עם ~ 140M פרמטרים, ואילו ResNet (משנת 2015) ניצח אותה עם 152 שכבות אך רק ~ 2M פרמטרים
(כצד, מודלים קטנים יותר עשויים להיות קלים יותר לאימון מבחינה חישובית - אבל אני לא חושב שזה גורם מרכזי כשלעצמו - מכיוון שעומק למעשה מסבך את האימון)
שים לב שזה מגמה (יותר עומק, פחות פרמטרים) קיימת בעיקר במשימות הקשורות בראייה וברשתות קונבולוציה, וזה דורש הסבר ספציפי לתחום. אז הנה נקודת מבט נוספת:
לכל "נוירון" בשכבה התפתחותית יש "שדה קולט", שהוא גודל וצורת הקלטים המשפיעים על כל פלט. באופן אינטואיטיבי, כל גרעין לוכד קשר כלשהו בין תשומות סמוכות. ולגרעינים קטנים (הנפוצים והעדיפים) יש שדה קליטה קטן, כך שהם יכולים לספק מידע רק בנוגע ליחסים מקומיים.
אבל ככל שאתה הולך לעומק, השדה הקולט של כל נוירון ביחס לשכבה קודמת הופך גדול יותר. שכבות עמוקות כל כך יכולות לספק תכונות בעלות משמעות סמנטית עולמית ופרטים מופשטים (יחסי יחסים ... של יחסי אובייקטים), תוך שימוש בגרעינים קטנים בלבד (המסדירים את היחסים שהרשת לומדת ומסייעים לה להתכנס ולהכליל).
אז התועלת של רשתות קונבולוציה עמוקות בראיית המחשב עשויה להיות מוסברת חלקית על ידי המבנה המרחבי של תמונות וסרטונים. יתכן שהזמן יגיד שעבור סוגים שונים של בעיות, או עבור ארכיטקטורות לא-קונבולוציות, עומק למעשה לא עובד טוב.