שְׁאֵלָה:
מה הרעיון 'היסודי' של למידת מכונה להערכת פרמטרים?
user28
2010-07-28 16:32:00 UTC
view on stackexchange narkive permalink

הרעיון 'הבסיסי' של סטטיסטיקה להערכת פרמטרים הוא הסבירות המרבית. אני תוהה מהו הרעיון המקביל בלימוד מכונה.

Qn 1. האם יהיה זה הוגן לומר שהרעיון ה'יסודי 'בלימוד מכונה להערכת פרמטרים הוא:' Loss Funtions '

[הערה: ההתרשמות שלי היא שאלגוריתמים של למידת מכונה מייעלים לרוב פונקציית אובדן ומכאן השאלה הנ"ל.]

Qn 2: האם יש ספרות שמנסה לגשר על הפער בין סטטיסטיקה למכונה למידה?

[הערה: אולי, בדרך של התייחסות לפונקציות אובדן לסבירות מרבית. (למשל, OLS שווה ערך לסבירות מקסימאלית לשגיאות בהפצה רגילה וכו ')]

אני לא רואה את האינטרס של השאלות האלה לגבי ניסיון לגשר על פער פיקטיבי. מה המטרה של כל זה? בנוסף יש הרבה רעיונות אחרים שהם בסיסיים בסטטיסטיקה ... ותפקוד האובדן הוא בן 100 שנה לפחות. אתה יכול להפחית את הסטטיסטיקה ככה? אולי השאלה שלך היא לגבי מושג פונדמנטלי במידע / סטטיסטיקה / למידת מכונה איך שאתה קורא לזה ... ואז השאלה כבר קיימת והיא רחבה מדי http://stats.stackexchange.com/questions/372/what-are-the- מושגי מפתח סטטיסטיים-המתייחסים לכריית נתונים / 381 # 381.
ובכן, אני לא יודע הרבה על למידת מכונה או על קשריה לסטטיסטיקה. בכל מקרה, עיין בשאלה זו: http://stats.stackexchange.com/questions/6/the-two-cultures-statistics-vs-machine-learning מה שמצביע על כך שלכל הפחות הגישות לענות על אותו הדבר השאלות שונות. האם זה "לא טבעי" לתהות האם יש קשר כלשהו ביניהם? כן, אני מסכים שיש הרבה רעיונות בסטטיסטיקה. לכן יש לי יסוד במרכאות והגבלתי את ההיקף לאמידת פרמטרים מעניינים.
קישור @Srikant בין מה? שימו לב שאני מאוד אוהב לחפש קישור בין אובייקטים מוגדרים היטב, אני מוצא את זה ממש טבעי.
ככל הנראה, לומד מכונה, אני כאן כדי לומר לך שאנחנו ממקסמים את הסיבוכים. כל הזמן. המון ניירות לימוד מכונה מתחילים ב"היי תסתכל על הסבירות שלי, תראה איך זה גורם, צפה בי מקסימום ". הייתי מציע שזה מסוכן לטעון לבסיס מהותי של אחת מהדיסציפלינות במונחים של טכניקות הסקה. זה יותר על איזה כנס אתה הולך!
אני לא חושב שהבייסיאנים יסכימו שהסבירות המרבית תהיה הרעיון הבסיסי של סטטיסטיקה.
שֵׁשׁ תשובות:
#1
+19
gappy
2010-08-02 10:16:40 UTC
view on stackexchange narkive permalink

אתן תשובה מפורטת. יכול לספק עוד ציטוטים על פי דרישה, אם כי זה לא באמת שנוי במחלוקת.

  • סטטיסטיקה היא לא הכל על מקסימום (יומן) סבירות. זו תענוג לבאי-בייסיה עקרוניים שרק מעדכנים את אחוריהם או מקדמים את אמונותיהם באמצעות מודל מתאים. וכך גם הרבה מכונות למידה. למינימום הפסד אמפירי יש משמעות שונה ב- ML. לקבלת השקפה ברורה ונרטיבית, עיין ב"הטבע של למידה סטטיסטית "של Vapnik
  • למידת מכונה היא לא כל מינימום הפסד. ראשית, מכיוון שיש הרבה בייזיאנים ב- ML; שנית, מכיוון שמספר יישומים ב- ML קשורים ללמידה זמנית ולקירוב ל- DP. בטח, יש פונקציה אובייקטיבית, אך יש לה משמעות שונה מאוד מאשר בלימוד "סטטיסטי". / li>

אני לא חושב שיש פער בין השדות, רק הרבה גישות שונות, כולן חופפות במידה מסוימת. אני לא מרגיש צורך להפוך אותם לדיסציפלינות שיטתיות עם הבדלים ודמיון מוגדרים היטב, ובהתחשב במהירות שבה הם מתפתחים, אני חושב שזה ממילא מפעל נידון.

#2
+18
Yaroslav Bulatov
2010-07-28 23:25:01 UTC
view on stackexchange narkive permalink

אם סטטיסטיקה נוגעת למקסימום הסבירות, למידת מכונה היא לכל היותר מזעור אובדן. מכיוון שאינך יודע את ההפסד שתגרום לנתונים עתידיים, אתה ממזער קירוב, כלומר אובדן אמפירי. יכול לאמן פרמטרים כך שהמודל המתקבל מייצר את המספר הקטן ביותר של סיווגים שגויים בנתוני האימון. "מספר הסיווגים השגויים" (כלומר, הפסד 0-1) הוא פונקציה של אובדן קשה לעבוד איתה מכיוון שאי אפשר להבדיל אותה, אז אתה משוער אותה עם "פונדקאית" חלקה. למשל, אובדן יומן הוא גבול עליון באובדן 0-1, כך שתוכל למזער זאת במקום זאת, וזה יתברר כמו זהה למקסימום הסבירות המותנית לנתונים. במודל פרמטרי גישה זו הופכת להיות שוות ערך לרגרסיה לוגיסטית.

במשימת דוגמנות מובנית, ובאומדן אובדן יומן של אובדן 0-1, תקבל משהו שונה מהסבירות המותנית המרבית, במקום זאת תמקסם מוצר של סבירות שולית (מותנית).

כדי לקבל קירוב טוב יותר של אובדן, אנשים הבחינו כי מודל הכשרה למזעור אובדן ושימוש באובדן כאומדן של אובדן עתידי הוא אומדן אופטימי מדי. . אז למינימום מדויק יותר (אובדן עתידי אמיתי) הם מוסיפים מונח לתיקון הטיה לאובדן אמפירי ומצמצמים את זה, זה מכונה מזעור מובנה של סיכונים.

בפועל, להבין את המונח הנכון לתיקון ההטיה. קשה מדי, כך שתוסיף ביטוי "ברוח" של מונח תיקון ההטיה, למשל סכום ריבועי הפרמטרים. בסופו של דבר, כמעט כל גישות הסיווג המפוקחות על למידת מכונה פרמטרית מסיימות בסופו של דבר את המודל כדי למזער את הדברים הבאים

$ \ sum_ {i} L (\ textrm {m} (x_i, w), y_i) + P (w) $

כאשר $ \ textrm {m} $ הוא המודל שלך שעובד פרמטריה באמצעות וקטור $ w $, $ i $ נלקח מעל כל נקודות הנתונים $ \ {x_i, y_i \} $, $ L $ הוא קירוב נחמד מבחינה חישובית של האמיתי שלך הפסד ו- $ P (w) $ הוא מונח כלשהו לתיקון הטיה / רגולציה

למשל אם $ x \ in \ {- 1,1 \} ^ d $, $ y \ in \ {- 1,1 \} $, גישה אופיינית היא לתת $ \ textrm {m} (x) = \ textrm {sign} (w \ cdot x) $, $ L (\ textrm {m} (x), y ) = - \ log (y \ times (x \ cdot w)) $, $ P (w) = q \ times (w \ cdot w) $, ובחר $ q $ על ידי אימות צולב

אשמח לראות את האובדן הזה מצטמצם באשכולות, kNN או שרכים אקראיים ...
ובכן, לאפיון פונקציית הפסד של k- פירושו השכן הקרוב ביותר, עיין בסעיף המשנה הרלוונטי (2.5) של מאמר זה: http://www.hpl.hp.com/conferences/icml2003/papers/21.pdf
@John ובכל זאת, זה ערבוב מטרות עם סיבות. במידה רבה אתה יכול להסביר כל אלגוריתם במונחים של מזעור משהו ולקרוא לזה משהו "אובדן". kNN לא הומצא בצורה כזו: חבר'ה, חשבתי על אובדן כזה, בואו נבצע אופטימיזציה ונראה מה יקרה !; אלא חבר'ה, בואו נגיד שההחלטה פחות רציפה על פני שטח התכונות, אז אם יהיה לנו מדד דמיון טוב ... וכן הלאה.
"אם סטטיסטיקה נוגעת למקסום הסבירות, למידת מכונה היא לכל היותר מזעור אובדן" אני לא מסכים עם הנחת היסוד שלך - בתוקף ובשלמותו. אולי זה היה נכון לסטטיסטיקה בשנת 1920, אבל זה בהחלט לא היום.
#3
+8
Thylacoleo
2010-08-04 14:07:44 UTC
view on stackexchange narkive permalink

אני לא יכול לפרסם תגובה (המקום המתאים לתגובה זו) מכיוון שאין לי מספיק מוניטין, אך התשובה שהתקבלה כתשובה הטובה ביותר על ידי בעל השאלה מפספסת את הנקודה.

"אם סטטיסטיקה נוגעת לכל היותר למקסימום הסבירות, למידת מכונה היא לכל הפחות למזער אובדן."

הסבירות היא פונקציית אובדן. מקסימום הסבירות זהה למזעור פונקציית אובדן: הסטייה, שהיא פי -2 בלבד מפונקציית הסבירות היומית. באופן דומה למצוא פיתרון של ריבועים קטנים ביותר, הוא על מזעור פונקציית האובדן המתארת ​​את סכום הריבועים השיורי.

גם ML וגם נתונים סטטיסטיים משתמשים באלגוריתמים כדי לייעל את ההתאמה של פונקציה כלשהי (במונחים הרחבים ביותר) לנתונים. אופטימיזציה כוללת בהכרח מזעור של פונקציית אובדן כלשהי.

נקודה טובה, עדיין ההבדלים העיקריים נמצאים במקום אחר; ראשית, סטטיסטיקה היא על התאמת מודל לנתונים שיש לו, ML עוסקת בהתאמת מודל לנתונים שיהיו; שנית, סטטיסטיקה מניחים שתהליך שמתבונן בו מונע במלואו על ידי איזה מודל "נסתר" טריוויאלי מביך שהם רוצים לחפור, ואילו ML מנסה להפוך איזה שהוא מורכב מספיק כדי להיות מודל עצמאי לבעיות להתנהג כמו המציאות.
@mbq. זו קריקטורה די קשה של סטטיסטיקה. עבדתי בחמש מחלקות סטטיסטיות באוניברסיטאות ואני לא חושב שפגשתי מישהו שיחשוב על סטטיסטיקה כזו.
קריקטורה @Rob? אני חושב שזה מה שהופך את הסטטיסטיקה ליפה! אתה מניח את כל אותם גאוסים וליניאריות וזה פשוט עובד - ויש לזה סיבה שנקראת התרחבות טיילור. העולם הוא קומפלקס גיהינום, אבל בערך בקו ליניארי. (שהוא לרוב תשעים ומשהו% מהמורכבות) טריוויאלי בצורה מביכה. ML (וסטטיסטיקה לא-פרמטרית) נכנס בכמה אחוזים מהמצבים שבהם יש צורך בגישה מעודנת יותר. זו פשוט לא ארוחת צהריים בחינם - אם אתה רוצה משפטים, אתה צריך הנחות; אם אינך רוצה הנחות, אתה זקוק לשיטות משוערות.
@mbq. מספיק הוגן. אני בטח פירשתי נכון את התגובה שלך.
#4
+4
user88
2010-07-28 20:29:33 UTC
view on stackexchange narkive permalink

יש תשובה טריוויאלית - אין אומדן פרמטרים בלימוד מכונה! אנו לא מניחים שהמודלים שלנו שווים לכמה ממודלי רקע נסתרים; אנו מתייחסים הן למציאות והן למודל כאל קופסאות שחורות ואנחנו מנסים לטלטל את קופסת המודל (להתאמן במינוח רשמי) כך שהתפוקה שלה תהיה דומה לזו של תיבת המציאות.

המושג לא רק הסבירות אך כל בחירת המודל המבוססת על נתוני האימון מוחלפת באופטימיזציה של הדיוק (מה שמוגדר; בעיקרון הטוב שבשימוש הרצוי) בנתונים הבלתי נראים; זה מאפשר לייעל הן את הדיוק והן את הזיכרון בצורה משולבת. זה מוביל למושג יכולת הכללה, המושג בדרכים שונות בהתאם לסוג הלומד.

התשובה לשאלה השניה תלויה מאוד בהגדרות; עדיין אני חושב שהסטטיסטיקה הלא פרמטרית היא משהו שמחבר בין השניים.

אני לא בטוח שזה נכון לגמרי. באיזה מובן שיטות לימוד מכונה עובדות ללא הערכת פרמטרים (בתוך מערכת מודלים פרמטרית או ללא הפצה)?
אתה מעריך / מחשב משהו (המונח המדויק עשוי להיות שונה). לדוגמה, שקול רשת עצבית. האם אתה לא מחשב את המשקולות עבור הרשת כשאתה מנסה לחזות משהו? בנוסף, כאשר אתה אומר שאתה מתאמן להתאים תפוקה למציאות, נראה שאתה מדבר באופן מרומז על פונקציית אובדן כלשהי.
@John, @Srikant ללומדים יש פרמטרים, אך אלה אינם הפרמטרים במובן הסטטיסטי. שקול רגרסיה לינארית y = a * x (ללא מונח חופשי לפשט). a הוא פרמטר שהשיטות הסטטיסטיות יתאימו לו, ויוזן בהנחה ש- y = a * x. לימוד מכונה פשוט ינסה לייצר * x כאשר מבקשים ממנו x בטווח הרכבת (זה הגיוני, מכיוון שזה לא מניח y = a * x); זה עשוי להתאים למאות פרמטרים כדי לעשות זאת.
@Srikant על הגיליון השני; כן, זה יכול להיקרא הפסד, אך על נתונים בלתי נראים, לא האימונים. כאשר משתמשים במודלים סטטיסטיים לחיזוי, ההנחה היא שהרכבת היא ייצוג מושלם של המציאות ומכילה את מלוא היקף התהליך האמיתי, ואין זה המקרה של למידת מכונה.
[ציטוט צריך]. במילים אחרות, תשובה מסקרנת, אם כי היא לא צומחת (לפחות) עם הרבה ספרות ML.
אחד קלאסי הוא "דוגמנות סטטיסטית: שתי התרבויות" של בריימן.
#5
+2
ars
2010-07-28 22:28:48 UTC
view on stackexchange narkive permalink

אני לא חושב שיש רעיון בסיסי סביב הערכת פרמטרים בלימוד מכונה. קהל ה- ML יגדיל את הסיכוי או האחורי בשמחה, כל עוד האלגוריתמים יעילים וחוזים "במדויק". ההתמקדות היא בחישוב, ונמצאים שימוש נרחב בתוצאות הסטטיסטיקה.

אם אתם מחפשים רעיונות בסיסיים באופן כללי, אז בתיאוריה של למידה חישובית, PAC הוא מרכזי; בתורת הלמידה הסטטיסטית, מזעור סיכון מבני; ויש תחומים אחרים (למשל, ראה את הפוסט מדע חיזוי מאת ג'ון לנגפורד).

על סטטיסטיקת גישור / ML, נראה כי החלוקה נרגשת . אהבתי את התשובה של gappy לשאלת "שתי תרבויות".

קהל סטטיסטי לוחץ באופן אקראי ב- SPSS עד להופעת ערך p הרצוי ...
#6
+1
HelloGoodbye
2016-08-16 22:22:15 UTC
view on stackexchange narkive permalink

תוכל לכתוב מחדש בעיית מקסימום סיכוי כבעיית מזעור הפסד על ידי הגדרת האובדן כסבירות היומן השלילי. אם הסבירות היא תוצר של הסתברויות עצמאיות או צפיפויות הסתברות, ההפסד יהיה סכום של מונחים עצמאיים, שניתן לחשב ביעילות. יתר על כן, אם המשתנים הסטוכסטיים מופצים בדרך כלל, הבעיה המקבילה למינימום הפסד תהיה בעיה של ריבועים קטנים ביותר.

אם ניתן ליצור בעיית מזעור אובדן על ידי כתיבה מחדש של סיכוי למקסום, להיות להעדיף ליצור בעיית מזעור הפסדים מאפס, מכיוון שהיא תוליד בעיית מזעור הפסד שהיא (בתקווה) מבוססת תיאורטית יותר ופחות אד-הוק. לדוגמא, משקלים, כמו בריבועים הכי פחות משוקללים, שבדרך כלל עליכם להעריך עבורם ערכים, פשוט ייצאו מתהליך שכתוב מחדש של בעיית הסיכוי למקסום הסבירות וכבר יש להם (בתקווה) ערכים אופטימליים.



שאלה ותשובה זו תורגמה אוטומטית מהשפה האנגלית.התוכן המקורי זמין ב- stackexchange, ואנו מודים לו על רישיון cc by-sa 2.0 עליו הוא מופץ.
Loading...