שְׁאֵלָה:
מה הצד החלש של עצי ההחלטה?
Łukasz Lew
2010-08-05 15:42:44 UTC
view on stackexchange narkive permalink
נראה כי

עצים של החלטות הם שיטת לימוד מכונה מובנת מאוד. לאחר יצירתו ניתן לבחון אותו בקלות על ידי אדם, וזה יתרון גדול ביישומים מסוימים.

מהם הצדדים החלשים המעשיים של עצי ההחלטה?

ארבע תשובות:
#1
+37
Simon Byrne
2010-08-05 17:08:24 UTC
view on stackexchange narkive permalink

הנה זוג שאני יכול לחשוב עליו:

  • הם יכולים להיות רגישים ביותר להפרעות קטנות בנתונים: שינוי קל יכול לגרום לעץ שונה בתכלית.
  • הם יכולים להתאים יתר על המידה בקלות. ניתן לשלול זאת על ידי שיטות אימות וגיזום, אך זהו אזור אפור.
  • יכולות להיות להם בעיות מחוץ לחיזוי המדגם (זה קשור לכך שהם לא חלקים).

חלק מאלה קשורים לבעיה של רב-קולינאריות: כאשר שני משתנים מסבירים את אותו הדבר, עץ החלטות יבחר בחמדנות את הטוב ביותר ואילו שיטות רבות אחרות ישתמשו שניהם. שיטות אנסמבל כמו יערות אקראיים יכולות לשלול זאת במידה מסוימת, אך אתה מאבד את קלות ההבנה.

אולם הבעיה הגדולה ביותר, מבחינתי לפחות, היא היעדר מסגרת הסתברותית עקרונית. . בשיטות רבות אחרות יש דברים כמו מרווחי ביטחון, התפלגויות עורפיות וכו ', שנותנים לנו מושג כמה טוב המודל. עץ החלטות הוא בסופו של דבר היוריסטיקה אד-הוק, שעדיין יכולה להיות שימושית מאוד (הם מצוינים למציאת מקורות הבאגים בעיבוד נתונים), אך קיימת הסכנה שאנשים יתייחסו לפלט כאל "המודל הנכון" (ממני ניסיון, זה קורה הרבה בשיווק).

מנקודת מבט של ML ניתן לבדוק עצים באופן זהה לכל מסווג אחר (קורות חיים למשל). ובכל זאת זה מראה כי יתר על המידה קרה יתר על המידה ;-) כמו כן RF בורח מרב-קולינאריות לא בגלל שהוא אנסמבל, אלא בגלל שעציו אינם אופטימליים.
לקבלת מסגרת הסתברותית של עצי החלטה, ראה DTREE (url: http://www.datamining.monash.edu.au/software/dtree/index.shtml) המבוסס על הנייר "Wallace CS & Patrick JD,` Coding עצות החלטה, למידת מכונה, 11, 1993, עמ '7-22 ".
כמו כן, האם לא ניתן להשיג CI (לחיזויים) באמצעות bootstrapping?
@Simon בירן, יש לי שאלה בנוגע להערתך "עם זאת הבעיה הגדולה ביותר, מבחינתי לפחות, היא היעדר מסגרת הסתברותית עקרונית". סלח לבורותי, אך האם תוכל בבקשה להצביע על כמה מסגרות הסתברותיות עקרוניות מעשיות (במיוחד בהקשר של סיווג). אני מאוד מעוניין במגבלה הזו של עצי ההחלטה.
@AmV, דוגמה אחת תהיה רגרסיה לוגיסטית: אנו יכולים להשתמש בעובדה שכל תצפית מגיעה מבינומיאלית כדי להשיג מרווחי אמון / אמינים ולבדוק את ההנחות של המודל.
#2
+25
Rob Hyndman
2010-08-05 16:58:42 UTC
view on stackexchange narkive permalink

חסרון אחד הוא שמניחים שכל המונחים מקיימים אינטראקציה. כלומר, לא יכולים להיות לכם שני משתני הסבר המתנהגים באופן עצמאי. כל משתנה בעץ נאלץ לתקשר עם כל משתנה בהמשך העץ. זה לא יעיל ביותר אם יש משתנים שאין להם אינטראקציות חלשות או חלשות.

אני תוהה אם זו מגבלה מעשית - עבור משתנה שמשפיע רק חלש על סיווג, האינטואיציה שלי היא שכנראה עץ לא יתפצל על אותו משתנה (כלומר, זה לא הולך להיות צומת) שמשמעותו בתורו זה בלתי נראה ככל שמגיע סיווג עץ ההחלטה.
אני מדבר על אינטראקציות חלשות, ולא על השפעות חלשות על הסיווג. אינטראקציה היא קשר בין שניים ממשתני הניבוי.
זה אולי לא יעיל, אך מבנה העץ יכול להתמודד עם זה.
לכן אמרתי לא יעיל ולא מוטה או לא נכון. אם יש לך המון נתונים, זה לא משנה הרבה. אבל אם אתה מתאים עץ לכמה מאות תצפיות מאשר האינטראקציות המשוערות יכולות להפחית מאוד את הדיוק החיזוי.
לְהַסכִּים; רק רציתי להדגיש את זה. ובכל זאת אני חושב שניתן להסיר את הפחתת הדיוק הניבוי באמצעות אימונים מתאימים; בפילוגנטיקה הבעיה הדומה (חמדנות) מצטמצמת על ידי סריקת מונטה קרלו של שטח העץ האפשרי כדי למצוא את הסבירות המרבית - אני לא יודע האם יש גישה דומה בסטטיסטיקה, כנראה שאף אחד לא הפריע לבעיה זו לכאלה מידה.
#3
+12
doug
2010-08-05 17:47:46 UTC
view on stackexchange narkive permalink

התשובה שלי מופנית ל- CART (יישומי C 4.5 / C 5) אם כי לדעתי לא מוגבלים לכך. הניחוש שלי הוא שזה מה שה- OP חושבת - זה בדרך כלל מה שמישהו מתכוון כשהוא אומר "עץ החלטה".

מגבלות של עצים של החלטה :


ביצועים נמוכים

ב'ביצועים 'אני לא מתכוון לרזולוציה, אלא ל מהירות ביצוע . הסיבה לכך שהוא גרוע היא שעליך 'לצייר מחדש את העץ' בכל פעם שאתה מעוניין לעדכן את דגם ה- CART שלך - נתונים המסווגים על ידי עץ שהוכשר כבר, שאותם ברצונך להוסיף לעץ (כלומר, להשתמש כ נקודת נתוני אימונים) דורשת שתתחיל מחדש - לא ניתן להוסיף מקרי אימונים באופן הדרגתי, כפי שהם יכולים לעשות עבור רוב אלגוריתמי הלמידה בפיקוח אחרים. אולי הדרך הטובה ביותר לקבוע זאת היא שלא ניתן להכשיר עצים של החלטות במצב מקוון, אלא רק במצב אצווה. ברור שלא תבחין במגבלה זו אם לא תעדכן את המסווג שלך, אבל אז הייתי מצפה שתראה ירידה ברזולוציה.

זה משמעותי מכיוון שעבור תפיסות רב-שכבתיות למשל, ברגע שהוא מאומן, הוא יכול להתחיל לסווג נתונים; ניתן להשתמש בנתונים גם כדי 'לכוון' את המסווג שהוכשר כבר, אם כי עם עצות ההחלטה, עליכם להכשיר מחדש את כל מערך הנתונים (נתונים מקוריים המשמשים באימון בתוספת כל מופעים חדשים).


רזולוציה גרועה על נתונים עם קשרים מורכבים בין המשתנים

עצים של החלטות מסווגים על ידי הערכה צעד של נקודת נתונים ממעמד לא ידוע, צומת אחד בכל פעם, החל מ צומת שורש ומסתיים בצומת מסוף. ובכל צומת, שתי אפשרויות אפשריות בלבד (שמאל-ימין), ומכאן שיש כמה קשרים משתנים שעצי ההחלטה פשוט לא יכולים ללמוד.


למעשה מוגבל לסיווג חזק>

עצים של החלטות עובדים בצורה הטובה ביותר כאשר הם מאומנים להקצות נקודת נתונים לכיתה - רצוי אחת מכמה שיעורים אפשריים בלבד. אני לא מאמין שאי פעם הצלחתי להשתמש בעץ החלטות במצב רגרסיה (כלומר תפוקה רציפה, כגון מחיר או הכנסה צפויה לכל החיים). זו אינה מגבלה פורמלית או אינהרנטית אלא מגבלה מעשית. לרוב, עצי החלטה משמשים לחיזוי גורמים או לתוצאות דיסקרטיות.


רזולוציה ירודה עם משתני ציפייה מתמשכים

שוב, באופן עקרוני, זה בסדר שיש משתנים עצמאיים כמו "זמן הורדה" או "מספר של ימים מאז הרכישה המקוונת הקודמת "- פשוט שנה את קריטריון הפיצול שלך לשונות (זה בדרך כלל אנטרופיית מידע או Gini Impurity עבור משתנים בדידים) אך מניסיוני עצים של החלטה לעיתים רחוקות עובדים טוב במקרה זה. חריגים הם מקרים כמו "גיל התלמיד" שנראה רציף, אך בפועל טווח הערכים הוא די קטן (במיוחד אם הם מדווחים כמספרים שלמים).

+1 לשיחה הטובה על זווית הביצועים, שלרוב לא מקבלים מספיק משחק.ראיתי עצים של החלטות נתקלים בבעיות ביצועים בכמה פלטפורמות תוכנה המיועדות למערכי נתונים גדולים (כגון SQL Server), לפחות בהשוואה לשיטות כריית נתונים אחרות.זה מלבד כל נושא ההסבה שהבאת.נראה שהוא מחמיר במקרים בהם מתרחש התאמת יתר (אם כי ניתן לומר על אלגוריתמי כרייה רבים אחרים).
#4
+11
gung - Reinstate Monica
2012-06-29 04:27:55 UTC
view on stackexchange narkive permalink

יש כאן תשובות טובות, אבל אני מופתע שדבר אחד לא הודגש. CART אינה עושה הנחות הפצה לגבי הנתונים, במיוחד משתנה התגובה. לעומת זאת, רגרסיה של OLS (עבור משתני תגובה רציפה) ורגרסיה לוגיסטית (עבור משתני תגובה קטגורית מסוימים), למשל, do מניחות הנחות חזקות; באופן ספציפי, רגרסיה של OLS מניחה שהתגובה מופצת באופן תנאי, ולוגיסטית מניחה שהתגובה היא בינומית או רב-נומית.

היעדר הנחות כאלה של CART הוא חרב פיפיות. כאשר הנחות אלה אינן מוצדקות, הדבר מעניק לגישה יתרון יחסי. מצד שני, כאשר הנחות אלה מתקיימות, ניתן לחלץ מידע נוסף מהנתונים על ידי התחשבות בעובדות אלה. כלומר, שיטות רגרסיה סטנדרטיות יכולות להיות אינפורמטיביות יותר מאשר CART כאשר ההנחות נכונות.



שאלה ותשובה זו תורגמה אוטומטית מהשפה האנגלית.התוכן המקורי זמין ב- stackexchange, ואנו מודים לו על רישיון cc by-sa 2.0 עליו הוא מופץ.
Loading...