שְׁאֵלָה:
מהו המסווג הדו-ממדי הטוב ביותר מהקופסה ליישום שלך?
Łukasz Lew
2010-07-20 14:43:24 UTC
view on stackexchange narkive permalink

כללים :

  • מסווג אחד לתשובה
  • הצבע אם אתה מסכים
  • להצביע למטה / להסיר כפילויות.
  • שים את בקשתך בתגובה
עשר תשובות:
#1
+14
Łukasz Lew
2010-07-20 14:45:06 UTC
view on stackexchange narkive permalink

יער אקראי

  • לוכד בקלות מבנה מסובך / קשר לא לינארי
  • משתנה בסולם המשתנים
  • אין צורך ליצירת משתני דמה למנבאים קטגוריים
  • בחירת משתנה אינה נחוצה במיוחד
  • יחסית קשה להתאים יותר מדי
בחירת מוטיב פעיל של Aptamer, חיזוי לחות בקרקע היער, OCR ספרתי, ניתוח תמונות לווין רב-ספקטרלי, אחזור מידע מוזיקלי, כימומטריה ...
#2
+13
Amro
2010-07-21 05:09:10 UTC
view on stackexchange narkive permalink

רגרסיה לוגיסטית:

  • מהיר וביצועים טובים ברוב מערכי הנתונים
  • כמעט ללא פרמטרים לכוונון
  • ידיות שני המאפיינים הנפרדים / הרציפים
  • המודל ניתן לפרש
  • (לא ממש מוגבל לסיווגים בינאריים)
אולי אין פרמטרים להתאמה, אבל צריך לעבוד באמת עם משתנים רציפים (טרנספורמציות, פסים וכו ') כדי לגרום לא ליניאריות.
#3
+12
Łukasz Lew
2010-07-20 14:44:12 UTC
view on stackexchange narkive permalink

מכונת וקטור תומכת

אין שום דבר * באמת * מיוחד ב- SVM, מלבד שהוא מכריח את המשתמש לחשוב על רגולציה. עבור הבעיות המעשיות ביותר [הליבה] רגרסיה של הרכס עובדת באותה מידה.
@dikran אני חושב ש- SVM הוא מסווג נהדר מכיוון שהוא דליל וחזק לחריגים - זה לא נכון לרגרסיה לוגיסטית! ובגלל זה SVM הוא מסווג עדכני. הבעיה היחידה שעשויה להיות בעיה היא - מורכבות הזמן - אבל אני חושב שזה בסדר.
@suncoolsu אם אתה רוצה דלילות, אתה מקבל דלילות רבה יותר מרגרסיה לוגיסטית קבועה עם LASSO מאשר עם SVM. הדלילות של ה- SVM היא תוצר לוואי של פונקציית האובדן, כך שאתה לא מקבל הרבה כמו שאתה עושה עם אלגוריתם שבו דלילות היא מטרה עיצובית. לעתים קרובות גם עם הערך האופטימלי של הפרמטר ההיפר (למשל נבחר באמצעות אימות צולב) רוב הדלילות של SVM נעלמת. SVM אינו חזק יותר לחריגים מאשר רגרסיה לוגיסטית קבועה - בעיקר זה הסדירות שחשובה, ולא אובדן הצירים.
@Dikran - הנקודה שלי בדיוק - סוג של עונש חשוב. אתה יכול להשיג את זה באמצעות Priors, הוספת עונשין וכו '.
@suncoolsu במקרה כזה, ה- SVM אינו מסווג נהדר, הוא רק אחד מבין המסווגים המסודרים רבים, כגון רגרסיה של הרכס, רגרסיה לוגיסטית קבועה, תהליכים גאוסיים. היתרון העיקרי של ה- SVM הוא משיכתו מתורת הלמידה החישובית. בפועל, שיקולים אחרים חשובים יותר, כמו האם אתה זקוק לסיווג הסתברותי, כאשר פונקציות אובדן אחרות עשויות להיות עדיפות. IMHO, יש יותר מדי תשומת לב ל SVM, ולא למשפחה הרחבה יותר של שיטות הליבה.
#4
+7
BGreene
2012-09-26 14:28:42 UTC
view on stackexchange narkive permalink

מפלה מוסדר לבעיות בפיקוח עם נתונים רועשים

  1. יעילות חישובית
  2. חזק לרעש ומחריגים בנתונים
  3. שניהם מפלים לינאריים (LD) וניתן להשיג מסווגים מרובעים (QD) ריבועיים מאותה הטמעה המגדירים את פרמטרי הרגולציה '[lambda, r]' ל- '[1 0]' עבור מסווג LD ו- '[0 0]' עבור מסווג QD - שימושי מאוד עבור למטרות התייחסות.
  4. קל לפרש ולייצא את המודל
  5. עובד היטב עבור ערכות נתונים דלילות ו'רחבות 'בהן יתכן שלא מוגדרים היטב מטריצות המשתנות בכיתות.
  6. ניתן לאמוד אומדנות של הסתברות מחלקה אחורית לכל מדגם על ידי הפעלת פונקציית softmax לערכים המפלים עבור כל מחלקה.
  7. o>

    קישור למאמר המקורי משנת 1989 מאת פרידמן כאן. כמו כן, יש הסבר טוב מאוד מאת קונצ'בה בספרה " שילוב מסווגי תבניות".

#5
+5
B_Miner
2011-11-17 06:00:17 UTC
view on stackexchange narkive permalink

עצים משופרים בשיפוע.

  • מדויק לפחות כמו RF בהרבה יישומים
  • משלב ערכים חסרים בצורה חלקה
  • חשיבות שונות (כמו כנראה מוטה לטובת נומינליות רציפה ורבות))
  • עלילות תלות חלקית
  • GBM לעומת אקראי יער ב- R: מטפל בהרבה מערכי נתונים גדולים יותר
#6
+4
Dikran Marsupial
2011-03-30 16:35:22 UTC
view on stackexchange narkive permalink

סיווג תהליכי גאוס - הוא נותן תחזיות הסתברותיות (מה שימושי כאשר תדרי המחלקה היחסית המבצעיים שלך שונים מאלו שבסט האימונים שלך, או שווה ערך שהעלויות השווא-חיוביות / השווא-שליליות שלך אינן ידועות או מִשְׁתַנֶה). זה גם מספק הזדהות של חוסר הוודאות בתחזיות המודל עקב חוסר הוודאות ב"הערכת המודל "ממערך נתונים סופי. פונקציית השונות המשותפת שווה ערך לפונקציית הליבה ב- SVM, כך שהיא יכולה לפעול גם ישירות על נתונים שאינם וקטוריים (למשל מחרוזות או גרפים וכו '). המסגרת המתמטית מסודרת גם כן (אך אל תשתמש בקירוב Laplace). בחירת מודלים אוטומטית באמצעות סבירות שולית מקסימאלית.

משלבת בעיקר תכונות טובות של רגרסיה לוגיסטית ו- SVM.

האם יש חבילת R שאתה ממליץ ליישם זאת? מה היישום המועדף עליך לשיטה זו? תודה!
אני חושש שאני משתמש ב- MATLAB (אני משתמש בחבילת GPML http://www.gaussianprocess.org/gpml/code/matlab/doc/), ולכן אני לא יכול לייעץ לגבי יישומי R, אבל אתה עלול למצוא משהו מתאים כאן http://www.gaussianprocess.org/#code. אם ל- R אין חבילה הגונה לרופאי משפחה, מישהו צריך לכתוב אחת!
אוקיי תודה. האם מתודולוגיה זו מאפשרת לבחור "משתנים חשובים, כמו בחשיבות המשתנה של יערות אקראיים או חיסול תכונות רקורסיביות עם SVM?
כן, אתה יכול להשתמש בפונקציית משתנות "קביעת רלוונטיות אוטומטית" ולבחור את הפרמטרים ההיפריים על ידי מקסום הראיות של בייס למודל (אם כי זה יכול להיתקל באותו סוג של בעיות מתאימות מדי שאתה מקבל עם SVMS, לעתים קרובות המודל מבצע ביצועים טובים יותר ללא בחירת תכונות).
#7
+4
miura
2012-09-26 15:10:11 UTC
view on stackexchange narkive permalink

רגרסיה לוגיסטית מווסתת L1.

  • זה מהיר מבחינה חישובית.
  • יש לו פרשנות אינטואיטיבית.
  • יש לו רק אחד שניתן להבין אותו בקלות. היפרפרמטר שניתן לכוון אוטומטית על ידי אימות צולב, שלעתים קרובות זו דרך טובה לעבור.
  • המקדמים שלו הם ליניאריים באופן יחסי ויחסם להיפרפרמטר נראה מיד ובקלות בעלילה פשוטה.
  • זו אחת השיטות הפחות מפוקפקות לבחירת משתנים.
  • כמו כן, יש לה שם ממש מגניב.
+1 ניתן לשלב גם את הפרמטר ההיפר בצורה אנליטית, כך שאין צורך אמיתי באימות צולב עבור יישומים רבים, ראה למשל. http://theoval.cmp.uea.ac.uk/publications/pdf/nips2006a.pdf ו- http://bioinformatics.oxfordjournals.org/content/22/19/2348.full.pdf.
#9
+3
user88
2010-07-20 23:17:26 UTC
view on stackexchange narkive permalink

Naive Bayes ו- Naive Bayes אקראיות

אתה יכול לתת לתיאור בעיה שבה RNB נתן לך תוצאות טובות?
לא ;-) זה היה רק ​​כדי להחיות את הבריכה.
#10
+1
berkay
2011-03-30 09:20:40 UTC
view on stackexchange narkive permalink

K- פירושו אשכולות ללמידה ללא פיקוח.

השאלה מבקשת ספציפית מסווג.


שאלה ותשובה זו תורגמה אוטומטית מהשפה האנגלית.התוכן המקורי זמין ב- stackexchange, ואנו מודים לו על רישיון cc by-sa 2.0 עליו הוא מופץ.
Loading...