שְׁאֵלָה:
בחירת שיטת אשכולות
Brett
2010-10-18 20:58:41 UTC
view on stackexchange narkive permalink

כאשר משתמשים בניתוח אשכולות על מערך נתונים כדי לקבץ מקרים דומים, יש לבחור בין מספר רב של שיטות אשכולות ומדידות מרחק. לפעמים, בחירה אחת עשויה להשפיע על השנייה, אך ישנם שילובים אפשריים רבים של שיטות.

האם יש למישהו המלצות כיצד לבחור בין ה אלגוריתמים / שיטות אשכולות ו מדדי מרחק ? איך זה קשור לאופי המשתנים (למשל, קטגורי או מספרי) ובעיית האשכולות? האם יש טכניקה אופטימלית?

האם אתה יכול לנסות לתת תיאור ספציפי יותר של מה שאתה רוצה להתקבץ? או שזה רק מצב מתקדם באשכולות שאתה צריך?
אין לי בקשה מיידית. אני רק מעוניין בגישה כללית לבחירת שיטת אשכולות ומדידת דמיון.
בדוק גם [זו] (http://stats.stackexchange.com/q/195456/3277) שאלה דומה.
ו [כמה אזהרות] (http://stats.stackexchange.com/a/63549/3277) כתבו שיטות אשכולות היררכיות במיוחד.
שֵׁשׁ תשובות:
#1
+47
chl
2010-10-18 22:24:06 UTC
view on stackexchange narkive permalink

אין תשובה סופית לשאלתך, שכן גם באותה שיטה הבחירה של המרחק לייצוג דמיון של אנשים (דיס) עשויה להניב תוצאה שונה, למשל. כאשר משתמשים באוקלידיות לעומת אוקלידיות בריבוע באשכולות היררכיים. כדוגמה אחרת, עבור נתונים בינאריים, אתה יכול לבחור באינדקס Jaccard כמדד לדמיון ולהמשיך באשכולות היררכיים קלאסיים; אך ישנן גישות חלופיות, כמו האלגוריתם Mona ( Monothetic Analysis) הרואה רק משתנה אחד בכל פעם, בעוד שגישות היררכיות אחרות (למשל HC קלאסיות, אגנס, דיאנה) משתמשות בכל המשתנים בכל שלב. גישת k-means הורחבה בדרכים שונות, כולל חלוקה סביב מדויקים (PAM) או עצמים מייצגים ולא צנטרואידים (Kaufman and Rousseuw, 1990), או אשכולות מטושטשים (Chung and Lee, 1992). למשל, ההבדל העיקרי בין k- פירושו ל- PAM הוא ש- PAM ממזער סכום של הבדלים במקום סכום של מרחקים אוקלידיים בריבוע; אשכול מטושטש מאפשר להתחשב ב"חברות חלקית "(אנו משייכים לכל תצפית משקל המשקף חברות בכיתה). ולשיטות המסתמכות על מסגרת הסתברותית, או כביכול אשכולות מבוססי-מודלים (או ניתוח פרופילים סמוי לפסיכומטריסטים), יש חבילה נהדרת: Mclust. אז באופן סופי, עליכם לשקול כיצד להגדיר את הדמיון של אנשים כמו גם את השיטה לקישור יחידים (אשכולות רקורסיביים או איטרטיביים, חברות מחלקה מחמירה או מטושטשת, גישה ללא פיקוח או חצי פיקוח וכו ').

בדרך כלל, כדי להעריך את יציבות האשכולות, מעניין להשוות בין כמה אלגוריתמים שבעצם "חולקים" דמיון כלשהו (למשל k- פירוש ואשכולות היררכיים, מכיוון שמרחק אוקלידי עובד עבור שניהם). לצורך הערכת הקונקורדנציה בין שני פתרונות אשכולות, הוצעו כמה מצביעים בתגובה לשאלה זו, היכן לחתוך דנדרוגרמה? (ראה גם את ההפניות המקושרות לקישור אחר באתר זה). אם אתה משתמש ב- R, תראה שכמה חבילות זמינות כבר בתצוגת המשימות בניתוח אשכולות, וכמה חבילות כוללות ויניטים שמסבירים שיטות ספציפיות או מספקים מחקרים.

ניתוח אשכולות: מושגים בסיסיים ואלגוריתמים מספק סקירה טובה של מספר טכניקות המשמשות לניתוח אשכולות. באשר לספר טוב ואחרון עם איורי R, אמליץ על פרק 12 של איזנמן. , טכניקות סטטיסטיות רב משתנות מודרניות (ספרינגר, 2008). כמה הפניות סטנדרטיות אחרות מובאות להלן:

  • Cormack, R., 1971. סקירת הסיווג. Journal of the Royal Statistical Society, A 134, 321–367.
  • Everitt, B., 1974. ניתוח אשכולות . לונדון: היינמן אדוק. ספרים.
  • Gordon, A., 1987. סקירה של הסיווג ההיררכי. Journal of the Royal Statistical Society, A 150, 119–137.
  • Gordon, A., 1999. סיווג , מהדורה שנייה. צ'פמן והול.
  • Kaufman, L., Rousseuw, P., 1990. מציאת קבוצות בנתונים: מבוא לניתוח אשכולות . ניו יורק, וויילי.
#2
+32
denis
2011-06-09 18:33:17 UTC
view on stackexchange narkive permalink

ציטוט מאת האסטי, טיבשיראני ופרידמן, אלמנטים של למידה סטטיסטית, עמ '. 506:

"מדד אי-התאמה מתאים חשוב בהרבה להשגת הצלחה באשכולות מאשר בחירה באלגוריתם אשכולות. היבט זה של הבעיה ... תלוי בידע ספציפי לתחום ופחות נוח ל מחקר כללי. "

(עם זאת, האם זה לא יהיה נחמד אם (wibni) היו איפה שסטודנטים יוכלו לנסות כמה אלגוריתמים ולבדוק כמה מערכי נתונים סטנדרטיים קטנים?)

תודה צ'י; האם אתה יכול להציע תגית "ניתן להריץ דוגמאות באינטרנט"?
אתה מתכוון למתג מחדש את השאלה (אני לא חושב שזה רעיון טוב מכיוון שה- OP לא עסק בכלי benchmarking מקוונים, IMO) או לשאלה חדשה שאתה רוצה לשאול? בכל מקרה, כרגע אין לי מושג על תג טוב. תשאל על מטא?
ציטוט זה עשוי להטעות - ברור שהוא אינו חל על [דוגמאות בוויקיפדיה] (https://en.wikipedia.org/wiki/Clustering_algorithm). בגלל האשכול הלא ליניארי החזק במערך הנתונים השני, אלגוריתמי אשכול ההצמדה והצפיפות עובדים הרבה יותר טוב מכל שיטה מבוססת מרכזיות. אין מדד דמיון שיגרום לתכנית אשכולות מרכזית לעבוד טוב יותר. הצעת מחיר זו ישימה רק אם אתה מניח שהאשכולות הם ליניאריים בערך (לפעמים הנחה בטוחה). הייתי מציע לבדוק ויזואלית את הנתונים שלך תחילה, אם אפשר.
@naught101, בטוח - * בדיקה ויזואלית של הנתונים * כדי * לראות * דמיון / אי-דמיון הוא החשוב ביותר, אך קל יותר לומר מאשר לעשות
הציטוט הזה הוא מאיזו מהדורה?אתה יכול לתת את הציטוט שלה
מהדורה שנייה של @MonsterMMORPG,: http://books.google.com/books?isbn=0387216065
#3
+12
mariana soffer
2010-11-07 13:12:46 UTC
view on stackexchange narkive permalink

אתה לא יכול לדעת מראש איזה אלגוריתם אשכולות יהיה טוב יותר, אבל יש כמה רמזים, למשל אם אתה רוצה לקבץ תמונות יש אלגוריתמים מסוימים שכדאי לנסות תחילה כמו Fuzzy Art, או אם אתה רוצה לקבץ פנים כדאי להתחיל עם (GGCI) אשכולות גיאומטריים גלובליים לתמונה.

בכל מקרה זה לא מבטיח את התוצאה הטובה ביותר, אז מה שאני אעשה זה להשתמש בתוכנית שמאפשרת לך להריץ באופן שיטתי אלגוריתמי אשכול שונים, כגון weka, RapidMiner או אפילו R (שאינו ויזואלי), שם אקבע את התוכנית להשקת כל אלגוריתמי האשכול השונים שאוכל, עם כל המרחקים השונים האפשריים, ואם הם זקוקים לפרמטרים, ניסו כל אחד מהם במגוון שונה ערכי פרמטר (חוץ מזה אם אני לא יודע את כמות האשכולות, הפעל כל אחד מהם עם מגוון מספרים). לאחר שתסדיר את הניסוי, השאר אותו פועל, אך זכור לאחסן איפשהו את התוצאות של כל ריצת אשכולות.

ואז השווה את התוצאות כדי להשיג את האשכולות הטובים ביותר כתוצאה מכך. זה מסובך מכיוון שיש כמה מדדים שניתן להשוות ולא כולם מסופקים על ידי כל אלגוריתם. לדוגמא, לאלגוריתמים של אשכולות מטושטשים יש מדדים שונים מאלה שאינם מטושטשים, אך עדיין ניתן להשוות אותם על ידי התחשבות בקבוצות שהתקבלו מטושטשות כלא מטושטשות, אני אצמד לצורך ההשוואה למדדים הקלאסיים כגון:

• SSE: סכום השגיאה הריבועית מפריטי כל אשכול.

• מרחק אשכול בין: סכום המרחק הריבועי בין כל מרכז אשכול.

• מרחק אשכול בתוך כל אשכול: סכום המרחק הריבועי מפריטים של כל אשכול למרכזו.

• רדיוס מרבי: המרחק הגדול ביותר ממופע למרכז האשכול שלו.

• רדיוס ממוצע: סכום המרחק הגדול ביותר ממופע למרכז האשכול שלו חלקי מספר האשכולות.

#4
+6
Gonzalo Espinosa Duelo
2016-12-26 21:56:00 UTC
view on stackexchange narkive permalink

בחירת מרחק נכון אינה משימה בסיסית. כאשר אנו רוצים לבצע ניתוח אשכולות על מערך נתונים, תוצאות שונות יכולות להופיע באמצעות מרחקים שונים, לכן חשוב מאוד להיזהר באיזה מרחק לבחור מכיוון שנוכל ליצור חפץ טוב כוזב שתופס היטב את השונות, אך למעשה ללא חוש בבעיה שלנו.

ה מרחק האוקלידי מתאים כשיש לי משתנים מספריים רצופים ואני רוצה לשקף מרחקים מוחלטים. מרחק זה לוקח בחשבון כל משתנה ואינו מסיר יתירות, כך שאם היו לי שלושה משתנים המסבירים אותו הדבר (הם בקורלציה), הייתי משקל את ההשפעה הזו בשלושה. יתר על כן, מרחק זה אינו בקנה מידה קבוע, כך שבדרך כלל אני צריך לשנות את המידה בעבר כדי להשתמש במרחק.
אקולוגיה לדוגמא: יש לנו תצפיות שונות מיישובים רבים, אשר המומחים לקחו מהם דגימות של כמה מיקרוביולוגיות, פיזיקליות. וגורמים כימיים. אנו רוצים למצוא דפוסים במערכות אקולוגיות. לגורמים אלה יש מתאם גבוה, אך אנו יודעים שכולם רלוונטיים, ולכן איננו רוצים להסיר את הפיטורים הללו. אנו משתמשים במרחק האוקלידי עם נתונים מוגדלים בכדי למנוע השפעה של יחידות.

מרחק ה מהלנוביס מתאים כשיש לי משתנים מספריים רצופים ואני רוצה לשקף מוחלט מרחקים, אך אנו רוצים להסיר יתירות. אם יש לנו משתנים חוזרים ונשנים, האפקט החוזר שלהם ייעלם.

המשפחה הלינגר , פרופיל המינים ו מרחק אקורד מתאימים כאשר אנו רוצים לשים דגש על ההבדלים בין המשתנים, כאשר אנו רוצים להבדיל בין פרופילים. מרחקים אלה משקלים לפי כמויות סה"כ של כל תצפית, באופן שהמרחקים קטנים כאשר משתנים לפי משתנה הפרטים דומים יותר, אם כי בעוצמות מוחלטות היה שונה מאוד. היזהר! מרחקים אלה משקפים היטב את ההבדל בין הפרופילים, אך איבדו את אפקט העוצמה. הם עשויים להיות שימושיים מאוד כשיש לנו גדלים מדגמיים שונים. אקולוגיה לדוגמא: אנו רוצים לחקור את החי בארצות רבות ויש לנו מטריצת נתונים של מלאי של הגטרופוד (מיקומי דגימה בשורות ושמות מינים בעמודות) . המטריצה ​​מאופיינת בכך שהיא כוללת אפסים ובעוצמות שונות מכיוון שיש ביישובים מינים מסוימים ובאחרים מינים אחרים. נוכל להשתמש במרחק הלינגר.

בריי-קרטיס הוא די דומה, אבל זה מתאים יותר כשאנחנו רוצים להבדיל בין פרופילים ולקחת בחשבון גם גודל יחסי.

אנא רשום ו / או מיזג את חשבונותיך [1] (http://stats.stackexchange.com/users/143439/gonzalo-espinosa-duelo) [2] (http://stats.stackexchange.com/users/143433/gonzalo-espinosa-duelo) (תוכלו למצוא מידע על אופן הפעולה זאת בסעיף ** החשבון שלי ** ב [עזרה] שלנו.אז תוכל לעקוב אחר התשובות שלך, התגובות להן וכו ', וכן יתרונות אחרים.מכיוון שאתה חדש כאן, ייתכן שתרצה לקחת את [הסיור] שלנו, המכיל מידע למשתמשים חדשים.
פרסמת כבר תשובה זהה http://stats.stackexchange.com/a/253268/3277 קודם בשרשור דומה.שכפול תשובות אינו נחשב הוגן.הייתי מציע לך למחוק את ההווה.אך אתה רשאי ומוזמן לפרסם קישור לתשובות / ים האחרות שלך - כהערה מתחת לשאלת OP או להיות; יש תשובה כלשהי בשרשור הנוכחי.
#5
+3
deb2015
2017-08-26 23:46:30 UTC
view on stackexchange narkive permalink

הנה סיכום של כמה אלגוריתמי אשכולות שיכולים לעזור לענות על השאלה

"באיזו טכניקת אשכולות עלי להשתמש?"

אין אלגוריתם אשכולות "נכון" באופן אובייקטיבי Ref

ניתן לסווג אלגוריתמי אשכולות על סמך "מודל האשכול" שלהם. אלגוריתם המיועד לסוג מסוים של מודלים ייכשל בדרך כלל במודל מסוג אחר. למשל, k- פירושו אינו יכול למצוא אשכולות שאינם קמורים, אלא הוא יכול למצוא רק אשכולות בצורת מעגל.

לכן, הבנת "דגמי אשכול" אלה הופכת למפתח להבנה כיצד לבחור בין האלגוריתמים / שיטות האשכולות השונות. דגמי אשכול אופייניים כוללים:

[1] דגמי קישוריות: בונה מודלים המבוססים על קישוריות למרחקים. למשל אשכולות היררכיים. משמש כאשר אנו זקוקים לחלוקה שונה על בסיס גובה כריתת העץ. פונקציית R: hclust בחבילת הסטטיסטיקה.

[2] מודלים של Centroid: בונה מודלים על ידי ייצוג כל אשכול על ידי וקטור ממוצע יחיד. משמש כאשר אנו זקוקים לחלוקה פריכה (בניגוד לאשכול מטושטש שתואר בהמשך). פונקציית R: kmeans בחבילת הסטטיסטיקה.

[3] מודלים של התפלגות: בונים מודלים המבוססים על התפלגויות סטטיסטיות כגון התפלגויות נורמליות מרובות משתנים המשמשות את האלגוריתם למקסום הצפי. משמש כאשר צורות אשכול יכולות להיות שרירותיות בניגוד ל- k- פירושו שמניח אשכולות מעגליים. פונקציית R: תכלת בחבילת הכלי.

[4] מודלים לצפיפות: בונה מודלים המבוססים על אשכולות כאזורים צפופים מחוברים במרחב הנתונים. למשל DBSCAN ו- OPTICS. משמש כאשר צורות אשכול יכולות להיות שרירותיות בניגוד ל- k- פירושו שמניח אשכולות מעגליים .. R פונקציה dbscan בחבילה dbscan.

[5] מודלים של תת-שטח: בונה מודלים המבוססים על שני חברי האשכול ותכונות רלוונטיות. למשל דו-קיבוץ (הידוע גם בשם אשכולות משותפים או אשכול דו-מצבי). משמש כאשר יש צורך באשכולות שורה ועמודה בו זמנית. פונקציית R-biclust בחבילת biclust.

[6] מודלים קבוצתיים: בונה מודלים על בסיס המידע הקיבוצי. למשל סינון שיתופי (אלגוריתם ממליץ). ממליץ על פונקציית R בחבילת recommenderlab.

[7] מודלים מבוססי גרף: בונה מודלים המבוססים על קליקה. אלגוריתמים לזיהוי מבני קהילה מנסים למצוא גרפים צפופים בגרפים מכוונים או לא מכוונים. למשל פונקציית R cluster_walktrap בחבילת igraph.

[8] מפת תכונות ארגון עצמי של Kohonen: בונה מודלים המבוססים על רשת עצבית. R פונקציה מסוימת בחבילת הקוהוננים.

[9] אשכול ספקטרלי: בונה מודלים המבוססים על מבנה אשכול שאינו קמור, או כאשר מדד של המרכז אינו תיאור מתאים של האשכול השלם. פונקציית R specc בחבילה kernlab.

[10] אשכול תת-שטח: עבור נתונים ממדיים גבוהים, פונקציות מרחק יכולות להיות בעייתיות. דגמי האשכול כוללים את התכונות הרלוונטיות לאשכול. למשל, פונקציית hddc בחבילת R HDclassif.

[11] אשכול רצפים: רצפי קבוצה שקשורים. חבילת rBlast.

[12] התפשטות זיקה: בונה מודלים על סמך העברת הודעות בין נקודות נתונים. זה לא דורש לקבוע את מספר האשכולות לפני הפעלת האלגוריתם. עדיף למשימות מסוימות של ראיית מחשב וביולוגיה חישובית, למשל. מקבץ תמונות של פנים אנושיות וזיהוי תמלילים מוסדרים, מאשר אמצעי k, Ref Rpackage APCluster.

[13] אשכולות זרמים: בונה מודלים המבוססים על נתונים המגיעים ברציפות כגון רשומות טלפון, עסקאות פיננסיות וכו '. למשל חבילת R BIRCH [ https://cran.r-project.org/src/contrib/ ארכיב / ליבנה /]

[14] אשכולות מסמכים (או אשכולות טקסטים): בונה מודלים המבוססים על SVD. זה שימש בהפקת נושאים. למשל גזר [ http://search.carrot2.org] הוא מנוע אשכול תוצאות קוד פתוח שיכול לקבץ מסמכים לקטגוריות נושאיות.

[15] מודל כיתה סמוי: הוא מתייחס לקבוצת משתנים רב-משתנים שנצפו למכלול משתנים סמויים.ניתן להשתמש ב- LCA בסינון שיתופי.לממליץ הפונקציה R בחבילת recommenderlab יש פונקציונליות סינון משותפת.

[16] Biclustering: משמש במקביל לאשכול שורות ועמודות של נתונים דו-מצביים.למשל R פונקציית biclust ב- biclust חבילה.

[17] אשכולות רכים (אשכולות מטושטשים): כל אובייקט שייך לכל אשכול במידה מסוימת.למשל פונקצית R Fclust בחבילה fclust.

#6
+2
felipeduque
2015-12-09 02:12:37 UTC
view on stackexchange narkive permalink

מבחינתי, אם אתה רוצה בחירה בטוחה, שיטות אשכולות רפאים משיגות את שיעורי הדיוק הגבוהים ביותר בשנים האחרונות - לפחות באשכול תמונות.

באשר למדד המרחק, זה תלוי הרבה כיצד הנתונים שלך מסודרים. הבחירה הבטוחה היא המרחק האוקלידי הפשוט, אך אם ידוע לך שהנתונים שלך מכילים סעפות, עליך למפות את הנקודות באמצעות שיטות ליבה.

PS: כולן קשורות לערכים מספריים, לא קטגוריות. אני לא בטוח כיצד ניתן יהיה לקבץ נתונים קטגוריים.



שאלה ותשובה זו תורגמה אוטומטית מהשפה האנגלית.התוכן המקורי זמין ב- stackexchange, ואנו מודים לו על רישיון cc by-sa 2.0 עליו הוא מופץ.
Loading...