שְׁאֵלָה:
האם יש הגדרה מקובלת לחציון מדגם על המטוס, או רווחים מסודרים יותר?
phv3773
2010-08-20 00:36:01 UTC
view on stackexchange narkive permalink

אם כן, מה? אם לא, מדוע לא?

עבור מדגם על הקו, החציון ממזער את הסטייה המוחלטת הכוללת. נראה טבעי להרחיב את ההגדרה ל- R2 וכו ', אך מעולם לא ראיתי אותה. אבל אז אני כבר הרבה זמן בשדה השמאלי.

http://stats.stackexchange.com/questions/89676/k-medians-formula-to-compute-the-median/271441#271441
שבע תשובות:
#1
+20
ars
2010-08-20 00:48:17 UTC
view on stackexchange narkive permalink

אני לא בטוח שיש הגדרה אחת מקובלת לחציון רב משתני. זה שאני מכיר הוא הנקודה החציונית של אוג'ה, שמצמצמת את סכום נפחי הפשטות שנוצרו על פני קבוצות משנה של נקודות. (עיין בקישור להגדרה טכנית.)

עדכון: האתר שמופיע בהגדרת Oja לעיל מכיל גם נייר יפה המכסה מספר הגדרות של חציון רב משתני:

התייחסות נחמדה: תודה. זה מכסה באופן מקיף את כל המוזכר כאן.
אותו אתר מכיל גם סקירה מקוונת ב- html: http://cgm.cs.mcgill.ca/~athens/Geometric-Estimators/intro.html
#2
+17
robin girard
2010-08-20 14:52:04 UTC
view on stackexchange narkive permalink

כפי ש ארס אמר אין הגדרה מקובלת (וזו נקודה טובה). ישנן חלופות כלליות שמשפחות של דרכים להכליל כמותיות ב- $ \ mathbb {R} ^ d $, אני חושב שהמשמעותיות ביותר הן:

  • הכללת תהליך כמותי תן ל- $ P_n (A) $ להיות המדד האמפירי (= שיעור התצפיות ב- $ A $). ואז, עם $ \ mathbb {A} $ קבוצת משנה שנבחרה היטב של ה- Borel ב- $ \ mathbb {R} ^ d $ ו- $ \ lambda $ מדד מוערך אמיתי, אתה יכול להגדיר את פונקציית הכמות האמפירית:

    $ U_n (t) = \ inf (\ lambda (A): P_n (A) \ geq t A \ in \ mathbb {A}) $

    נניח שתוכל למצוא $ A_ אחד t} $ שנותן לך את המינימום. ואז הסט (או אלמנט מהסט) $ A_ {1 / 2- \ epsilon} \ cap A_ {1/2 + \ epsilon} $ נותן לך את החציון כאשר $ \ epsilon $ נעשה קטן מספיק. ההגדרה של החציון מתקבלת כאשר משתמשים ב- $ \ mathbb {A} = (] - \ infty, x] x \ in \ mathbb {R}) $ ו- $ \ lambda (] - \ infty, x]) = x $ . תשובת ארס נופלת למסגרת זו אני מניח שניתן להשיג מיקום חצי שטח של tukey באמצעות $ \ mathbb {A} (a) = (H_ {x} = ( t \ in \ mathbb {R} ^ d: \; \ langle a, t \ rangle \ leq x) $ ו- $ \ lambda (H_ {x}) = x $ (עם $ x \ ב- \ mathbb {R} $ , $ a \ in \ mathbb {R} ^ d $).

  • הגדרת וריאציה ואומדן M הרעיון כאן הוא שניתן להגדיר את $ \ alpha $- הרבעון $ Q _ {\ alpha} $ של משתנה אקראי $ Y $ ב- $ \ mathbb {R} $ באמצעות שוויון וריאציוני.

    • ההגדרה הנפוצה ביותר היא שימוש ב פונקציית רגרסיה כמותית $ \ rho _ {\ alpha} $ (המכונה גם אובדן פינבול, נחשו מדוע?) $ Q _ {\ alpha} = arg \ inf_ {x \ in \ mathbb {R}} \ mathbb {E} [\ rho _ {\ alpha} (Yx)] $. המקרה $ \ alpha = 1/2 $ נותן $ \ rho_ {1/2} (y) = | y | $ ואתה יכול להכליל את זה לממד גבוה יותר באמצעות מרחקי $ l ^ 1 $ כפי שנעשה ב תשובה מרהיבה . זהו חציון תיאורטי אך נותן לך חציון אמפירי אם תחליף את הציפייה באמפירי ציפייה (ממוצע).

    • אך קולשינסקי מציע להשתמש בטרנספורמציית Legendre-Fenchel: מאז $ Q _ {\ alpha} = Arg \ sup_s (s \ alpha-f (s)) $ כאשר $ f (s ) = \ frac {1} {2} \ mathbb {E} [| sY | - | Y | + s] $ עבור $ s \ in \ mathbb {R} $. הוא נותן הרבה סיבות עמוקות לכך (ראה הנייר ;)). הכללת זאת לממדים גבוהים יותר מצריכה עבודה עם $ \ alpha $ וקטוריאלי והחלפת $ s \ alpha $ ב- $ \ langle s, \ alpha \ rangle $ אך ניתן לקחת $ \ alpha = (1/2, \ dots, 1 / 2) $.

  • הזמנה חלקית אתה יכול להכליל את הגדרת הכמויות ב- $ \ mathbb {R} ^ d $ ברגע שתוכל ליצור סדר חלקי (עם שיעורי שקילות).

ברור שיש גשרים בין הניסוחים השונים. לא כולם ברורים ...

תשובה נחמדה, רובין!
#3
+12
whuber
2010-08-20 01:58:59 UTC
view on stackexchange narkive permalink

ישנן דרכים ברורות להכליל את המושג חציון לממדים גבוהים יותר. אחד שעדיין לא הוזכר, אך שהוצע לפני זמן רב, הוא לבנות גוף קמור, לקלף אותו ולחזור כל עוד אתה יכול: מה שנשאר בגוף האחרון הוא מערכת נקודות שכולן מועמדות להיות " חציונים. "

" חבטת ראש " הוא ניסיון אחרון נוסף (בערך 1980) לבנות מרכז חזק לענן דו-ממדי. (הקישור הוא לתיעוד ולתוכנה הקיימים במכון הלאומי לסרטן בארה"ב.)

הסיבה העיקרית לכך שישנן הכללות שונות ורבות ואין פיתרון ברור כי ניתן להזמין R1 אלא R2, R3,. .. לא יכול להיות.

כל מדד העולה בקנה אחד עם החציון הרגיל כאשר הוא מוגבל ל- R1 הוא הכללה של מועמדים. חייבים להיות הרבה כאלה.
phv:> אפשר לבקש הכללה 'כדי' לשמר (בממדים גבוהים יותר) כמה מהתכונות המעניינות של החציון. זה מגביל מאוד את מספר המועמדים (ראו את ההערה לאחר תשובתו של שריקנט בהמשך)
@Whuber:> אז ניתן להכליל את מושג ההזמנה ל- R ^ n להפצות לא-מודרניות (ראה תשובתי למטה).
@kwak: תוכל לפרט מעט? ההגדרה המתמטית הרגילה של סידור של חלל אינה תלויה בכל סוג של חלוקת הסתברות, לכן עליכם לזכור כמה הנחות נוספות.
@Whuber:> אתה קובע: "ניתן להזמין R1 אך R2, R3, ... לא יכול להיות". R2, .., R3 ניתן להזמין במובנים רבים על ידי מיפוי מ- Rn ל- R. דרך אחת כזו היא עומק הטוקי. יש לו מאפיינים חשובים רבים (עמידות מסוימת, לא פרמטרית, בלתי משתנה, ...) אך אלה מתקיימים רק במקרה של התפלגויות לא מודליות. ספר לי אם אתה רוצה פרטים נוספים.
@Kwak: מיפוי רציף מ- R ^ n ל- R אינו יכול לגרום להזמנה כוללת. מבחינה טכנית, טעיתי, מכיוון שכל צירוף בין R ^ n ל- R "יורה" על R ^ n באמצעות ההזמנה ב- R, אך סדר זה לא יהיה תואם לשום מבנה מטרי ב- R ^ n (שהוא חיוני חלק מהתפיסה של "חציון"), וזאת הייתה רוח ההערה שלי.
החוליה המכה ראש מתה, למרבה הצער.האם יש תחליף מתאים?
@Silverfish תודה ששמת לב לכך.למרבה המזל החומר עדיין זמין, אך הועבר מחדש.עדכנתי את הקישור.בעתיד כולנו צריכים להשתדל ללוות קישורים חיצוניים עם מספיק מידע כדי לשחזר אותם אם הם נשברים.
#4
+7
Yaroslav Bulatov
2010-08-25 00:25:15 UTC
view on stackexchange narkive permalink

חציון גיאומטרי הוא הנקודה עם המרחק האקלידי הממוצע הקטן ביותר מהדגימות

גם https://stats.stackexchange.com/questions/113239/why-is-the-geometric-median-called-the-l-1-estimator, https://stats.stackexchange.com/questions/89676/k-מדיניות-נוסחה-לחישוב-החציון
#5
+6
Gary Campbell
2010-08-23 23:34:06 UTC
view on stackexchange narkive permalink

ניתן להרחיב את חציון חצי המרחב של Tukey ל> 2 מימדים באמצעות DEEPLOC, אלגוריתם הנובע מ- Struyf ו- Rousseeuw; ראה כאן לפרטים.

נעשה שימוש באלגוריתם לקירוב נקודת העומק הגדולה ביותר ביעילות; שיטות נאיביות המנסות לקבוע זאת בדרך כלל נוגעות (הגרסה החישובית של "קללת המימד"), כאשר זמן הריצה הנדרש לחישוב נתון גדל באופן אקספוננציאלי עם מספר הממדים של החלל.

#7
  0
user28
2010-08-20 00:53:51 UTC
view on stackexchange narkive permalink

אני לא יודע אם קיימת הגדרה כזו, אבל אנסה להרחיב את ההגדרה הסטנדרטית של החציון ל $ R ^ 2 $. אשתמש בסימון הבא:

$ X $, $ Y $: המשתנים האקראיים המשויכים לשני הממדים.

$ m_x $, $ m_y $: החציונים המתאימים.

$ f (x, y) $: ה- pdf המשותף למשתנים האקראיים שלנו

כדי להרחיב את הגדרת החציון ל- $ R ^ 2 $, אנו בוחרים $ m_x $ ו- $ m_y $ כדי למזער את הדברים הבאים:

$ E (| (x, y) - (m_x, m_y) | $

הבעיה כעת היא שאנחנו צריכים הגדרה למה אנו מתכוונים ל:

$ | (x, y) - (m_x, m_y) | $

האמור לעיל הוא במובן מסוים מדד מרחק ומספר הגדרות אפשריות של מועמדים אפשריות.

מדד Eucliedan

$ | (x, y) - (m_x, m_y) | = \ sqrt {(x -m_x) ^ 2 + (y-m_y) ^ 2} $

חישוב החציון תחת המדד האוקלידי ידרוש חישוב הציפייה של האמור לעיל ביחס לצפיפות המפרק $ f (x, y) $.

מדד Taxicab

$ | (x, y) - (m_x, m_y) | = | x- m_x | + | y-m_y | $

חישוב החציון במקרה של מדד המונית כרוך בחישוב החציון של $ X $ ו- $ Y $ בנפרד מכיוון שהמדד ניתן להפרדה ב- $ x $ ו- $ y $.

משמר:> לא. ההגדרה חייבת להכיל שני מאפיינים חשובים של החציון החד-משתני. א) טרנספורמציה משתנה למונוטונית של הנתונים, ב) חזקה לזיהום על ידי חריגים. לאף אחת מההיקפים שאתה מציע אין אלה. לעומק טוקי יש תכונות אלה.
@kwak מה שאתה אומר הגיוני.
@Srikant:> בדוק את מאמר ה- R&S שצוטט על ידי גארי קמפבל לעיל;). הטוב ביותר,
@kwak כשאתה חושב עוד קצת, מדד המוניות כולל את התכונות שציינת כיוון שהוא בעצם מצמצם לחציון חד-משתני. לא?
@Sri:> לא. לדוגמא: אם מכפילים מראש $ x, y $ בסימטרי $ 2 יחיד \ פעמים 2 $ מטריצה ​​$ A $, הדירוג של $ | (x_i, y_i) - (m_x, m_y) | $ ישתנה . מדד המונית אינו משתנה. החציון הוא משתנה לקבוצה גדולה עוד יותר של טרנספורמציה (זה אינו-מונוטוני). זהה לחוסן, זיהום קטן ושרירותי של מערך הנתונים שלך על ידי תצפית $ x_i $ הממוקם ב- $ + \ infty $ יגרום למיקום של $ m_x $ לעבור ללא גבולות, ומכאן לשנות, שוב, את כל הדירוגים של $ | x_i, y_i) - (m_x, m_y) | $. למדד המונית נקודת פירוט של $ 0 $.
לחציון, שוב, נקודת פירוק של 50 אחוזים (לעומק הטוקי הדו-משתני יש נקודת פירוק של 33 אחוזים (1 / (1 + p)) והוא בלתי חד פעמי.
@kwak אני מבין את הנקודה. לא אמחק את התשובה השגויה הזו לטובת הקוראים העתידיים.
@Srikant:> אין תשובה שגויה לשאלות phv כיוון שאין גם 'תשובות טובות'; תחום מחקר זה עדיין נמצא בפיתוח. פשוט רציתי לציין מדוע זו עדיין בעיה גלויה.


שאלה ותשובה זו תורגמה אוטומטית מהשפה האנגלית.התוכן המקורי זמין ב- stackexchange, ואנו מודים לו על רישיון cc by-sa 2.0 עליו הוא מופץ.
Loading...