שְׁאֵלָה:
האם ערך חלוקת ההסתברות העולה על 1 יכול להיות תקין?
babelproofreader
2010-11-05 06:25:40 UTC
view on stackexchange narkive permalink

בדף ויקיפדיה על מסווגי Bayes נאיביים, יש שורה זו:

$ p (\ mathrm {height} | \ mathrm {male}) = 1.5789 $ (התפלגות הסתברות מעל 1 היא בסדר. השטח שמתחת לעקומת הפעמון שווה ל- 1.)

כיצד ערך $ >1 $ יכול להיות בסדר? חשבתי שכל ערכי ההסתברות באים לידי ביטוי בטווח $ 0 \ leq p \ leq 1 $. יתר על כן, בהתחשב בכך שניתן לקבל ערך כזה, כיצד מתקבל ערך זה בדוגמה המוצגת בדף?

מכיוון שהדבר עשוי לעזור לקוראים העתידיים, אני מציע תרגום גיאומטרי לחלק הכללי של שאלה זו: "כיצד צורה ששטחה אינו עולה על $ 1 $ עשויה להרחיב יותר מ- $ 1 לכל כיוון?" באופן ספציפי, הצורה היא אותו חלק ממישור החצי העליון שתוחם מעל הגרף של ה- PDF והכיוון המדובר הוא אנכי. במסגרת הגיאומטרית (שנבוטה מפרשנות ההסתברות) קל לחשוב על דוגמאות, כמו מלבן בסיס שלא יעלה על $ 1/2 $ וגובה $ 2 $.
כשראיתי שחשבתי שזה יכול להיות גובה פונקציית צפיפות ההסתברות שיכולה להיות כל מספר חיובי כל עוד כשהוא משולב לאורך כל מרווח, האינטגרל קטן או שווה ל 1. ויקיפדיה צריכה לתקן את הערך הזה.
מאמר ויקיפדיה משתמש כעת באותיות קטנות 'p' לצפיפות הסתברות ובאותיות גדולות 'P' להסתברות
אני רק אשאיר את זה כאן לבחור הבא: https://en.wikipedia.org/wiki/Dirac_delta_function
ראוי לציין ש [פונקציית הפצה מצטברת] (https://en.wikipedia.org/wiki/Cumulative_distribution_function) (האינטגרל של קובץ ה- PDF) לא יכולה לעלות על 1. ה- CDF הוא הרבה יותר אינטואיטיבי לשימוש במקרים רבים..
שֵׁשׁ תשובות:
#1
+174
whuber
2010-11-05 07:32:49 UTC
view on stackexchange narkive permalink

דף ויקי זה עושה שימוש לרעה בשפה על ידי התייחסות למספר זה כסיכוי. אתה צודק שזה לא. למעשה מדובר ב הסתברות לכל רגל . באופן ספציפי, הערך של 1.5789 (לגובה 6 מטר) מרמז שההסתברות לגובה בין, למשל, 5.99 ל- 6.01 רגל, קרובה לערך הבא ללא יחידה:

$$ 1.5789 \, [1 / \ text {foot}] \ times (6.01 - 5.99) \, [\ text {feet}] = 0.0316 $$

ערך זה חייב לא יעלה על 1, כידוע. (טווח הגבהים הקטן (0.02 בדוגמה זו) הוא חלק מכריע במנגנון ההסתברות. זהו "ההפרש" של הגובה, אותו אקצר $ d (\ text {גובה}) $.) הסתברויות ליחידת משהו נקרא צפיפות על ידי אנלוגיה לצפיפות אחרות, כמו מסה ליחידת נפח.

Bona fide ההסתברות צפיפות יכולה להיות ערכים גדולים באופן שרירותי, אפילו אינסופי.

Gamma distribution

דוגמה זו מציגה את פונקציית צפיפות ההסתברות להפצת גמא (עם פרמטר צורה של $ 3/2 $ וסולם של $ 1/5 $). מכיוון שרוב הצפיפות נמוכה מ- $ 1 $, העקומה צריכה לעלות יותר מ- $ 1 כדי שיהיה שטח כולל של $ 1 $ כנדרש עבור כל התפלגויות ההסתברות.

Beta distribution

צפיפות זו (להפצת בטא עם פרמטרים $ 1/2, 1/10 $) הופכת לאינסופית ב $ 0 $ וב- $ 1 $. השטח הכולל עדיין סופי (ושווה $ 1 $)!


הערך של 1.5789 / רגל מתקבל בדוגמה זו על ידי הערכה שלגובה של גברים יש התפלגות נורמלית עם ממוצע 5.855 מטר ושונות 3.50e-2 מטרים רבועים. (ניתן למצוא זאת בטבלה קודמת.) השורש הריבועי של שונות זו הוא סטיית התקן, 0.18717 מטר. אנו מבטאים מחדש 6 מטר כמספר ה- SD מהממוצע:

$$ z = (6 - 5.855) / 0.18717 = 0.7747 $$

החלוקה לפי סטיית התקן מייצר יחס

$$ dz = d (\ text {height}) / 0.18717 $$

צפיפות ההסתברות הרגילה, בהגדרה, שווה

$$ \ frac {1} {\ sqrt {2 \ pi}} \ exp (-z ^ 2/2) dz = 0.29544 \ d (\ text {height}) / 0.18717 = 1.5789 \ d (\ text {גובה}). $$

(למעשה, בגדתי: פשוט ביקשתי מ- Excel לחשב את NORMDIST (6, 5.855, 0.18717, FALSE). אבל אז באמת בדקתי את זה מול הנוסחה, רק כדי ודא.) כאשר אנו מפשיטים את ההפרש חיוני $ d (\ text {גובה}) $ מהנוסחה, נותר המספר $ 1.5789 $, כמו חיוכו של חתול צ'שייר. עלינו, הקוראים, להבין כי יש להכפיל את המספר בהפרש גבהים קטן על מנת לייצר הסתברות.

אני מציין שהדוגמה שניתנה באותו דף וויקי משתמשת בצפיפות הסתברות במקום הסתברויות בפועל לצורך חישוב האחורי, ככל הנראה מכיוון שההיבט ליחידה אינו נחוץ למטרות השוואה אם ​​היחידות בהשוואה זהות. הרחבת זאת, אם לא רוצים להניח את הנורמליות אלא במקום זאת יש נתונים אמפיריים שניתן לאמוד מהם צפיפות, למשל. אומדן צפיפות גרעין, האם יהיה זה נכון להשתמש בקריאה בערך נתון על ציר ה- x מקוד זה כקלט לחישוב אחורי במסווג Bayes נאיבי, בהנחה שווה ליחידות?
@babelproofreader אני מאמין שהאחורים הם עדכונים בייסיאניים, דרך נתוני ההדרכה, של קודמים. לא ברור כיצד ניתן לפרש KDE באופן דומה, אך אינני מומחה בתחום זה. שאלתך מעניינת מספיק כדי שתשקול לפרסם אותה בנפרד.
איך קובעים מהו הפרש טוב?מה אם בחרתם במקום זאת בהפרש 1?ההסתברות תהיה גדולה מ -1?מצטער על הבלבול שלי כאן.אתה יכול להסביר?
@fiacobelli אני לא יודע למה אתה מתכוון "דיפרנציאל טוב."יש רק אחד: כאשר "$ x $" שם את המשתנה, אז $ dx $ הוא ההפרש המשויך.השפה בה אתה משתמש מעידה על חוסר היכרות עם ההבדלים;שקול להתייעץ (נגיד) [Wikipedia] (http://en.wikipedia.org/wiki/Differential_%28infinitesimal%29) בנושא.
@whuber בקובץ PDF של חלוקת הגמא, מדוע ההסתברות צריכה לעלות יותר מ $ 1 $ בערך מסוים כדי להפוך את השטח הכולל תחת העקומה $ 1 $?האם השטח הכולל תחת העקומה $ 1 $ לא יכול להעלות את ההסתברות הגבוהה מ- $ 1 בערך מסוים?
@Tree זה נכון.אבל תסתכל על התמונה: היא מראה כמעט את כל ההסתברות ($ 99.98 \% $ ממנה).אתה יכול לערוך קירוב של השטח על ידי משולש מפותל עם בסיס שבין $ 0 $ ל $ 1.5 $.למשולש גובה בפועל נמוך מ- $ 1 יהיה שטח לכל היותר 1/2 $ \ פעמים 1 \ פעמים 1.5 = 0.75 $, וזה לא מספיק: הוא יצטרך לעלות גבוה יותר כדי להכיל שטח של $ 0.9998 $.טיעון זה עובד בקפדנות עם הפצות בטא: מכיוון שלכולם בסיס $ 1 $, * היחיד * עם PDF שאינו עולה על $ 1 $ חייב לכל צפיפותו שווה $ 1 $.
@whuber כיצד חישבת שהשטח לכל היותר $ 1/2 \ פעמים 1 \ פעמים 1.5 = .75 $ כאשר משולש הגובה נמוך מ- $ 1 $?מהי הנוסחה ומה מציינים $ 1/2 $, $ 1 $ ו- $ 1.5 $?
@tree שטח המשולש הוא מחצית התוצר מאורך בסיסו וגובהו.
@user929304 אתה יכול להתייחס לכל ספר לימוד תיאורטי שמושך אותך: זה חלק מיסודות ההסתברות והסטטיסטיקה.המושג הספציפי הזה של הסתברות * צפיפות * נידון יפה בספרי הלימוד הטובים יותר, כמו [פרידמן, פיסאני ופורבס] (http://stats.stackexchange.com/a/48363/919).
#2
+45
Tristan
2010-11-05 06:38:48 UTC
view on stackexchange narkive permalink

זוהי טעות נפוצה מאי הבנת ההבדל בין פונקציות מסת הסתברות, כאשר המשתנה הוא נפרד, לבין פונקציות צפיפות הסתברות, כאשר המשתנה הוא רציף. ראה מהי התפלגות הסתברות:

פונקציות הסתברות רציפות מוגדרות למספר אינסופי של נקודות במרווח רצוף, ההסתברות בנקודה אחת היא תמיד אפס. ההסתברויות נמדדות במרווחים, ולא בנקודות בודדות. כלומר, השטח שמתחת לעקומה בין שתי נקודות מובחנות מגדיר את ההסתברות לאותו מרווח. פירוש הדבר שגובה פונקציית ההסתברות יכול להיות למעשה גדול מאחד. המאפיין שהאינטגרל חייב להיות שווה לאחד שווה ערך לתכונה להפצות דיסקרטיות שסכום כל ההסתברויות חייב להיות שווה לאחד.

ה- NIST הוא בדרך כלל סמכותי, אך כאן הוא לא נכון מבחינה טכנית (ולא דקדוקי לאתחל): אם ההסתברות מוגדרת ב"מספר אינסופי של נקודות "אינה מרמזת על" ההסתברות בנקודה אחת היא תמיד אפס. " כמובן שהם פשוט מתחמקים מהיסח הדעת לגבי אינסוף קרדינליות, אבל הנימוק כאן מטעה. עדיף להם רק להשמיט את המשפט הראשון בציטוט.
בהנחה ש- PDF רציף * רציף *, ההסתברות בנקודה אחת היא, בדרך כלל, * אינסוף * (חשוב * מגבלות * בחשבון).אם ככל הנראה היה "תמיד אפס", * בהגדרה *, שום תוצאה כזו לא תהיה אפשרית.
#3
+23
user83346
2015-07-30 18:46:03 UTC
view on stackexchange narkive permalink

אני חושב שהתפלגות אחידה רציפה על פני מרווח $ [a, b] $ מספקת דוגמה פשוטה לשאלה זו: בהתפלגות אחידה רציפה הצפיפות בכל נקודה זהה בכל נקודה (התפלגות אחידה). יתר על כן, מכיוון שהשטח שמתחת למלבן חייב להיות אחד (כמו שהשטח שמתחת לעקומה הרגילה חייב להיות אחד) ערך הצפיפות חייב להיות $ 1 / (ba) $ מכיוון שכל מלבן עם בסיס $ ba $ ושטח $ 1 $ חייב להיות בגובה $ 1 / (ba) $.

אז הערך של הצפיפות האחידה במרווח $ [0,0.5] $ הוא $ 1 / (0.5-0) = 2 $, במרווח $ [0, 0.1] $ זה $ 10 $, ...

#4
+3
Mark L. Stone
2015-07-11 16:55:29 UTC
view on stackexchange narkive permalink

אני לא יודע אם המאמר בוויקיפדיה נערך לאחר ההודעות הראשוניות בשרשור זה, אך כעת כתוב "שים לב שערך גדול מ- 1 בסדר כאן - זהו צפיפות הסתברות ולא הסתברות, מכיוון שגובה הוא משתנה רציף. ", ולפחות בהקשר מיידי זה, P משמש להסתברות ו- p משמש לצפיפות הסתברות. כן, מאוד מרושל מכיוון שהמאמר משתמש במקומות מסוימים ב- p כדי להתכוון להסתברות, ובמקומות אחרים כצפיפות הסתברות.

חזרה לשאלה המקורית "האם ערך התפלגות הסתברות העולה על 1 יכול להיות בסדר?" לא, אבל ראיתי את זה נעשה (ראו את הפיסקה האחרונה שלי למטה).

כך תוכלו לפרש הסתברות> 1. ראשית כל, שימו לב שאנשים יכולים ועושים מאמץ של 150%, כמו לעתים קרובות אנו שומעים בספורט ולעיתים עובדים https://www.youtube.com/watch?v=br_vSdAOHQQ. אם אתה בטוח שמשהו יקרה, זוהי הסתברות של 1. ניתן לפרש הסתברות של 1.5 מכיוון שאתה בטוח ב -150% שהאירוע יקרה - בערך כמו לתת מאמץ של 150%.

ואם תהיה לך הסתברות> 1, אני מניח שתוכל להיות בעלות הסתברות < 0. ניתן לפרש את ההסתברויות השליליות באופן הבא. ההסתברות של 0.001 פירושה שאין כמעט שום סיכוי שהאירוע יקרה. הסתברות = 0 פירושה "אין סיכוי". סבירות שלילית, כגון -1.2, מתאימה ל"אתה צוחק ".

כשהייתי נער קטן ממש מחוץ לבית הספר לפני שלושה עשורים, הייתי עד לאירוע מדהים יותר מאשר לשבור את מחסום הקול בתעופה, כלומר לשבור את מחסום האחדות בהסתברות. אנליסט בעל תואר דוקטור. בפיזיקה השקיע שנתיים במשרה מלאה (ככל הנראה נותן 150%) בפיתוח מודל לחישוב ההסתברות לזיהוי אובייקט X, שבסופו המודל והניתוח שלו השלימו בהצלחה ביקורת עמיתים על ידי כמה מדענים ומהנדסים המזוהים עם ארצות הברית. מֶמְשָׁלָה. אני לא אגיד לך מה זה אובייקט X, אבל האובייקט X, וההסתברות לזהות אותו, היה ועודנו מעניין מאוד את ממשלת ארה"ב. המודל כלל נוסחה ל- $ P_y $ = Prob (אירוע y קורה). $ P_y $ וכמה מונחים אחרים משולבים כולם בנוסחה הסופית, שהייתה Prob (אובייקט X מזוהה). ואכן, ערכים מחושבים של פרוב (אובייקט X מתגלה) היו בטווח של [0,1], כפי ש"מסורתי "בהסתברות במסורת קולמוגורוב. $ P_y $ בצורתו המקורית תמיד היה ב [0,1] וכלל פונקציות טרנסצנדנטליות "מגוונות גן" שהיו זמינות בפורטן סטנדרטי או בכל מחשבון מדעי. עם זאת, מסיבה שידוע אך ורק לאנליטיקאי ואלוהים (אולי בגלל שהוא ראה את זה נעשה בשיעורי הפיזיקה שלו, אך לא ידע שהראו לו את המקרים המעטים שבהם זה עובד, ולא את הרבים שבהם זה עושה זאת. לא, ושמו של הבחור הזה ושיקול דעתו המדעי / מתמטי לא היו זהים של דיראק), הוא בחר לקחת הרחבה של טיילור בשתי מונחים של $ P_y $ (ולהתעלם מהמונח הנותר), אשר מעתה נקרא $ P_y $. זו הייתה הרחבת טיילור שני המונחים של $ P_y $ שהוכנסה לביטוי הסופי עבור Prob (אובייקט X מזוהה). מה שהוא לא הבין, עד שהצבנתי בפניו, היה ש- $ P_y $ שווה לכ- 1.2 תוך שימוש בערכי המקרה הבסיסיים שלו לכל הפרמטרים. אכן, יתכן ש- $ P_y $ יעלה לכ- 1.8. וכך נשבר מחסום האחדות בהסתברות. אבל הבחור לא ידע שהוא השיג את ההישג החלוצי הזה עד שציינתי בפניו, אחרי שבדיוק ביצע חישובים מהירים על מחשבון מדעי Casio בגודל כרטיס אשראי שמונע בסוללה בחדר ישיבות חשוך (לא יכולתי לעשות את זה עם מחשבון מופעל סולארי). זה יהיה כמו שצ'אק ייגר ייצא לסיבוב של יום ראשון במטוסו, ורק לאחר מכן הודיעו לו שהוא שבר את מחסום הקול.

סיפור מגניב.האם יש לך מידע נוסף על כך, כמו ציטוט?
@ Jay Schyler Raadt זה מתועד בכתובת https://stats.stackexchange.com/questions/4220/can-a-probability-distribution-value-exceeding-1-be-ok/160979?noredirect=1#comment743212_160979, חה חה.
#5
  0
Esmailian
2019-02-08 23:39:51 UTC
view on stackexchange narkive permalink

כאשר משתנה אקראי $ X $ הוא רציף ופונקציית צפיפות ההסתברות שלו היא $ f (x) $ span>, $ f (x) dx $ הוא סבירות, אך $ f (x) $ אינוסבירות ויכולה להיות גדולה מאחת. $ f (\ mbox {height} | \ mbox {male}) המדווח $ אינו מדויק, אך $ f(\ mbox {height} | \ mbox {male}) d \ mbox {height} $ הוא.

במילים אחרות, עבור משתנה אקראי רציף $ X $ , $ P (X \ ב- [x, x+ dx)) = f (x) dx $ , $ P (X \ in [a, b]) = \ int_ {a} ^ {b} f (x) dx $ , ו $ P (X = x) = P (X \ ב [x, x]) = 0 $ .כנ"ל לגבי הסתברויות מותנות.

#6
-1
Michael Lew
2011-01-12 04:56:03 UTC
view on stackexchange narkive permalink

ערך הנקודה בערך פרמטר מסוים של עלילת צפיפות הסתברות יהיה סביר, נכון? אם כן, ניתן לתקן את המשפט פשוט על ידי שינוי P (גובה | זכר) ל- L (גובה | זכר).



שאלה ותשובה זו תורגמה אוטומטית מהשפה האנגלית.התוכן המקורי זמין ב- stackexchange, ואנו מודים לו על רישיון cc by-sa 2.0 עליו הוא מופץ.
Loading...