שאלה זו מגיעה לליבה של מהי סטטיסטיקה וכיצד לבצע ניתוח סטטיסטי טוב. זה מעלה סוגיות רבות, חלקן של טרמינולוגיה ואחרות של תיאוריה. כדי להבהיר אותם, נתחיל לציין את ההקשר הגלום של השאלה ונמשיך משם להגדיר את מונחי המפתח "פרמטר", "מאפיין" ו"אומד. " על כמה חלקי השאלה עונים כשהם עולים בדיון. החלק האחרון המסכם מסכם את רעיונות המפתח.
ציין רווחים
שימוש סטטיסטי נפוץ ב"התפלגות ", כמו ב"התפלגות רגילה עם PDF ביחס ל $ \ exp (- \ frac {1} {2} (x- \ mu) / \ sigma) ^ 2) dx $ " הוא למעשה שימוש לרעה (רציני) באנגלית, כי ברור זו לא תפוצה אחת: מדובר במשפחה שלמה של התפלגויות פרמטמטר לפי הסמלים $ \ mu $ ו- $ \ sigma $ . סימון סטנדרטי לכך הוא "מרחב המדינה" $ \ Omega $ , סט של הפצות. (אני מפשט כאן מעט לצורך ההצגה ואמשיך לפשט ככל שנלך, תוך שמירה קפדנית ככל האפשר.) תפקידה הוא לשרטט את היעדים האפשריים של ההליכים הסטטיסטיים שלנו: כאשר אנו מעריכים משהו, אנו בחירת אלמנט אחד (או לפעמים יותר) מ $ \ Omega $ .
לפעמים רווחים מפורשים של רווחי מדינה, כמו ב $ \ Omega = \ {\ mathcal {N} (\ mu, \ sigma ^ 2) | \ mu \ in \ mathbb { R}, \ sigma \ gt 0 \} $ . בתיאור זה קיימת התכתבות אחת לאחת בין קבוצת הצמרות $ \ {(\ mu, \ sigma) \} $ במישור החצי העליון ו מערך ההפצות בו נשתמש למודל הנתונים שלנו. ערך אחד של פרמטרציה כזו הוא שעכשיו אנו מתייחסים באופן קונקרטי להפצות ב $ \ Omega $ באמצעות זוג מסודר של מספרים אמיתיים.
במקרים אחרים רווחי המדינה אינם פרמטרים במפורש. דוגמה תהיה קבוצת כל ההפצות הרציפות הלא-מודרניות. להלן, אנו נעסוק בשאלה האם בכל מקרה ניתן למצוא פרמטריזציה נאותה במקרים כאלה.
פרמטרים
בדרך כלל, פרמטריזציה של $ \ Omega $ היא תכתובת ( פונקציה מתמטית) מקבוצת משנה של $ \ mathbb {R} ^ d $ (עם $ d $ סופי) עד $ \ Omega $ . כלומר, הוא משתמש בסטים מסודרים של $ d $ -סדנים כדי לתייג את ההפצות. אבל זו לא סתם התכתבויות: צריך "לנהוג היטב". כדי להבין זאת, שקול את מכלול ההפצות הרציפות שקובצי ה- PDF שלהם מצפים סופיים. זה ייחשב באופן נרחב כ"לא פרמטרי "במובן שכל ניסיון" טבעי "לפרמט מערך זה יהיה כרוך ברצף ניכר של מספרים אמיתיים (תוך שימוש בהרחבה בכל בסיס אורתוגונלי). אף על פי כן, מכיוון שלמערכת זו יש קרדינליות $ \ aleph_1 $ , שהיא הקרדינליות של הריאלים, חייבת להתקיים התאמה אחת לאחד בין התפלגויות אלה ל- $ \ mathbb {R} $ . באופן פרדוקסלי, נראה שזה הופך את זה למצב של פרמטר עם פרמטר אמיתי יחיד!
הפרדוקס נפתר על ידי ציון שמספר אמיתי יחיד לא יכולים ליהנות ממערכת יחסים "נחמדה" עם ההפצות: כאשר אנו משנים את ערך המספר הזה, ההתפלגות שהוא תואם חייבת להשתנות במקרים מסוימים בדרכים רדיקליות. אנו שוללים פרמטריזציות "פתולוגיות" כאלו על ידי דרישה ש התפלגויות המתאימות לערכים קרובים של הפרמטרים שלהן חייבות להיות "קרובות" זו לזו. דיון בהגדרות מתאימות של "קרוב" ייקח אותנו רחוק מדי, אבל אני מקווה שתאור זה מספיק בכדי להוכיח שיש הרבה יותר להיות פרמטר מאשר רק לתת שם להפצה מסוימת.
מאפייני הפצות
באמצעות יישום חוזר ונשנה, אנו רגילים לחשוב על "מאפיין" של התפלגות ככמות מובנת כלשהי המופיעה לעיתים קרובות בעבודתנו, כמו ציפייה, שונות וכדומה. הבעיה עם זה כ הגדרה אפשרית של "נכס" היא שהוא מעורפל מדי ולא מספיק כללי. (זה המקום בו הייתה המתמטיקה באמצע המאה ה -18, שם נחשבו "פונקציות" כתהליכים סופיים המיושמים על אובייקטים.) במקום זאת, ההגדרה ההגיונית היחידה של "תכונה" שתעבוד תמיד היא לחשוב על מאפיין להיות מספר שמוקצה באופן ייחודי לכל הפצה ב $ \ Omega $ . זה כולל את הממוצע, השונות, כל רגע, כל שילוב אלגברי של רגעים, כל כמות, והרבה יותר, כולל דברים שאי אפשר אפילו לחשב. עם זאת, הוא לא כולל דברים שלא היו הגיוניים לחלק מהרכיבים של $ \ Omega $ . לדוגמא, אם $ \ Omega $ מורכב מכל הפצות התלמידים, אז הממוצע הוא לא מאפיין חוקי עבור $ \ Omega $ (כי ל $ t_1 $ אין שום משמעות). זה מרשים אותנו שוב כמה הרעיונות שלנו תלויים במה ש $ \ Omega $ באמת מורכב ממנו.
מאפיינים הם לא תמיד פרמטרים
מאפיין יכול להיות פונקציה כל כך מסובכת שהוא לא ישמש כפרמטר. שקול את המקרה של "ההפצה הרגילה". אולי נרצה לדעת האם ממוצע ההתפלגות האמיתי, כאשר הוא מעוגל למספר השלם הקרוב ביותר, הוא שווה. זה נכס. אך הוא לא ישמש כפרמטר.
פרמטרים אינם בהכרח מאפיינים
כאשר פרמטרים והפצות הם בהתאמה אחת לאחת אז ברור שכל פרמטר וכל פונקציה של הפרמטרים לצורך העניין הם מאפיין על פי ההגדרה שלנו. אך לא צריך להיות התאמה בין אחד לאחד בין פרמטרים והפצות: לפעמים יש לתאר כמה התפלגויות על ידי שניים או יותר ערכים שונים של הפרמטרים. לדוגמא, פרמטר מיקום לנקודות בספירה ישתמש באופן טבעי ברוחב ובאורך. זה בסדר - למעט בשני הקטבים התואמים קו רוחב נתון ו כל אורך תקף. ה מיקום (נקודה על הכדור) אכן הוא נכס אך אורכו אינו בהכרח נכס. למרות שישנן התחמקות שונות (רק הכריזו על אורך הקוטב כאפס, למשל), נושא זה מדגיש את ההבדל הרעיוני החשוב בין מאפיין (שקשור באופן ייחודי להפצה) לבין em> פרמטר (שזו דרך לסמן את ההפצה ואולי לא ייחודית).
נהלים סטטיסטיים
יעד האומדן נקרא הערכה . זה רק נכס. הסטטיסטיקאי אינו רשאי לבחור את האומדן: זה פרובינציית הלקוח שלה. כשמישהו מגיע אליך עם מדגם של אוכלוסיה ומבקש ממך לאמוד את אחוזון 99 האוכלוסייה, סביר להניח שתהיה רשלנית לספק במקום זאת אומדן של הממוצע! התפקיד שלך, כסטטיסטיקאי, הוא לזהות הליך טוב לאמידת האומדן שקיבלת. (לפעמים התפקיד שלך הוא לשכנע את הלקוח שלך שהוא בחר אומדן שגוי ליעדים המדעיים שלו, אבל זה נושא אחר ...)
בהגדרה, הליך הוא דרך להוציא מספר מהנתונים. נהלים ניתנים בדרך כלל כנוסחאות המיושמות על הנתונים, כמו "הוסיפו את כולם וחלקו לפי ספירתם." פשוטו כמשמעו כל הליך ניתן לבטא כ"אומדן "של אומדן נתון. למשל, אוכל להכריז שממוצע המדגם (נוסחה המיושמת על הנתונים) מעריך את שונות האוכלוסייה (מאפיין של האוכלוסייה, בהנחה הלקוח שלנו הגביל את מערך האוכלוסיות האפשריות $ \ אומגה $ span> כדי לכלול רק את אלה שיש להם באמת שונות).
אומדנים
לאומדן לא צריך להיות קשר ברור ל estimand. לדוגמא, האם אתה רואה קשר כלשהו בין ממוצע המדגם לשונות האוכלוסייה? גם אני לא. אבל עם זאת, המשמעות של המדגם היא אומדן הגון של שונות האוכלוסייה עבור $ \ Omega $ (כגון סט של כל הפצות פואסון). כאן טמון מפתח אחד להבנת אומדנים: איכויותיהם תלויות במכלול המצבים האפשריים $ \ Omega $ . אבל זה רק חלק מזה.
סטטיסטיקאי מוסמך ירצה לדעת עד כמה ההליך עליו הם ממליצים אכן יבצע. בואו נקרא לפרוצדורה " $ t $ " ונתן לאמידה להיות $ \ theta $ . לא יודעת איזו תפוצה היא האמיתית, היא תשקול את ביצועי ההליך לכל חלוקה אפשרית $ F \ in \ Omega $ . בהינתן $ F $ , וניתנת לכל תוצאה אפשרית $ s $ (כלומר, סט של נתונים), היא תשווה $ t (s) $ (מה שמעריכה ההליך שלה) ל $ \ theta (F) $ (ערך האומדן עבור $ F $ ). באחריות הלקוח שלה לומר לה עד כמה שניהם קרובים או רחוקים זה מזה. (זה נעשה לעתים קרובות עם פונקציית "אובדן"). לאחר מכן היא יכולה לשקול את ה ציפייה של המרחק בין $ t (s) $ ו- $ \ theta (F) $ . זהו ה סיכון בהליך שלה. מכיוון שזה תלוי ב $ F $ , הסיכון הוא פונקציה המוגדרת ב- $ \ Omega $ .
סטטיסטיקאים (טובים) ממליצים על נהלים המבוססים על השוואת סיכונים. למשל, נניח שבכל $ F \ ב \ Omega $ , הסיכון להליך $ t_1 $ הוא פחות או שווה לסיכון של $ t $ . אז אין שום סיבה להשתמש אי פעם ב $ t $ : זה "לא קביל". אחרת זה "קביל".
(סטטיסטיקאי "בייסיאני" תמיד ישווה סיכונים על ידי ממוצע של חלוקה "קודמת" של מצבים אפשריים (המסופק בדרך כלל על ידי הלקוח). סטטיסטיקאי "תדיר" עשוי לעשות זאת, אם כזה קודמת קיימת בצדק, אך מוכנה גם להשוות סיכונים בדרכים אחרות שהבייסאים נמנעים.)
מסקנות
יש לנו זכות לומר כי כל $ t $ שמותר ל $ \ theta $ הוא אומדן של $ \ theta $ . עלינו, למטרות מעשיות (מכיוון שקשה מאוד למצוא הליכים קבילים), לכופף זאת באומרו ש כל $ t $ שיש סיכון קטן למדי (בהשוואה ל $ \ theta $ ) בקרב הליכים מעשיים הוא אומדן של $ \ theta $ . "באופן קביל" ו"מעשי "נקבעים על ידי הלקוח, כמובן:" באופן מתקבל על הדעת "מתייחס לסיכון שלהם ו"מעשי" משקף את העלות (ששולמה בסופו של דבר על ידם) ליישום ההליך.
בבסיס ההגדרה התמציתית הזו עומדים כל הרעיונות שנדונו זה עתה: כדי להבין זאת עלינו יש לזכור $ \ Omega $ (שהוא מודל של הבעיה, התהליך או האוכלוסייה הנחקרים) , אומדן מוגדר (המסופק על ידי הלקוח), פונקציית אובדן ספציפית (המחברת כמותית $ t $ לאומדן וניתנת גם על ידי הלקוח), הרעיון של סיכון (מחושב על ידי הסטטיסטיקאי), הליך כלשהו להשוואת פונקציות סיכון (אחריות הסטטיסטיקאי בהתייעצות עם הלקוח), ותחושה של אילו נהלים ניתן לבצע בפועל (סוגיית "הניתנות לביצוע"), אף על פי שאין מאלה מוזכרים במפורש בהגדרה.