שְׁאֵלָה:
האם מאפיין כמותי כלשהו של האוכלוסייה הוא "פרמטר"?
Jeromy Anglim
2013-07-05 07:03:32 UTC
view on stackexchange narkive permalink

אני מכיר יחסית את ההבחנה בין המונחים סטטיסטיקה לפרמטר. אני רואה נתון כערך המתקבל מהחלת פונקציה על נתוני המדגם. עם זאת, מרבית הדוגמאות לפרמטרים נוגעות להגדרת התפלגות פרמטרית. דוגמה נפוצה היא סטיית הממוצע והסטנדרט כדי לפרמט את ההתפלגות הנורמלית או את המקדמים ושונות השגיאות כדי לפרמט רגרסיה ליניארית.

עם זאת, ישנם ערכים רבים אחרים של התפלגות האוכלוסייה שהם פחות פרוטוטיפיים (למשל. , מינימום, מקסימלי, ריבוע ר 'ברגרסיה מרובה, הכמות .25, חציון, מספר המנבאים עם מקדמים שאינם אפסים, הטיה, מספר המתאמים במטריצת מתאם גדולה מ -3 וכו').

לפיכך, השאלות שלי הן:

  • האם צריך לתייג מאפיין כמותי כלשהו של אוכלוסייה כ"פרמטר "?
  • אם כן, אז מדוע?
  • אם לא, אילו מאפיינים אסור לתייג כפרמטר? מה צריך לתייג אותם? ולמה?

פירוט על בלבול

מאמר ויקיפדיה על אומדנים קובע:

"אומדן" או "אומדן נקודה" הוא נתון (כלומר פונקציה של הנתונים) המשמש להסקת הערך של פרמטר לא ידוע במודל סטטיסטי.

אבל אני יכול להגדיר את הערך הלא ידוע כ -25. כמותית ואני יכול לפתח אומדן לא ידוע זה. כלומר, לא כל המאפיינים הכמותיים של אוכלוסייה הם פרמטרים באותה דרך שאומרים שהממוצע וה- sd הם פרמטרים של התפלגות נורמלית, אך עם זאת לגיטימי לחפש לאמוד כל נכס אוכלוסייה כמותי.

ארבע תשובות:
whuber
2013-07-05 20:26:21 UTC
view on stackexchange narkive permalink

שאלה זו מגיעה לליבה של מהי סטטיסטיקה וכיצד לבצע ניתוח סטטיסטי טוב. זה מעלה סוגיות רבות, חלקן של טרמינולוגיה ואחרות של תיאוריה. כדי להבהיר אותם, נתחיל לציין את ההקשר הגלום של השאלה ונמשיך משם להגדיר את מונחי המפתח "פרמטר", "מאפיין" ו"אומד. " על כמה חלקי השאלה עונים כשהם עולים בדיון. החלק האחרון המסכם מסכם את רעיונות המפתח.

ציין רווחים

שימוש סטטיסטי נפוץ ב"התפלגות ", כמו ב"התפלגות רגילה עם PDF ביחס ל $ \ exp (- \ frac {1} {2} (x- \ mu) / \ sigma) ^ 2) dx $ " הוא למעשה שימוש לרעה (רציני) באנגלית, כי ברור זו לא תפוצה אחת: מדובר במשפחה שלמה של התפלגויות פרמטמטר לפי הסמלים $ \ mu $ ו- $ \ sigma $ . סימון סטנדרטי לכך הוא "מרחב המדינה" $ \ Omega $ , סט של הפצות. (אני מפשט כאן מעט לצורך ההצגה ואמשיך לפשט ככל שנלך, תוך שמירה קפדנית ככל האפשר.) תפקידה הוא לשרטט את היעדים האפשריים של ההליכים הסטטיסטיים שלנו: כאשר אנו מעריכים משהו, אנו בחירת אלמנט אחד (או לפעמים יותר) מ $ \ Omega $ .

לפעמים רווחים מפורשים של רווחי מדינה, כמו ב $ \ Omega = \ {\ mathcal {N} (\ mu, \ sigma ^ 2) | \ mu \ in \ mathbb { R}, \ sigma \ gt 0 \} $ . בתיאור זה קיימת התכתבות אחת לאחת בין קבוצת הצמרות $ \ {(\ mu, \ sigma) \} $ במישור החצי העליון ו מערך ההפצות בו נשתמש למודל הנתונים שלנו. ערך אחד של פרמטרציה כזו הוא שעכשיו אנו מתייחסים באופן קונקרטי להפצות ב $ \ Omega $ באמצעות זוג מסודר של מספרים אמיתיים.

במקרים אחרים רווחי המדינה אינם פרמטרים במפורש. דוגמה תהיה קבוצת כל ההפצות הרציפות הלא-מודרניות. להלן, אנו נעסוק בשאלה האם בכל מקרה ניתן למצוא פרמטריזציה נאותה במקרים כאלה.

פרמטרים

בדרך כלל, פרמטריזציה של $ \ Omega $ היא תכתובת ( פונקציה מתמטית) מקבוצת משנה של $ \ mathbb {R} ^ d $ (עם $ d $ סופי) עד $ \ Omega $ . כלומר, הוא משתמש בסטים מסודרים של $ d $ -סדנים כדי לתייג את ההפצות. אבל זו לא סתם התכתבויות: צריך "לנהוג היטב". כדי להבין זאת, שקול את מכלול ההפצות הרציפות שקובצי ה- PDF שלהם מצפים סופיים. זה ייחשב באופן נרחב כ"לא פרמטרי "במובן שכל ניסיון" טבעי "לפרמט מערך זה יהיה כרוך ברצף ניכר של מספרים אמיתיים (תוך שימוש בהרחבה בכל בסיס אורתוגונלי). אף על פי כן, מכיוון שלמערכת זו יש קרדינליות $ \ aleph_1 $ , שהיא הקרדינליות של הריאלים, חייבת להתקיים התאמה אחת לאחד בין התפלגויות אלה ל- $ \ mathbb {R} $ . באופן פרדוקסלי, נראה שזה הופך את זה למצב של פרמטר עם פרמטר אמיתי יחיד!

הפרדוקס נפתר על ידי ציון שמספר אמיתי יחיד לא יכולים ליהנות ממערכת יחסים "נחמדה" עם ההפצות: כאשר אנו משנים את ערך המספר הזה, ההתפלגות שהוא תואם חייבת להשתנות במקרים מסוימים בדרכים רדיקליות. אנו שוללים פרמטריזציות "פתולוגיות" כאלו על ידי דרישה ש התפלגויות המתאימות לערכים קרובים של הפרמטרים שלהן חייבות להיות "קרובות" זו לזו. דיון בהגדרות מתאימות של "קרוב" ייקח אותנו רחוק מדי, אבל אני מקווה שתאור זה מספיק בכדי להוכיח שיש הרבה יותר להיות פרמטר מאשר רק לתת שם להפצה מסוימת.

מאפייני הפצות

באמצעות יישום חוזר ונשנה, אנו רגילים לחשוב על "מאפיין" של התפלגות ככמות מובנת כלשהי המופיעה לעיתים קרובות בעבודתנו, כמו ציפייה, שונות וכדומה. הבעיה עם זה כ הגדרה אפשרית של "נכס" היא שהוא מעורפל מדי ולא מספיק כללי. (זה המקום בו הייתה המתמטיקה באמצע המאה ה -18, שם נחשבו "פונקציות" כתהליכים סופיים המיושמים על אובייקטים.) במקום זאת, ההגדרה ההגיונית היחידה של "תכונה" שתעבוד תמיד היא לחשוב על מאפיין להיות מספר שמוקצה באופן ייחודי לכל הפצה ב $ \ Omega $ . זה כולל את הממוצע, השונות, כל רגע, כל שילוב אלגברי של רגעים, כל כמות, והרבה יותר, כולל דברים שאי אפשר אפילו לחשב. עם זאת, הוא לא כולל דברים שלא היו הגיוניים לחלק מהרכיבים של $ \ Omega $ . לדוגמא, אם $ \ Omega $ מורכב מכל הפצות התלמידים, אז הממוצע הוא לא מאפיין חוקי עבור $ \ Omega $ (כי ל $ t_1 $ אין שום משמעות). זה מרשים אותנו שוב כמה הרעיונות שלנו תלויים במה ש $ \ Omega $ באמת מורכב ממנו.

מאפיינים הם לא תמיד פרמטרים

מאפיין יכול להיות פונקציה כל כך מסובכת שהוא לא ישמש כפרמטר. שקול את המקרה של "ההפצה הרגילה". אולי נרצה לדעת האם ממוצע ההתפלגות האמיתי, כאשר הוא מעוגל למספר השלם הקרוב ביותר, הוא שווה. זה נכס. אך הוא לא ישמש כפרמטר.

פרמטרים אינם בהכרח מאפיינים

כאשר פרמטרים והפצות הם בהתאמה אחת לאחת אז ברור שכל פרמטר וכל פונקציה של הפרמטרים לצורך העניין הם מאפיין על פי ההגדרה שלנו. אך לא צריך להיות התאמה בין אחד לאחד בין פרמטרים והפצות: לפעמים יש לתאר כמה התפלגויות על ידי שניים או יותר ערכים שונים של הפרמטרים. לדוגמא, פרמטר מיקום לנקודות בספירה ישתמש באופן טבעי ברוחב ובאורך. זה בסדר - למעט בשני הקטבים התואמים קו רוחב נתון ו כל אורך תקף. ה מיקום (נקודה על הכדור) אכן הוא נכס אך אורכו אינו בהכרח נכס. למרות שישנן התחמקות שונות (רק הכריזו על אורך הקוטב כאפס, למשל), נושא זה מדגיש את ההבדל הרעיוני החשוב בין מאפיין (שקשור באופן ייחודי להפצה) לבין em> פרמטר (שזו דרך לסמן את ההפצה ואולי לא ייחודית).

נהלים סטטיסטיים

יעד האומדן נקרא הערכה . זה רק נכס. הסטטיסטיקאי אינו רשאי לבחור את האומדן: זה פרובינציית הלקוח שלה. כשמישהו מגיע אליך עם מדגם של אוכלוסיה ומבקש ממך לאמוד את אחוזון 99 האוכלוסייה, סביר להניח שתהיה רשלנית לספק במקום זאת אומדן של הממוצע! התפקיד שלך, כסטטיסטיקאי, הוא לזהות הליך טוב לאמידת האומדן שקיבלת. (לפעמים התפקיד שלך הוא לשכנע את הלקוח שלך שהוא בחר אומדן שגוי ליעדים המדעיים שלו, אבל זה נושא אחר ...)

בהגדרה, הליך הוא דרך להוציא מספר מהנתונים. נהלים ניתנים בדרך כלל כנוסחאות המיושמות על הנתונים, כמו "הוסיפו את כולם וחלקו לפי ספירתם." פשוטו כמשמעו כל הליך ניתן לבטא כ"אומדן "של אומדן נתון. למשל, אוכל להכריז שממוצע המדגם (נוסחה המיושמת על הנתונים) מעריך את שונות האוכלוסייה (מאפיין של האוכלוסייה, בהנחה הלקוח שלנו הגביל את מערך האוכלוסיות האפשריות $ \ אומגה $ span> כדי לכלול רק את אלה שיש להם באמת שונות).

אומדנים

לאומדן לא צריך להיות קשר ברור ל estimand. לדוגמא, האם אתה רואה קשר כלשהו בין ממוצע המדגם לשונות האוכלוסייה? גם אני לא. אבל עם זאת, המשמעות של המדגם היא אומדן הגון של שונות האוכלוסייה עבור $ \ Omega $ (כגון סט של כל הפצות פואסון). כאן טמון מפתח אחד להבנת אומדנים: איכויותיהם תלויות במכלול המצבים האפשריים $ \ Omega $ . אבל זה רק חלק מזה.

סטטיסטיקאי מוסמך ירצה לדעת עד כמה ההליך עליו הם ממליצים אכן יבצע. בואו נקרא לפרוצדורה " $ t $ " ונתן לאמידה להיות $ \ theta $ . לא יודעת איזו תפוצה היא האמיתית, היא תשקול את ביצועי ההליך לכל חלוקה אפשרית $ F \ in \ Omega $ . בהינתן $ F $ , וניתנת לכל תוצאה אפשרית $ s $ (כלומר, סט של נתונים), היא תשווה $ t (s) $ (מה שמעריכה ההליך שלה) ל $ \ theta (F) $ (ערך האומדן עבור $ F $ ). באחריות הלקוח שלה לומר לה עד כמה שניהם קרובים או רחוקים זה מזה. (זה נעשה לעתים קרובות עם פונקציית "אובדן"). לאחר מכן היא יכולה לשקול את ה ציפייה של המרחק בין $ t (s) $ ו- $ \ theta (F) $ . זהו ה סיכון בהליך שלה. מכיוון שזה תלוי ב $ F $ , הסיכון הוא פונקציה המוגדרת ב- $ \ Omega $ .

סטטיסטיקאים (טובים) ממליצים על נהלים המבוססים על השוואת סיכונים. למשל, נניח שבכל $ F \ ב \ Omega $ , הסיכון להליך $ t_1 $ הוא פחות או שווה לסיכון של $ t $ . אז אין שום סיבה להשתמש אי פעם ב $ t $ : זה "לא קביל". אחרת זה "קביל".

(סטטיסטיקאי "בייסיאני" תמיד ישווה סיכונים על ידי ממוצע של חלוקה "קודמת" של מצבים אפשריים (המסופק בדרך כלל על ידי הלקוח). סטטיסטיקאי "תדיר" עשוי לעשות זאת, אם כזה קודמת קיימת בצדק, אך מוכנה גם להשוות סיכונים בדרכים אחרות שהבייסאים נמנעים.)

מסקנות

יש לנו זכות לומר כי כל $ t $ שמותר ל $ \ theta $ הוא אומדן של $ \ theta $ . עלינו, למטרות מעשיות (מכיוון שקשה מאוד למצוא הליכים קבילים), לכופף זאת באומרו ש כל $ t $ שיש סיכון קטן למדי (בהשוואה ל $ \ theta $ ) בקרב הליכים מעשיים הוא אומדן של $ \ theta $ . "באופן קביל" ו"מעשי "נקבעים על ידי הלקוח, כמובן:" באופן מתקבל על הדעת "מתייחס לסיכון שלהם ו"מעשי" משקף את העלות (ששולמה בסופו של דבר על ידם) ליישום ההליך.

בבסיס ההגדרה התמציתית הזו עומדים כל הרעיונות שנדונו זה עתה: כדי להבין זאת עלינו יש לזכור $ \ Omega $ (שהוא מודל של הבעיה, התהליך או האוכלוסייה הנחקרים) , אומדן מוגדר (המסופק על ידי הלקוח), פונקציית אובדן ספציפית (המחברת כמותית $ t $ לאומדן וניתנת גם על ידי הלקוח), הרעיון של סיכון (מחושב על ידי הסטטיסטיקאי), הליך כלשהו להשוואת פונקציות סיכון (אחריות הסטטיסטיקאי בהתייעצות עם הלקוח), ותחושה של אילו נהלים ניתן לבצע בפועל (סוגיית "הניתנות לביצוע"), אף על פי שאין מאלה מוזכרים במפורש בהגדרה.

@Nick Cox, בתשובתו, מעלה כמה נקודות מצוינות שהולכות (לפי פרשנותי) "מה אנחנו עושים כשאנחנו יודעים שכל מודל $ \ Omega $ וכל פונקציית הפסד שאנחנו מציינים הולכים להיות קצת לא מדויקים או לא מספיקים? " התשובה לכך תביא אותנו לכיוון אחר; כל מה שאני רוצה לומר כאן הוא שהמסגרת שהצבתי - שהיא הקלאסית שתיקי הגיב אליה - נותנת לנו בסיס טוב לחשיבה על שאלות כל כך רחבות יותר של ניתוח נתונים. לכל הפחות, זה מבהיר את ההנחות הגלויות שנכנסות למונחים סטנדרטיים כמו "אומדן".
Nick Cox
2013-07-05 13:09:28 UTC
view on stackexchange narkive permalink

כמו בשאלות רבות בנושא הגדרות, התשובות צריכות לשים עין הן על העקרונות הבסיסיים והן על דרכי השימוש במונחים בפועל, שלעתים קרובות יכולים להיות לפחות רופפים או לא עקביים, אפילו על ידי אנשים שמודעים היטב. וחשוב מכך, משתנה מקהילה לקהילה.

עקרון מקובל אחד הוא שסטטיסטיקה היא תכונה של מדגם, וקבוע ידוע, ופרמטר הוא המאפיין המקביל של האוכלוסייה, ולכן קבוע לא ידוע. יש להבין את המילה "מקביל" כאלסטית למדי כאן. אגב, בדיוק הבחנה זו ובדיוק מינוח זה הם בני פחות ממאה שנה, לאחר שהוצגו על ידי ר.א. פישר.

אבל

  1. מערך מדגם ואוכלוסייה אינו מאפיין את כל הבעיות שלנו. סדרות זמן הן סוג גדול של דוגמאות בהן הרעיון הוא דווקא תהליך ייצור בסיסי, ומשהו כזה הוא ללא ספק הרעיון העמוק והכללי יותר.

  2. ישנם הגדרות בהן הפרמטרים משתנים. שוב, ניתוח סדרות הזמן מספק דוגמאות.

  3. לנקודה העיקרית כאן, אנחנו לא חושבים בפועל על כל המאפיינים של אוכלוסייה או תהליך כפרמטרים. אם הליך כלשהו מניח מודל של התפלגות נורמלית, אז המינימום והמקסימום אינם פרמטרים. (ואכן, על פי המודל, המינימום והמקסימום הם מספרים שליליים וחיוביים באופן שרירותי באופן כלשהו, ​​לא שזה צריך להדאיג אותנו.)

הייתי אומר שבשביל ברגע שוויקיפדיה מכוונת לכיוון הנכון כאן, ושני הפרקטיקה והעקרון מכובדים אם נאמר ש פרמטר הוא כל מה שאנחנו מעריכים .

זה עוזר גם לשאלות אחרות שגרמו לתמיהה. לדוגמא, אם נחשב ממוצע גזוז של 25%, מה אנו מעריכים? תשובה סבירה היא המאפיין המקביל של האוכלוסייה, אשר למעשה מוגדר על ידי שיטת האמידה. מונח אחד הוא שלאומד יש אומדן, ולא משנה מה הוא מעריך. החל מאיזה רעיון אפלטוני של נכס "שם בחוץ" (נניח אופן ההפצה) וחושב כיצד להעריך את זה סביר, כמו גם לחשוב על מתכונים טובים לניתוח נתונים ולחשיבה מה הם מרמזים כשמראים אותם כמסקנה.

לעתים קרובות במתמטיקה יישומית או במדע, יש היבט כפול לפרמטר. לעתים קרובות אנו חושבים על זה כעל משהו אמיתי שם שאנו מגלים, אך נכון גם שזה משהו המוגדר על ידי המודל שלנו של התהליך, כך שאין לו שום משמעות מחוץ להקשר של המודל.

שתי נקודות שונות לגמרי:

  1. מדענים רבים משתמשים במילה "פרמטר" באופן בו הסטטיסטיקאים משתמשים במשתנה. יש לי פרסונה של מדען וגם סטטיסטית, והייתי אומר שזה מצער. משתנים ומאפיינים הם מילים טובות יותר.

  2. נהוג להפליא בשימוש באנגלית רחבה שפרמטר נחשב כגבולות או גבולות, שעשויים לנבוע מבלבול מקורי כלשהו בין "פרמטר" ל"היקפי ".

הערה על נקודת המבט וההערכה

העמדה הקלאסית היא שאנחנו מזהים פרמטר מראש ואז להחליט כיצד לאמוד זאת, וזה נותר נוהג ברוב, אך היפוך התהליך אינו מופרך ויכול להועיל לכמה בעיות. אני מכנה זאת נקודת המבט המוערכת. זה נמצא בספרות לפחות 50 שנה. טוקי (1962, עמ '60) דחק כי

"עלינו לתת תשומת לב רבה עוד יותר להתחיל עם אומדן ולגלות מהו אומדן סביר, ולגלות מה זה סביר לחשוב על האומדן כמעריך. "

נקודת מבט דומה פותחה באופן רשמי בפירוט ועומק ניכר על ידי ביקל ולהמן (1975) ובאופן לא רשמי ובבהירות ניכרת על ידי מוסטלר וטוקי (1977, עמ '32-34).

קיימת גם גרסה אלמנטרית. שימוש (למשל) ממוצע מדגם או גיאומטרי לדוגמא כדי לאמוד את פרמטר האוכלוסייה המתאים, הגיוני ללא קשר אם החלוקה הבסיסית היא סימטרית, ואותו מוניטין טוב ניתן להרחיב (למשל) לאמצעי גזום מדגמים, אשר נחשבים לאומדים של עמיתיהם לאוכלוסייה.

Bickel, P.J. ו- E.L. להמן. 1975. סטטיסטיקה תיאורית עבור מודלים שאינם פרמטריים. II. מיקום. Annals of Statistics 3: 1045-1069.

Mosteller, F. ו- J.W. טוקי. 1977. ניתוח נתונים ורגרסיה. רידינג, תואר שני: אדיסון-ווסלי.

Tukey, J.W. 1962. העתיד של ניתוח הנתונים. Annals of Statistics Mathematical 33: 1-67.

הרבה מזה מסתתרים עם הספרות הסטטיסטית הסטנדרטית, במיוחד הגדרת הפרמטר שלך. נראה שהוא מבלבל את התהליכים של * מציאת הליך לחישוב אומדן * וזיהוי מה אמור להעריך. * האחרון - בחירת אומד - הוא עניין שקובע המדען או החוקר. הראשון נבחר על ידי הסטטיסטיקאי להיות בעל תכונות רצויות בין כל ההליכים האפשריים לאמידת האומדן. יש גם בעיות טכניות; די לומר שפרמטר * מוגבל יותר מאומדן שרירותי.
ארחיב את תשובתי כדי להתייחס לכך.
אני מסכים עם טוקי אם כי עלול לחשוב מתוך תשובתי לשרשור זה שאני אחד הסטטיסטיקאים ה"מעוצבים "שהוא מאתגר. הבעיה היא שהוצאת את הציטוט שלו מהקשרו. טוקי מתייחס באופן ספציפי לשאלה כיצד להעריך את תכונות ההליכים "כאשר ההשערות שעליהן הם מפותחים בדרך כלל אינן מתקיימות." זה לא משנה בשום אופן את ההגדרות * של דברים כמו פרמטרים, אומדנים ואומדנים. בפרט, פרמטר עדיין הוא * לא * "כל מה שאנחנו מעריכים."
חומר רב למחשבה כאן. כתשובה מהירה: התשובה שלי לא נועדה לרמוז שאנחנו נמצאים באולם הליברטי לאן שהכל הולך. את ההקשר של הציטוט של טוקי אני מברך, שכן נקודת המבט שלי היא שדווקא _ההשערות המקובלות אינן מתקיימות ככל שכל המודלים הם קירובים שאינם מתאימים בדיוק לנתונים. עד כה מלהינשך, סעיף זה מדגיש את ערך נקודת המבט השונה. באופן כללי, אני לא מנסה, או כשיר לייצר הגדרות פורמליות יותר מופשטות ומעודנות יותר מתמטית.
gung - Reinstate Monica
2013-07-05 07:33:54 UTC
view on stackexchange narkive permalink

אני נוטה לחשוב על פרמטרים באנלוגיה על ידי חשיבה על ההתפלגות הנורמלית:
$$ \ text {pdf} = \ frac {1} {\ sqrt {2 \ pi \ sigma ^ 2}} e ^ {- \ frac {1} {2} \ frac {(x_i- \ mu) ^ 2} {\ sigma ^ 2}} $$ מה שחשוב להכיר בקשר לפונקציה זו זה מכוער כמו זהו, אני די יודע מה רוב החלקים. לדוגמא, אני יודע מה המספרים $ 1 $ ו- $ 2 $, מה זה $ \ pi $ ($ \ כ 3.1415926 $) ומה זה $ e $ ($ \ כ 2.718281828 $); אני יודע מה זה אומר לריבוע משהו או לקחת את השורש הריבועי של משהו - אני בעצם יודע הכל. יתר על כן, אם הייתי רוצה לדעת את גובה הפונקציה בערך ספציפי $ X $, $ x_i $, ברור שאני יודע ש ערך זה גם כן. במילים אחרות, ברגע שאני יודע שהמשוואה הנ"ל היא מה שאני צריך לעבוד איתו, אני יודע כל מה שיש לדעת, ברגע שאני לומד את הערכים עבור $ \ boldsymbol \ mu $ ו- $ \ boldsymbol \ sigma ^ 2 $ . ערכים אלה הם ה פרמטרים . באופן ספציפי הם אינם ידועים קבועים השולטים בהתנהגות ההפצה. כך, למשל, אם הייתי רוצה לדעת את הערך $ X $ שמתאים ל- $ 25 ^ {\ text {th}} \% $, אני יכול לקבוע את זה (או כל דבר אחר לגבי ההפצה הזו), אחרי לדעת $ \ mu $ ו- $ \ sigma ^ 2 $ (אבל לא להפך). הרשאות המשוואה הנ"ל $ \ mu $ ו- $ \ sigma ^ 2 $ באופן שהוא לא עושה שום ערך אחר.

כמו כן, אם הייתי עובד עם מודל רגרסיה מרובה של OLS, כאשר ההנחה היא שתהליך יצירת הנתונים הוא:
$$ Y = \ beta_0 + \ beta_1X_1 + \ beta_2X_2 + \ varepsilon \\ \ text {where} \ varepsilon \ sim \ mathcal N (0, \ sigma ^ 2) $$ ואז, ברגע שאני לומד (בפועל, אומדן ) הערכים של $ \ boldsymbol \ beta_0 $, $ \ boldsymbol \ beta_1 $, $ \ boldsymbol \ beta_2 $, ו- $ \ boldsymbol \ sigma ^ 2 $, אני יודע כל מה שיש לדעת . כל דבר אחר, כגון $ 25 ^ {\ text {th}} \% $ של ההתפלגות המותנית של $ Y $ כאשר $ X = x_i $, אני יכול לחשב על סמך הידע שלי ב- $ \ beta_0 $, $ \ beta_1 $ , $ \ beta_2 $ ו- $ \ sigma ^ 2 $. מודל הרגרסיה המרובה מעל הרשאות $ \ beta_0 $, $ \ beta_1 $, $ \ beta_2 $ ו- $ \ sigma ^ 2 $ באופן שאינו עושה שום ערך אחר.

(כל זה מניח, כמובן, שהמודל שלי של התפלגות האוכלוסייה או תהליך ייצור הנתונים הוא נכון. כמו תמיד, כדאי לזכור ש"כל המודלים טועים, אבל חלקם שימושי "- ג'ורג 'בוקס.)

כדי לענות על שאלותיך בצורה מפורשת יותר, הייתי אומר:

  • לא, כל כמות ישנה כראוי לא אמורה להיות יתויג כ"פרמטר ".
  • n/a
  • המאפיינים שיש לתייג כ"פרמטר "תלויים במפרט המודל. אין לי שם מיוחד למאפיינים כמותיים אחרים, אבל אני חושב שזה יהיה בסדר לקרוא להם מאפיינים או מאפיינים או השלכות , וכו '
תודה. אך באיזה מינוח אתה משתמש כדי לתאר את כל אותם ערכי אוכלוסייה שניתן להפיק ממודל פרמטרי אך אינם נמצאים במכלול הפרמטרים הנוחים לייצוג מודל זה? לחלופין, יכול להיות מקרה שבו אינך מכיר את מודל האוכלוסייה ולא אכפת לך במיוחד, אך מעוניין בהיבט לא סטנדרטי מסוים של מודל האוכלוסייה.
אין לי שום שם מיוחד שיש להחיל בדרך כלל, אבל יש שמות לערכים מסוימים. למשל, אם אתה לא באמת מאמין שהאוכלוסייה שלך קרובה מספיק לכל תפוצה שנחקרה היטב, תוכל לנסות לאפיין אותה לפי חציון, רבעונים, נקודות ציר וכו '.
נושא עדין לגבי פרמטרים נחשף בטריק מחשב ישן: קח את הייצוגים הבינאריים (או העשרוניים) של $ \ beta_0, \ beta_1, \ beta_2, $ ו- $ \ sigma $ ושזור אותם (לפי קבוצות של ארבע) כדי ליצור מספר בינארי חדש (או עשרוני) $ \ theta $. ברור שהתהליך הפיך: אתה יכול לקרוא $ \ beta_0 $ על הספרות הראשונה, החמישית, התשיעית, ..., וכו 'של $ \ theta $, וכן הלאה. לכן "ברגע ש [אתה] למד את הערך של $ \ theta $, [אתה] יודע כל מה שיש לדעת." אבל $ \ theta $ הוא * לא * פרמטר חוקי בשל הדרך המעוותת בה הוא מתייג הפצות אפשריות.
Jeromy Anglim
2013-07-06 20:08:01 UTC
view on stackexchange narkive permalink

היו כמה תשובות נהדרות לשאלה זו, פשוט חשבתי לסכם התייחסות מעניינת המספקת דיון קפדני למדי באומדנים.

המעבדות הווירטואליות דף על אומדנים מגדיר

  • a סטטיסטיקה כ"פונקציה הניתנת לצפייה של משתנה התוצאה ".
  • " ב חוש טכני, פרמטר $ \ theta $ הוא פונקציה של התפלגות ה- X "

המושג פונקציה של התפלגות הוא רעיון כללי מאוד. לפיכך, ניתן היה לראות בכל דוגמה שהובאה לעיל כפונקציה של התפלגות מסוימת.

  • כל כמות, כולל הכמות המינימלית, החציונית, ה -25, המקסימום יכולה להיות פונקציה של התפלגות.
  • עקמת היא פונקציה של התפלגות. אם התפלגות האוכלוסייה הזו היא נורמלית, אז הם יהיו אפסים, אך זה לא מפסיק את חישוב הערכים הללו.
  • ספירת מספר המתאמים גדול מערך מסוים היא פונקציה של מטריצת הקווריאנטיות שבה תור הוא פונקציה של התפלגות רב-משתנית.
  • ריבוע R הוא פונקציה של ההתפלגות.
אחת הסיבות שהצעתי תשובה מורכבת יותר היא שהגדרה זו של "פרמטר" אינה מספיק טובה. לדוגמא נגדית אחת ראה [הערתי לתשובת @gung's] (http://stats.stackexchange.com/questions/63386/is-any-quantitative-property-of-the-population-a-parameter#comment122123_63387). באופן אינטואיטיבי, קבוצה של התפלגויות * פרמטריות * יוצרת סעפת טופולוגית סופית-ממדית-עם-גבול; פרמטר צריך להיות פונקציה * רציפה * המוגדרת על סעפת. זו לא רק דרישה טכנית מכיוון שהיא מתייחסת להפצות הדגימה של הערכות.


שאלה ותשובה זו תורגמה אוטומטית מהשפה האנגלית.התוכן המקורי זמין ב- stackexchange, ואנו מודים לו על רישיון cc by-sa 3.0 עליו הוא מופץ.
Loading...