שְׁאֵלָה:
מה ההבדל בין כריית נתונים לניתוח סטטיסטי?
Brett
2010-08-11 10:31:51 UTC
view on stackexchange narkive permalink

מה ההבדל בין כריית נתונים לניתוח סטטיסטי?

עבור רקע כלשהו, ​​ההשכלה הסטטיסטית שלי הייתה, לדעתי, די מסורתית. שאלה ספציפית מוצגת, מתוכנן מחקר ונתונים נאספים ומנותחים על מנת להציע תובנה מסוימת בשאלה זו. כתוצאה מכך, תמיד הייתי סקפטי לגבי מה שחשבתי כ"החלפת נתונים ", כלומר חיפשתי דפוסים במערך נתונים גדול והשתמשתי בדפוסים אלה כדי להסיק מסקנות. אני נוטה לשייך את האחרונים לכריית נתונים ותמיד שקלתי את זה מעט עקרוני (יחד עם דברים כמו שגרות בחירת משתנים אלגוריתמיים).

עם זאת, יש ספרות גדולה וגדלה בנושא כריית נתונים. לעתים קרובות, אני רואה את התווית הזו מתייחסת לטכניקות ספציפיות כמו אשכולות, סיווג מבוסס עצים וכו '. עם זאת, לפחות מנקודת המבט שלי, ניתן "לשחרר" טכניקות אלה במערכת נתונים או להשתמש בה בצורה מובנית לטיפול ב שְׁאֵלָה. הייתי קורא לכריית הנתונים לשעבר ולניתוח הסטטיסטי האחרון.

אני עובד במנהל אקדמי והתבקשתי לעשות קצת "כריית נתונים" כדי לזהות נושאים והזדמנויות. בהתאם לרקע שלי, השאלות הראשונות שלי היו: מה אתה רוצה ללמוד ומה הדברים שאתה חושב שתורמים לנושא? מתגובתם היה ברור כי אני והאדם ששואל את השאלה היו בעלי רעיונות שונים לגבי אופיו וערכו של כריית נתונים.

לְשַׁכְפֵּל? http://stats.stackexchange.com/questions/6/the-two-cultures-statistics-vs-machine-learning
אם זה כפול אני יכול לנחש שכריית נתונים ולמידת מכונה זה אותו דבר!
@George Dontas כן, הגעתי לכאן מקישור בתגובות אם השאלה האחרת בתקווה לראות שיש הבדל בין ML לכריית נתונים.
שֵׁשׁ תשובות:
#1
+20
ars
2010-08-11 15:36:16 UTC
view on stackexchange narkive permalink

ג'רום פרידמן כתב מאמר לפני זמן מה: כריית נתונים וסטטיסטיקה: מה הקשר? , שלדעתי יהיה לך מעניין.

כריית נתונים הייתה בעיקר עניין מסחרי ומונעת על ידי צרכים עסקיים (יחד עם ה"צורך "של ספקים למכור מערכות תוכנה וחומרה לעסקים). דבר אחד שציין פרידמן היה שכל ה"תכונות "שהופקו מקורן מחוץ לסטטיסטיקה - מאלגוריתמים ושיטות כמו רשתות עצביות וכלה בניתוח נתונים מונע ממשק משתמש - ואף אחד מההיצע הסטטיסטי המסורתי לא נראה חלק מאף אחת מהמערכות הללו. (רגרסיה, בדיקת השערה וכו '). "במידה רבה התעלמו ממתודולוגיית הליבה שלנו." הוא נמכר גם כמשתמש המונע על פי מה שציינת: הנה הנתונים שלי, הנה "השאלה העסקית" שלי, תן ​​לי תשובה.

אני חושב שפרידמן ניסה להתגרות. הוא לא חשב שלכריית נתונים יש תשתית אינטלקטואלית רצינית בכל הנוגע למתודולוגיה, אלא שהדבר ישתנה וסטטיסטיקאים צריכים למלא חלק במקום להתעלם ממנו.

הרושם שלי הוא שזה קרה פחות או יותר. הקווים טשטשו. סטטיסטיקאים מפרסמים כעת בכתבי עת של כריית נתונים. לכורי נתונים בימינו נראה שיש הכשרה סטטיסטית כלשהי. בעוד שחבילות כריית נתונים עדיין אינן מקפידות על מודלים ליניאריים כלליים, רגרסיה לוגיסטית ידועה בקרב האנליסטים - בנוסף לאשכולות ורשתות עצביות. תכנון ניסיוני אופטימלי לא יכול להיות חלק מליבת כריית הנתונים, אך ניתן לשדל את התוכנה כדי לירוק ערכי p. התקדמות!

זהו מאמר נהדר והוא תואם את נקודת המבט שלי על מה זה כריית נתונים וכיצד הוא שונה מהסטטיסטיקה. המלכוד הוא, שזה משנת 1997! שים לב לכתב אישום בעיתון או בהמלצתך, אך עד כמה שמרתי על כריית הנתונים. זה נשמע כאילו אני צריך לתפוס ספר עדכני על כריית נתונים כדי להתעדכן.
אה, שמרתי על התאריך בכוונה כי חשבתי שזה משעשע לשים לב לטווח הזמן. :) ספריהם של מייקל ברי וגורדון לינוף די טובים וימשכו את הסטטיסטיקאים (על החשיפה הרחבה יותר מאשר לימוד טכניקות סטטיסטיות). אם אתה רוצה תחושה של הצד המטושטש, "הארגוני" של התחום הזה, גלישה באחד הספרים על מוצר ספק, כמו ה- Enterprise Miner של SAS או Clementine של SPSS, עשויה לעזור. לא הייתי ממליץ לקנות אותם אלא אם כן אתה הולך לעבוד עם המוצר עצמו.
#2
+10
Shane
2010-08-11 20:20:39 UTC
view on stackexchange narkive permalink

ההבדל בין סטטיסטיקה לכריית נתונים הוא במידה רבה הבדל היסטורי, מכיוון שהם מגיעים ממסורות שונות: סטטיסטיקה ומדעי המחשב. כריית נתונים צמחה במקביל מהעבודה בתחום הבינה המלאכותית והסטטיסטיקה.

סעיף 1.4 מתוך Witten & Frank מסכם את נקודת המבט שלי אז אני אביא את זה בהרחבה :

מה ההבדל בין למידת מכונה לסטטיסטיקה? ציניקנים, המתבוננים בצורה מטורפת על התפוצצות העניין המסחרי (וההייפ) בתחום זה, משווים כריית נתונים לסטטיסטיקה בתוספת שיווק. למען האמת, לא צריך לחפש קו הפרדה בין למידת מכונה לסטטיסטיקה מכיוון שיש רצף - ורב ממדי בזה - של טכניקות ניתוח נתונים. חלקן נובעות מהמיומנויות הנלמדות בקורסים סטטיסטיים סטנדרטיים, ואחרות קשורות קשר הדוק יותר עם סוג הלמידה המכונה שנוצר ממדעי המחשב. מבחינה היסטורית, לשני הצדדים היו מסורות שונות למדי. אם נאלץ להצביע על הבדל דגש יחיד, יכול להיות שהסטטיסטיקה עסקה יותר בבדיקת השערות, ואילו למידת מכונה עסקה יותר בגיבוש תהליך ההכללה כחיפוש באמצעות השערות אפשריות ...

בעבר התפתחו במקביל שיטות דומות מאוד בלימוד מכונה וסטטיסטיקה ...

אך כעת שתי הפרספקטיבות התכנסו.

NB1 IMO, כריית נתונים ולמידת מכונה הם מאוד מונחים קשורים זה לזה. במובן אחד, נעשה שימוש בטכניקות של למידת מכונה בכריית נתונים. אני רואה באופן קבוע מונחים אלה להחלפה, ובמידה שהם שונים, הם בדרך כלל הולכים יחד. הייתי מציע לעיין ב נייר "שתי התרבויות", כמו גם בשאר הנושאים מהשאלה המקורית שלי.

N.B.2 למונח "כריית נתונים" יכול להיות קונוטציה שלילית כאשר משתמשים בו באופן קולנועי, כלומר מתיר לאלגוריתם כלשהו להשתחרר על הנתונים ללא כל הבנה רעיונית. התחושה היא שכריית נתונים תוביל לתוצאות מזויפות ולהתאמה יתרה. בדרך כלל אני נמנע משימוש במונח כאשר אני מדבר עם אנשים שאינם מומחים כתוצאה מכך, ובמקום זאת אני משתמש בלימוד מכונה או למידה סטטיסטית כמילה נרדפת.

אודות N.B.2 - אני חושב שאתה צודק בדיוק לגבי הקונוטציה של כריית נתונים ולא ביצעתי את החיבור ללימוד מכונה. האימונים שלי תמיד הדגישו את הבעיות של התאמה יתרה, סליחות ומיצוי מקרים וככאלה הייתי סקפטי כלפי DM - ועדיין, אולי עד שמישהו באמת אומר לי מה הם עושים ואיך. תודה.
הוויכוח היחיד שלי בהבחנה בין ML / DM יהיה שלדעתי DM הוא רחב יותר. לדוגמה, OLAP וכלים נלווים כוללים טכנולוגיות כרייה. אך אלה באים מהצד של מסד הנתונים של מדעי המחשב ולא מלימוד מכונה. קשה להתעלם מתפקיד המסחר בעיצוב ה"משמעות "של כריית נתונים - הוא מכניס אלמנטים של מדעי הניהול, מחקר תפעולי, למידת מכונה וסטטיסטיקה כנדרש. זה גם עושה רושם של משהו קלוש, אבל זה בדרך כלל בעיה עבור טהרנים ולא מתרגלים.
@ars: אני מסכים. ניסיתי לומר את זה קצת באמירה "נעשה שימוש בטכניקות של למידת מכונה בכריית נתונים" (כלומר כריית נתונים היא סופר-סט). גם הנקודה שלך לגבי היישומים המסחריים היא נקודתית. אף על פי שמישהו ביישום מסחרי כיום עלול להתייחס לעבודותיו כאל משהו אחר (למשל "מדע נתונים").
נכון, הייתי צריך לומר שאני מנסה לבטא את ההבדלים, במקום לריב למעשה עם מה שכתבת. מתנצל על הכוונה השגויה. נקודה טובה בשינוי זמנים ומונחים כמו אימוץ "מדע הנתונים". האם אחד מספריו של גלמן לא מתחיל במשהו כמו "סטטיסטיקה זה מדע הנתונים"? אז "הם" גונבים מסטטיסטיקאים. שוב. :)
#3
+8
Neil McGuigan
2010-08-11 11:29:23 UTC
view on stackexchange narkive permalink

כריית נתונים היא סטטיסטיקה, עם כמה הבדלים קלים. אתה יכול לחשוב על זה כסטטיסטיקה של מיתוג מחדש, כי סטטיסטיקאים די מוזרים.

לעתים קרובות זה קשור לסטטיסטיקה חישובית, כלומר רק דברים שאתה יכול לעשות עם מחשב.

כורי נתונים גנבו חלק ניכר מהסטטיסטיקה הרב-משתנית ונקראו זה שלהם. בדוק את תוכן העניינים של כל ספר רב-משתני משנות התשעים והשווה אותו לספר כריית נתונים חדש. דומה מאוד.

סטטיסטיקה קשורה לבדיקת השערות ולבניית מודלים, ואילו כריית נתונים קשורה יותר לחיזוי ולסיווג, בין אם קיים מודל מובן.

מה הכפיל? אני לא יכול לראות שום דבר ברור.
די דומה לזה חשבתי: http://stats.stackexchange.com/questions/6/the-two-cultures-statistics-vs-machine-learning
בסדר. חיפשתי כריית נתונים, ולא למידת מכונה. נא להצביע לסגירה אם אתה חושב שזה כפילות.
הממ, אז כריית נתונים == למידת מכונה?
1) אני לא רואה את הבחנה comp comp. אין הרבה שסטטיסטיקאים עושים שלא דורש מחשב. אני מניח שאתה מתכוון להליכים אינטנסיביים מבחינה חישובית כמו פתרונות איטרטיבי וכו '? אבל אז, אלה נפוצים גם בעבודה סטטיסטית מודרנית שאינה כריית נתונים. 2) בעבודתי (הסטטיסטיקה) שלי, התעניינתי בבניית מודלים להסבר ולניבוי, תלוי בבעיה - לא הייתי שוקל כריית נתונים זו. 3) נותרה לי המסקנה כי DM מודרני הוא יישום מסוים של סטטיסטיקה, שלדעתי הוא מסקנה נאה.
#4
+8
George Dontas
2010-08-11 19:37:07 UTC
view on stackexchange narkive permalink

כריית נתונים מסווגת כתיאורית או מנבאת. כריית נתונים תיאורית היא חיפוש בערכות נתונים עצומות ולגלות מיקומים של מבנים או קשרים בלתי צפויים, דפוסים, מגמות, אשכולות וחריגים בנתונים. מצד שני, חיזוי הוא לבנות מודלים ונהלים למשימות רגרסיה, סיווג, זיהוי תבניות או למידת מכונה, ולהעריך את הדיוק הניבוי של אותם מודלים ונהלים כאשר הם מוחלים על נתונים טריים.

המנגנון המשמש לחיפוש תבניות או מבנה בנתונים ממדים גבוהים עשוי להיות ידני או אוטומטי; חיפוש עשוי לדרוש שאילתות אינטראקטיביות על מערכת לניהול מסדי נתונים, או שהיא עשויה לכלול שימוש בתוכנת ויזואליזציה כדי לזהות חריגות בנתונים. במונחי למידת מכונה, כריית נתונים תיאורית מכונה למידה ללא פיקוח, ואילו כריית נתונים מנבאת מכונה למידה מפוקחת.

רוב השיטות בהן נעשה שימוש בכריית נתונים קשורות לשיטות שפותחו בסטטיסטיקה ולמידת מכונה. . בין השיטות העיקריות ביותר הם הנושאים הכלליים של רגרסיה, סיווג, אשכולות והדמיה. בגלל הגדלים העצומים של מערכי הנתונים, יישומים רבים של כריית נתונים מתמקדים בטכניקות להפחתת מימדיות (למשל, בחירה משתנה) ובמצבים בהם חשודים בנתונים מימדים גבוהים שוכבים על מטוסי-יתר-מימדים נמוכים יותר. תשומת הלב האחרונה הופנתה לשיטות לזיהוי נתונים ממדיים גבוהים המונחים על משטחים או סעפות לא לינאריות.

ישנם גם מצבים בכריית נתונים כאשר ל מסקנה סטטיסטית - במובן הקלאסי שלה - אין משמעות או שהיא בעלת תוקף מפוקפק: הראשונה מתרחשת כאשר יש לנו את האוכלוסייה כולה כדי לחפש תשובות, והאחרונה מתרחשת כאשר מערך נתונים הוא מדגם "נוחות" במקום להיות מדגם אקראי שנלקח מאוכלוסייה גדולה כלשהי. כאשר נתונים נאספים לאורך זמן (למשל, עסקאות קמעונאיות, עסקאות בשוק המניות, רישומי מטופלים, רשומות מזג אוויר), ייתכן שדגימה גם אינה הגיונית; סדר הזמן של התצפיות הוא חיוני להבנת התופעה המייצרת את הנתונים וכדי להתייחס לתצפיות כבלתי תלויות כאשר יתכן שהם בקורלציה גבוהה יספק תוצאות מוטות.

המרכיבים המרכזיים של כריית נתונים הם - בנוסף לתיאוריה ולשיטות הסטטיסטיות - יעילות חישובית וחישובית, עיבוד נתונים אוטומטי, טכניקות ויזואליזציה של נתונים דינמיים ואינטראקטיביים ופיתוח אלגוריתמים.

אחד הנושאים החשובים ביותר בכריית נתונים הוא הבעיה החישובית של מדרגיות . אלגוריתמים שפותחו לצורך חישוב שיטות סטטיסטיות חקירות ואישור סטנדרטיות תוכננו להיות יעילים ומהירים חישובית כאשר הם מוחלים על מערכי נתונים קטנים ובינוניים; עם זאת, הוכח שרוב האלגוריתמים הללו אינם עומדים באתגר של טיפול בערכות נתונים ענקיות. ככל שמערכי הנתונים צומחים, אלגוריתמים רבים קיימים מראים נטייה להאט באופן דרמטי (או אפילו לטחון עצירה).

#5
+6
Jeromy Anglim
2010-08-11 11:25:03 UTC
view on stackexchange narkive permalink

כתבתי בעבר פוסט בו ערכתי כמה תצפיות בהשוואת כריית נתונים לפסיכולוגיה. אני חושב שתצפיות אלה עשויות לתפוס חלק מההבדלים שאתה מזהה:

  1. "כריית נתונים נראית מודאגת יותר מחיזוי באמצעות משתנים שנצפו מאשר בהבנת המערכת הסיבתית של משתנים סמויים; פסיכולוגיה בדרך כלל מודאגת יותר. עם המערכת הסיבתית של משתנים סמויים.
  2. כריית נתונים כוללת בדרך כלל מערכי נתונים מסיביים (למשל 10,000 + שורות) שנאספים למטרה שאינה מטרת כריית הנתונים. מערכי נתונים פסיכולוגיים הם בדרך כלל קטנים (למשל, פחות מ 1,000 או 100 שורות) ונאספו במפורש כדי לחקור שאלת מחקר.
  3. ניתוח פסיכולוגי כולל בדרך כלל בדיקת מודלים ספציפיים. גישות פיתוח מודלים אוטומטיות נוטות לא להיות מעניינות תיאורטית. " - כריית נתונים ו- R
אני חושב שנקודות 2 ו -3 הן הערות שימושיות ועולות בקנה אחד עם מה שאני רואה כהבחנה בין שני SA ו- DM. אני לא כל כך בטוח לגבי הנקודה הראשונה שלך. ביצעתי עבודה סטטיסטית בה הייתי מעוניין לשפר את ההבנה לגבי קשרים סיבתיים. עם זאת, ביצעתי גם עבודה סטטיסטית שבה המשימה הייתה לקיים קשרים ידועים ולפתח מודלים שמטרתם הניבוי היחידה, אך אשר חלקה את כל התכונות האחרות של "כריית נתונים".
#6
+4
robin girard
2010-08-11 12:27:27 UTC
view on stackexchange narkive permalink

אני לא חושב שההבחנה שאתה קשור באמת קשורה להבדל בין כריית נתונים לניתוח סטטיסטי. אתה מדבר על ההבדל בין ניתוח חקר לגישה של חיזוי דוגמנות.

אני חושב שמסורת הסטטיסטיקה נבנית בכל השלבים: ניתוח חקר, אחר כך דוגמנות, ואז אומדן, ואז בדיקה, ואז חיזוי / הסקה. סטטיסטיקאי עושה ניתוח חקר בכדי להבין איך הנתונים נראים (סיכום פונקציות תחת R!) אני מניח שמחשבי מידע פחות מובנים וניתן לזהות אותם באמצעות ניתוח חקר. עם זאת היא משתמשת בטכניקות מסטטיסטיקה שהן מתוך הערכה, חיזוי, סיווג ....

אני יכול לקנות את זה. כריית נתונים היא יישום חקרני יותר של טכניקות סטטיסטיות. למרות זאת, אני לא חושב שההבחנה הזו מספיקה. כשאני עושה EDA על סט המאה התצפיות שלי מניסוי שתוכנן, אני לא חושב שמישהו יקרא לזה כריית נתונים, נכון?


שאלה ותשובה זו תורגמה אוטומטית מהשפה האנגלית.התוכן המקורי זמין ב- stackexchange, ואנו מודים לו על רישיון cc by-sa 2.0 עליו הוא מופץ.
Loading...