מה ההבדל בין כריית נתונים, סטטיסטיקה, למידת מכונה ו- AI?

gung - Reinstate Monica

2012-01-25 13:01:54 UTC

view on stackexchange narkive permalink

בין אלה קיימת חפיפה ניכרת, אך ניתן להבחין בכמה. על פי הצורך, אצטרך לפשט יתר על המידה דברים מסוימים או לתת קצר לאחרים, אך אעשה כמיטב יכולתי לתת קצת תחושה של תחומים אלה.

ראשית, בינה מלאכותית נבדלת למדי מהשאר. AI הוא המחקר כיצד ליצור סוכנים אינטליגנטים. בפועל, זה כיצד לתכנת מחשב כך שיתנהג ויבצע משימה כמו סוכן אינטליגנטי (נניח, אדם). זה לא צריך לכלול למידה או אינדוקציה בכלל, זה יכול להיות רק דרך 'לבנות מלכודת עכברים טובה יותר'. לדוגמה, יישומי AI כללו תוכניות לניטור ובקרה של תהליכים שוטפים (למשל, הגדלת היבט A אם זה נראה נמוך מדי). שימו לב ש- AI יכול לכלול כל דבר שמכונה עושה, כל עוד היא לא עושה את זה 'בטיפשות'.

אולם בפועל, מרבית המשימות הדורשות אינטליגנציה דורשות יכולת להניב ידע חדש מחוויות. לפיכך, שטח גדול בתוך AI הוא למידת מכונה . אומרים שתוכנת מחשב לומדת משימה כלשהי מניסיון אם הביצועים שלה במשימה משתפרים עם הניסיון, על פי מדד ביצועים כלשהו. למידת מכונה כוללת לימוד אלגוריתמים שיכולים לחלץ מידע באופן אוטומטי (כלומר ללא הדרכה אנושית מקוונת). זה בהחלט המקרה שחלק מההליכים הללו כוללים רעיונות שמקורם בסטטיסטיקה קלאסית ישירות, או בהשראתם, אך אין להם . בדומה ל- AI, לימוד מכונה הוא רחב מאוד ויכול לכלול כמעט הכל, כל עוד יש בו רכיב אינדוקטיבי כלשהו. דוגמה לאלגוריתם של למידת מכונה יכול להיות פילטר קלמן.

כריית נתונים הוא תחום שלקח הרבה מההשראה והטכניקות שלו מלימוד מכונה (וחלקן גם מסטטיסטיקה), אך הועבר ל מטרות שונות . כריית נתונים מתבצעת על ידי אדם , במצב ספציפי, על מערך נתונים מסוים, עם מטרה בראש. בדרך כלל, אדם זה רוצה למנף את העוצמה של הטכניקות השונות לזיהוי תבניות שפותחו בלימוד מכונה. לעתים קרובות למדי, מערך הנתונים הוא מסיבי , מסובך ו / או יכול להיות שיש לו בעיות מיוחדות (כגון שיש יותר משתנים מאשר תצפיות). בדרך כלל, המטרה היא לגלות / לייצר כמה תובנות מקדימות באזור בו היה מעט ידע קודם לכן, או להיות מסוגלים לחזות תצפיות עתידיות במדויק. יתר על כן, הליכי כריית נתונים יכולים להיות 'ללא פיקוח' (איננו יודעים את התשובה - גילוי) או 'בפיקוח' (אנו יודעים את התשובה - חיזוי). שים לב כי בדרך כלל המטרה היא לא לפתח הבנה מתוחכמת יותר של תהליך יצירת הנתונים הבסיסי. טכניקות נפוצות של כריית נתונים יכללו ניתוח אשכולות, סיווג ועצי רגרסיה ורשתות עצביות.

אני מניח שאני לא צריך להגיד הרבה כדי להסביר מה זה סטטיסטיקה באתר הזה, אבל אולי אני יכול לומר כמה דברים. סטטיסטיקה קלאסית (כאן אני מתכוון הן לתדירות והן לבייסית) היא נושא משנה במתמטיקה. אני חושב על זה כצומת בעיקר מה שאנחנו יודעים על הסתברות ומה שאנחנו יודעים על אופטימיזציה. אף על פי שניתן ללמוד סטטיסטיקה מתמטית כמושא חקירה אפלטוני בלבד, הוא מובן בעיקר כפרקטי יותר ויישומי יותר מאשר בתחומים אחרים ונדירים יותר במתמטיקה. ככזה (ובמיוחד בניגוד לכריית נתונים לעיל), הוא משמש בעיקר לצורך הבנה טובה יותר של תהליך ייצור נתונים מסוים. לפיכך, זה בדרך כלל מתחיל ב מודל שצוין באופן רשמי, ומכאן נגזרים פרוצדורות לחילוץ מדויק של מודל זה ממופעים רועשים (כלומר הערכה - על ידי אופטימיזציה של פונקציית אובדן כלשהי) וכדי להיות מסוגלים להבחין זה מאפשרויות אחרות (כלומר, מסקנות המבוססות על מאפיינים ידועים של התפלגויות דגימה). הטכניקה הסטטיסטית הפרוטוטיפית היא רגרסיה.

אני מסכים עם רוב הפוסט, אבל הייתי אומר ש- AI לרוב לא מנסה ליצור סוכנים אינטליגנטים (מה זה בכלל מודיעין?), אלא סוכנים רציונליים. על ידי רציונלי הכוונה היא "אופטימלי בהתחשב בידע הזמין על העולם". אמנם אומנם המטרה הסופית היא משהו כמו פותר בעיות כללי.

מצטער, אני עדיין לא מבין את ההבדל בין כריית נתונים ללימוד מכונה.ממה שאני רואה, כריית נתונים = למידה ללא פיקוח של למידת מכונה.האם למידת מכונה אינה מפוקחת על גילוי תובנות חדשות?

משתמש אנונימי הציע [פוסט זה] (http://allroundexpert.blogspot.com/2014/05/difference-between-data-mining-and.html) לטבלה המפרקת את ההבדלים בין כריית נתונים ללמידת מכונה עלבסיס פרמטר.

"טכניקות כריית נתונים נפוצות יכללו ניתוח אשכולות, עצי סיווג ורגרסיה ורשתות עצביות." האם ניתן לומר כי רשת עצבית ** היא דוגמה לכלי למידת מכונה ** המשמש בכריית נתונים, בהשוואה לניתוח אשכולות ש ** האם אלגוריתם אינו מיועד ללימוד מכונה ** המשמש לכריית נתונים?

במציאות הכל מטושטש, @TomGranot-Scalosub.הייתי אומר שרשתות עצביות הן בהחלט ML, ובוודאי שניתוח אשכולות ו- CART נחקרים על ידי חוקרי ML.אני מנסה להפוך את הרעיונות לברורים ומובחנים במקצת, אך אין ממש קו בהיר בין קטגוריות אלה.

hackartist

2012-05-26 11:33:22 UTC

view on stackexchange narkive permalink

רבות מהתשובות האחרות כיסו את הנקודות העיקריות, אך ביקשתם היררכיה אם קיימת וכפי שאני רואה אותה, אף על פי שכל אחת מהדיסציפלינות בפני עצמן, יש היררכיה שאף אחד לא הזכיר עדיין מאז. כל אחד מהם מתבסס על הקודם.

סטטיסטיקה הוא כמעט המספרים, וכימות הנתונים. ישנם כלים רבים למציאת מאפיינים רלוונטיים של הנתונים אך זה די קרוב למתמטיקה טהורה.

כריית נתונים עוסק בשימוש ב סטטיסטיקה כמו גם שיטות תכנות אחרות למציאת דפוסים מוסתרים בנתונים כדי שתוכל להסביר תופעה כלשהי. כריית נתונים בונה אינטואיציה לגבי מה שקורה באמת בכמה נתונים ועדיין מעט יותר כלפי מתמטיקה מאשר תכנות, אך משתמש בשניהם.

למידת מכונה משתמשת ב כריית נתונים טכניקות חזקות> ואלגוריתמי למידה אחרים לבניית מודלים של המתרחש מאחורי נתונים מסוימים, כך שהוא יכול לחזות תוצאות עתידיות. מתמטיקה היא הבסיס לרבים מהאלגוריתמים, אך זה יותר לקראת תכנות.

בינה מלאכותית משתמשת במודלים שנבנו על ידי למידת מכונה ובדרכים אחרות סיבה לגבי העולם ומוליד התנהגות חכמה בין אם זה משחק או נהיגה ברובוט / מכונית. לבינה מלאכותית יש מטרה כלשהי להשיג על ידי חיזוי האופן שבו פעולות ישפיעו על המודל של העולם ובוחרת בפעולות שישיגו את המטרה הטובה ביותר. מבוסס מאוד על תכנות.

בקיצור

סטטיסטיקה מכמת מספרים
כריית נתונים מסביר דפוסים
למידת מכונה מנבא עם מודלים
בינה מלאכותית מתנהגת ו סיבות

עם זאת, יהיו כמה בעיות AI אשר נופלות רק ל- AI ובדומה לתחומים האחרים, אך לרוב הבעיות המעניינות כיום (מכוניות עם נהיגה עצמית למשל) יכולות להיקרא בקלות ובצורה נכונה כל אלה. מקווה שזה יבהיר את היחסים ביניהם ששאלת עליהם.

האם אי פעם השתמשת ב- WEKA או RapidMiner? למשל, EM נמצא בתוך כריית נתונים והוא מחיל מודל. מלבד זאת, בדוק את ההגדרה שניתנה על ידי מריאנה סופר והשווה אותה לתשובתך. לפני כמה שנים קראתי את בישופ וראסל / נורביג, אבל ככל שאני זוכר את ההגדרה. מאת מריאנה סופר מתאים יותר. כריית נתונים btw היא ("רק") הצעד העיקרי לפני גילוי הידע. כריית נתונים תופסת רק נתונים - ואחר כך למידע - כאשר משתמשים באלגוריתם עם פרמטרים נאותים. כריית נתונים לא יכולה להסביר דפוסים.

-1

אני חושב שתיאור הסטטיסטיקה גרוע;מספרי quantifyinf הם הנתונים הסטטיסטיים שהמחלקה הלאומית לסטטיסטיקה מדווחת עליהם, אך זה אינו זהה למדע הסטטיסטי שיוצר מודלים לנתונים, מעריך את הפרמטרים שלהם ומביא להסקה.כמו כן, הקשר בין כריית נתונים ללמידת מכונה הפוך;מדעי הנתונים משתמשים בטכניקות לימוד מכונה, ולא להיפך.ראה גם את התשובה של קן ואן הרן.

Ken Van Haren

2011-01-10 01:59:14 UTC

view on stackexchange narkive permalink

סטטיסטיקה עוסק במודלים הסתברותיים, במיוחד הסקה על מודלים אלה המשתמשים בנתונים.
למידת מכונה עוסקת בחיזוי מסוים התוצאה בהתחשב בכמה נתונים. כמעט כל שיטת למידת מכונה סבירה יכולה להיות מנוסחת כמודל הסתברותי פורמלי, כך שבמובן זה למידת מכונה זהה מאוד לסטטיסטיקה, אך היא שונה בכך שבדרך כלל לא אכפת לה הערכות פרמטרים (רק חיזוי) והיא מתמקדת על יעילות חישובית ומערכי נתונים גדולים.
כריית נתונים היא (לפי הבנתי) למידת מכונה יישומית. הוא מתמקד יותר בהיבטים המעשיים של פריסת אלגוריתמים של למידת מכונה על מערכי נתונים גדולים. זה דומה מאוד ללמידת מכונה.
בינה מלאכותית הוא כל מה שעוסק במודעות (הגדרה שרירותית כלשהי) של מחשבים. אז זה כולל הרבה דברים.

באופן כללי, מודלים הסתברותיים (ובכך סטטיסטיקה) הוכיחו את עצמם כדרך היעילה ביותר לבנות רשמית את הידע הבנה במכונה, עד כדי כך שכל שלוש האחרות (AI, ML ו- DM) הן כיום בעיקר תחומי משנה של סטטיסטיקה. לא התחום הראשון שהפך לזרוע צל של סטטיסטיקה ... (כלכלה, פסיכולוגיה, ביואינפורמטיקה וכו ')

@Ken - זה לא יהיה מדויק לתאר את הפסיכולוגיה הכלכלית או AI כזרועות צל של סטטיסטיקה - גם אם משתמשים בסטטיסטיקה בכבדות בכל אחת מהן לניתוח רבות מהבעיות שהתחומים האלה מעוניינים בהן. לא היית רוצה להציע שהרפואה היא זרוע צל של סטטיסטיקה גם אם מרבית המסקנות הרפואיות נשענות במידה רבה על ניתוח נתונים.

@Ken - זו תגובה נהדרת, אבל אתה יכול לתאר באופן מלא יותר ממה הדברים האחרים שמורכבים מ- AI. לדוגמא, מבחינה היסטורית AI כללה גם כמויות גדולות של ניתוח מודלים לא הסתברותיים (למשל מערכות ייצור, אוטומטים סלולריים וכו ', ראה למשל Newell & Simon 1972). כמובן שכל המודלים הללו הם מקרים מגבילים של מודל הסתברותי כלשהו, אך הם לא נותחו ברוח כזו עד מאוחר הרבה יותר.

כריית נתונים חורגת מלמידת מכונה, מכיוון שהיא כוללת למעשה את אופן שמירת הנתונים ואינדקסם כדי להפוך את האלגוריתמים למהירים הרבה יותר. ניתן לאפיין אותו כנקיטת שיטות בעיקר מ- AI, ML וסטטיסטיקה ומשלבת אותן עם טכניקות ניהול נתונים יעילות וחכמות ופריסת נתונים. כאשר זה לא כולל ניהול נתונים, לעתים קרובות אתה יכול פשוט לקרוא לזה "למידת מכונה". עם זאת ישנן כמה משימות, במיוחד "ללא פיקוח", כאשר אין "למידה" מעורבת, אך גם אין ניהול נתונים, אלה עדיין נקראים "כריית נתונים" (אשכולות, זיהוי יוצא דופן).

mariana soffer

2010-11-30 18:05:06 UTC

view on stackexchange narkive permalink

אנו יכולים לומר שכולם קשורים זה לזה, אך הם כולם דברים שונים. למרות שאתה יכול לשתף דברים ביניהם, כגון שבסטטיסטיקה וכריית נתונים אתה משתמש בשיטות אשכולות.
תן לי לנסות בקצרה הגדירו כל אחד:

סטטיסטיקה היא תחום ותיק מאוד המבוסס בעיקר על שיטות מתמטיות קלאסיות, שניתן להשתמש בהן לאותה מטרה שלפעמים כריית נתונים היא המסווגת ומקבצת דברים.
כריית נתונים מורכבת מבניית מודלים במטרה לזהות את הדפוסים המאפשרים לנו לסווג או לחזות מצבים בהתחשב בכמות עובדות או גורמים.
בינה מלאכותית (בדוק מרווין מינסקי *) היא הדיסציפלינה שמנסה לחקות את פעולתו של המוח בשיטות תכנות, למשל בניית תוכנית שמשחקת שח.
למידת מכונה היא המשימה לבנות ידע ולאחסן אותו בצורה כלשהי במחשב; צורה זו יכולה להיות ממודלים מתמטיים, אלגוריתמים וכו '... כל דבר שיכול לעזור בזיהוי דפוסים.

לא, רוב ה- AI המודרני אינו פועל לפי אותה גישה מוקדמת של "חיקוי המוח".היא מתמקדת ביצירת "סוכנים רציונליים" הפועלים בסביבה למקסום התועלת, וקשורה יותר ללימוד מכונה.ראה את ספרם של ראסל ונורוויג.

אני לא רואה את ההבדל בין ML לכריית נתונים בהגדרה שלך

Dikran Marsupial

2010-12-02 05:57:49 UTC

view on stackexchange narkive permalink

אני מכיר הכי הרבה את ציר למידת המכונה - כריית נתונים - אז אתרכז בזה:

למידת מכונה נוטה להתעניין בהסקה במצבים לא סטנדרטיים, למשל לא -יד נתונים, למידה פעילה, למידה מפוקחת למחצה, למידה עם נתונים מובנים (למשל מחרוזות או גרפים). ML נוטה להתעניין גם בגבולות תיאורטיים במה שנלמד, מה שלעתים קרובות מהווה בסיס לאלגוריתמים המשמשים (למשל מכונת הווקטור התמיכה). ML נוטה להיות בעל אופי בייסי.

כריית נתונים מעוניינת למצוא דפוסים בנתונים שעדיין לא ידעת עליהם. אני לא בטוח שזה שונה משמעותית מניתוח נתונים חקר בסטטיסטיקה, ואילו בלמידת מכונה יש בדרך כלל בעיה מוגדרת יותר לפתור.

ML נוטה להתעניין יותר במערכי נתונים קטנים שבהם מעל -התאמה היא הבעיה וכריית נתונים נוטה להתעניין במערכי נתונים בקנה מידה גדול שבהם הבעיה מתמודדת עם כמויות הנתונים.

סטטיסטיקה ולמידת מכונה מספקים רבים מהכלים הבסיסיים בהם משתמשים כורי הנתונים.

אני לא מסכים עם "ML נוטה להתעניין יותר במערכי נתונים קטנים".

כריית נתונים הופכת לקשה הרבה יותר עם מערכי נתונים קטנים שכן היא מגדילה את הסיכוי למצוא קשר מזויף (ומגדילה את הקושי לאתר אותה).עם מערכי נתונים קטנים המסקנות שעושות כמה שפחות אפשרויות נוטות להיות הרבה יותר בטוחות.

Has QUIT--Anony-Mousse

2012-01-01 20:27:23 UTC

view on stackexchange narkive permalink

הנה התייחסותי לכך. נתחיל משתי הקטגוריות הרחבות מאוד:

כל מה שאפילו רק מתיימר להיות חכם הוא בינה מלאכותית (כולל ML ו- DM) .
כל מה ש מסכם נתונים הוא סטטיסטיקות, אם כי בדרך כלל אתה מחיל זאת רק על שיטות שיש לשים לב ל תוקף מהתוצאות (משמשות לעתים קרובות ב- ML ו- DM)

גם ML וגם DM הם בדרך כלל שניהם, AI וסטטיסטיקה, מכיוון שהם בדרך כלל כוללים שיטות בסיסיות משניהם. להלן כמה מההבדלים:

ב למידת מכונה יש לך מטרה מוגדרת היטב (בדרך כלל חיזוי )
ב כריית נתונים , למעשה יש לך המטרה " משהו שלא ידעתי לא "

בנוסף, כריית נתונים כוללת בדרך כלל הרבה יותר ניהול נתונים כלומר, כיצד לארגן את הנתונים במבני אינדקס ובסיסי נתונים יעילים.

למרבה הצער, הם לא כל כך קל להפריד. לדוגמה, יש "למידה ללא פיקוח", שקשורה לעתים קרובות יותר ל- DM מאשר ל- ML, מכיוון שהיא אינה יכולה לייעל את המטרה. מצד שני, קשה להעריך את שיטות ה- DM (איך מדרגים משהו שאינך יודע?) ולעתים קרובות מוערכות על משימות ה זהות כמו למידת מכונה, על ידי השארת קצת מידע. עם זאת, בדרך כלל הדבר יגרום להם לעבוד גרוע יותר משיטות לימוד מכונה שיכולות לייעל את מטרת ההערכה בפועל.

יתר על כן, הם משמשים לעתים קרובות בשילובים. לדוגמא, נעשה שימוש בשיטת כריית נתונים (למשל, אשכולות או זיהוי חריגים בלתי מפוקח) לעיבוד מקדים של הנתונים, ואז שיטת למידת המכונה מוחלת על הנתונים המעובדים מראש כדי להכשיר סיווגים טובים יותר.

בדרך כלל קל יותר להעריך למידת מכונה: יש מטרה כמו ציון או חיזוי כיתתי. אתה יכול לחשב דיוק ולהיזכר. בכריית נתונים, רוב ההערכה נעשית על ידי השארת מידע כלשהו (כגון תוויות מחלקה) ואז בדיקה האם השיטה שלך גילתה את אותו מבנה. זה נאיבי במובן זה, מכיוון שאתה מניח שתוויות הכיתה מקודדות את מבנה הנתונים לחלוטין; אתה בעצם מעניש אלגוריתם כריית נתונים שמגלה משהו חדש בנתונים שלך. דרך נוספת להעריך אותה - בעקיפין, היא כיצד המבנה שהתגלה משפר את ביצועי האלגוריתם של ה- ML בפועל (למשל בעת חלוקת נתונים או הסרת חריגים). ובכל זאת, הערכה זו מבוססת על שכפול תוצאות קיימות, שאינה ממש מטרת כריית הנתונים ...

תגובתך מאוד תובנה. אני מעריך במיוחד את הפסקה האחרונה, אודות ההבדלים בהערכת ביצועי ML והערכת ביצועי DM.

Wayne

2010-12-02 03:17:23 UTC

view on stackexchange narkive permalink

הייתי מוסיף כמה תצפיות למה שנאמר ...

AI הוא מונח רחב מאוד לכל מה שקשור למכונות שעושות פעילויות כמו חשיבה או הופעה נראית חיה, החל מתכנון משימה או שיתוף פעולה עם ישויות אחרות, ללמוד להפעיל איברים להליכה. הגדרה גרועה היא ש- AI הוא כל דבר שקשור למחשב שאיננו יודעים לעשות זאת טוב עדיין. (ברגע שנדע לעשות את זה טוב, הוא בדרך כלל מקבל את השם שלו והוא כבר לא "AI".)

זה הרושם שלי, בניגוד לוויקיפדיה, שזיהוי תבניות ולמידת מכונה הם אותו תחום. , אך הראשונים נהוגים על ידי אנשי מדעי המחשב ואילו האחרים נהוגים על ידי סטטיסטיקאים ומהנדסים. (תחומים טכניים רבים מתגלים שוב ושוב על ידי קבוצות משנה שונות, שלעתים קרובות מביאות לשולחן הלך הרוח שלהם ומחשבותיהם.)

כריית נתונים, לדעתי בכל מקרה, לוקחת למידה מכונה / זיהוי תבניות (הטכניקות) שעובדים עם הנתונים) ועוטפים אותם בטכניקות מסד נתונים, תשתית ואימות / ניקוי נתונים.

למידת מכונה וזיהוי תבניות אינן אותו הדבר, למידת מכונה מתעניינת גם בדברים כמו רגרסיה והסקה סיבתית וכו 'זיהוי תבניות הוא רק אחת הבעיות שמעניינות למידה ממוחשבת. רוב האנשים שלומדים מכונת מכירים הם במחלקות למדעי המחשב.

@Dikran מסכים אבל ML ויחסי ציבור הם לעתים קרובות alias ומוצגים תחת נושאים דומים של ניתוח נתונים. הספר המועדף עליי הוא אכן * זיהוי תבניות ולמידת מכונה *, מאת כריסטוף מ 'בישופ. הנה סקירה של ג'ון מיין דונלד ב- JSS, http://j.mp/etg3w1.

אני גם מרגיש שהמילה "למידת מכונה" נפוצה הרבה יותר מ"הכרה בתבניות "בעולם המדע.

הרגישו כאן גם כי ML הוא יותר מונח CS.

seanv507

2014-09-15 01:04:56 UTC

view on stackexchange narkive permalink

למרבה הצער, ההבדל בין תחומים אלה הוא בעיקר המקום בו הם נלמדים: סטטיסטיקה מבוססת על תיאורים במתמטיקה, ai, למידת מכונה במחלקות למדעי המחשב, וכריית נתונים מיושמת יותר (משמשת למגמות עסקיות או שיווקיות, שפותחה על ידי חברות תוכנה).

ראשית AI (אם כי פירושו כל מערכת חכמה) התכוון באופן מסורתי לגישות מבוססות לוגיקה (למשל מערכות מומחים) ולא להערכה סטטיסטית. לסטטיסטיקה, המבוססת על תיאורים במתמטיקה, הייתה הבנה תיאורטית טובה מאוד, יחד. עם ניסיון יישומי חזק במדעי הניסוי, שם קיים מודל מדעי ברור, ויש צורך בסטטיסטיקה כדי להתמודד עם נתוני הניסוי המוגבלים הקיימים. התמקדות הייתה לעתים קרובות בסחיטת המידע המקסימלי מערכי נתונים קטנים מאוד. יתר על כן יש הטיה כלפי הוכחות מתמטיות: לא תפורסם אלא אם כן תוכל להוכיח דברים לגבי הגישה שלך. פירוש הדבר היה שהסטטיסטיקה פיגרה בשימוש במחשבים לניתוח אוטומטי. שוב, היעדר ידע בתכנות מנע מסטטיסטיקאים לעבוד על בעיות בקנה מידה גדול שבו נושאים חישוביים הופכים לחשובים (קחו בחשבון GPUs ומערכות מבוזרות כגון Hadoop). אני מאמין שתחומים כמו ביואינפורמטיקה העבירו כעת את הסטטיסטיקה יותר לכיוון זה. לבסוף הייתי אומר שסטטיסטיקאים הם חבורה סקפטית יותר: הם לא טוענים שאתה מגלה ידע בעזרת סטטיסטיקה - אלא מדען מעלה השערה, ותפקיד הסטטיסטיקאי הוא לבדוק שההשערה נתמכת על ידי הנתונים. לימוד מכונה נלמד במחלקות cs, שלמרבה הצער אינן מלמדות את המתמטיקה המתאימה: חשבון רב משתני, הסתברות, סטטיסטיקה ואופטימיזציה אינם דבר שבשגרה ... יש מושגים 'זוהרים' מעורפלים כמו למידה מדוגמאות ... ולא סטטיסטיים משעממים הערכה [ראה למשל אלמנטים של למידה סטטיסטית עמוד 30. פירוש הדבר הוא שיש מעט מאוד הבנה תיאורטית והתפוצצות של אלגוריתמים מכיוון שחוקרים יכולים תמיד למצוא איזה מערך נתונים שהאלגוריתם שלהם מוכיח יותר טוב. אז יש שלבים עצומים של הייפ כאשר חוקרי ML רודפים אחרי הדבר הגדול הבא: רשתות עצביות, למידה עמוקה וכו '. למרבה הצער יש הרבה יותר כסף במחלקות למדעי המחשב (תחשוב גוגל, מיקרוסופט, יחד עם ה'למידה' הסחירה יותר) אז מתעלמים מסטטיסטיקאים יותר סקפטיים. לבסוף, יש אמפיריקן מכופף: ביסודו של דבר ישנה אמונה בסיסית שאם תשליך מספיק נתונים על האלגוריתם הוא 'ילמד' את התחזיות הנכונות. בעוד שאני מוטה נגד ML, יש תובנה בסיסית ב- ML שסטטיסטיקאים התעלמו ממנה: שמחשבים יכולים לחולל מהפכה ביישום הסטטיסטיקה.

קיימות שתי דרכים - א) אוטומציה של יישום מבחנים ומודלים סטנדרטיים. למשל הפעלת סוללה של מודלים (רגרסיה ליניארית, יערות אקראיים וכו ', מנסים שילובים שונים של תשומות, הגדרות פרמטרים וכו'). זה לא באמת קרה - אם כי אני חושד שמתחרים ב- Kaggle מפתחים טכניקות אוטומציה משלהם. ב) החלת מודלים סטטיסטיים סטנדרטיים על נתונים ענקיים: חשבו למשל על google translate, מערכות ממליצים וכו '(אף אחד לא טוען שאנשים למשל מתרגמים או ממליצים ככה .. אבל זה כלי שימושי). המודלים הסטטיסטיים הבסיסיים הם פשוטים אך יש בעיות חישוביות עצומות בהחלת שיטות אלה על מיליארדי נקודות נתונים.

כריית נתונים היא שיאה של פילוסופיה זו ... פיתוח דרכים אוטומטיות להפקת ידע מנתונים. עם זאת, יש לה גישה מעשית יותר: למעשה היא מוחלת על נתונים התנהגותיים, כאשר אין תיאוריה מדעית כוללת (שיווק, גילוי הונאה, דואר זבל וכו ') והמטרה היא להפוך אוטומטית לניתוח כמויות גדולות של נתונים: ללא ספק צוות סטטיסטיקאים יכול לייצר ניתוחים טובים יותר בהינתן מספיק זמן, אך משתלם יותר להשתמש במחשב. יתר על כן, כפי ש- D. Hand מסביר, זה ניתוח של נתונים משניים - נתונים שנרשמים בכל מקרה ולא נתונים שנאספו במפורש כדי לענות על שאלה מדעית בתכנון ניסיוני מוצק. סטטיסטיקה של כריית נתונים ועוד, D Hand

אז אני אסכם כי AI מסורתי מבוסס לוגיקה ולא סטטיסטי, למידת מכונה היא סטטיסטיקה ללא תיאוריה וסטטיסטיקה היא 'סטטיסטיקה ללא מחשבים', וכריית נתונים היא פיתוח כלים אוטומטיים לסטטיסטיקה ניתוח עם התערבות משתמש מינימלית.

תשובה זו משתוללת הרבה, כך שקשה לעקוב אחריה והיא ארוכה מיותרת, אך היא באמת פוגעת בסימן ההבדלים בין מסורות והדגשים משמעתיים יותר מכל דבר אחר.

Razan Paul

2011-11-16 06:43:25 UTC

view on stackexchange narkive permalink

כריית נתונים עוסקת בגילוי דפוסים נסתרים או ידע לא ידוע, אשר יכולים לשמש לקבלת החלטות על ידי אנשים.

למידת מכונה עוסקת בלימוד מודל לסיווג אובייקטים חדשים.

האם למידה ממוחשבת * רק * על סיווג? האם לא ניתן להשתמש בלמידת מכונה כדי לשרת מטרות אחרות?

@gung ממש לא.למידת חיזוק היא, IMHO, תחום המשנה המאפיין ביותר של ML ולא הייתי אומר שזה מבוסס על סיווג אלא על השגת יעדים.

@nbro, כי ההערה הייתה אמורה להיות רמז ל- OP לשקול מחדש עד כמה הם מגדירים את ML.

IrishDog

2014-09-14 20:34:29 UTC

view on stackexchange narkive permalink

לדעתי, בינה מלאכותית יכולה להיחשב כ"סופר-סט "של תחומים כגון למידת מכונה, כריית נתונים, זיהוי תבניות וכו '.

סטטיסטיקה, הוא תחום של מתמטיקה הכוללת את כל המודלים, הטכניקות והמשפטים המתמטיים הנמצאים בשימוש ב- AI.
למידת מכונה היא תחום של AI הכולל את כל האלגוריתמים המחילים את הסטטיסטי הנ"ל. מדגמן והגיוני את הנתונים, כלומר ניתוח ניבוי כגון אשכולות וסיווג.
כריית נתונים היא המדע המשתמש בכל הטכניקות לעיל (למידת מכונה בעיקר) ב על מנת לחלץ דפוסים שימושיים וחשובים מנתונים. כריית נתונים קשורה בדרך כלל לחילוץ מידע שימושי מערכי נתונים מסיביים, כלומר נתונים גדולים.

Ambodi

2019-10-23 22:27:44 UTC

view on stackexchange narkive permalink

עם כל הכבוד לתשובות הקודמות, אני מאמין שחלק עצום מהתשובה עדיין חסר והיא לנגד עינינו. תן לי לנסות לעשות את זה:

בכריית נתונים, בדיוק כמו שהשם נשמע, אתה נתון mine. עכשיו הכרייה פירושה שאיבת ידע ממנה, אך באופן כללי זה בדרך כלל אומר שאתה מחשב כמה מדדים או נתונים סטטיסטיים בנתונים, כמו מדד Jaccard כדוגמה.

בלימוד מכונה, אתה לא רק שלי או מחלץ, אתה לומד. כעת לתורת הלמידה יש שורשים בסטטיסטיקה, אך לוקחת אותה רחוק מזה. בלמידה יש לך משימה שלומדת על סמך נתוני מדגם סופיים והיא יכולה להכליל לנתונים שלא נראים. הכניסה לתמונות בפייסבוק שלך עדיין יכולה לתייג אותך בתמונה שלך למרות שלכל תמונה יש רקע חדש, מרקמים חדשים וכן הלאה. אינך יכול להשתמש בשום גישת כריית נתונים בבעיה זו.

בבינה מלאכותית, אתה בהחלט לומד מנתונים כמו ב- Machine Leaning, אבל אז אתה צריך לבצע גם משימות אחרות ברמה גבוהה יותר, כמו תכנון. עליכם למצוא מדיניות על סמך מה שלמדתם ולקחת אותה רחוק מזה. אתה לא יכול לשחק משחק שחמט או Go על ידי פשוט ללמוד מהלכים טובים, אתה צריך להתחיל למצוא מדיניות כמו מיקום התחלתי טוב שיוביל ליותר סיכויים לנצח, למרות שכל משחק הוא משחק חדש, ולא שניים אחרים המשחק יבצע את אותה סט מהלכים.

Joel Malard

2013-02-13 12:14:05 UTC

view on stackexchange narkive permalink

מה דעתך על: לימוד מכונות ללמוד

זיהוי דפוסים משמעותיים בנתונים: כריית נתונים

חיזוי תוצאה מדפוסים ידועים: ML

מצא תכונות חדשות מיפוי נתונים גולמיים מחדש: AI

מוח ציפורים זה באמת זקוק להגדרות פשוטות.

dorien

2013-06-17 17:46:44 UTC

view on stackexchange narkive permalink

לעתים קרובות כריית נתונים מנסה "לחזות" כמה נתונים עתידיים, או "להסביר" מדוע קורה משהו.

סטטיסטיקה משמשת יותר לאימות השערה בעיניי. אך זהו דיון סובייקטיבי.

הבדל ברור בין סטטיסטיקאים לכורי נתונים ניתן למצוא בסוג הסטטיסטיקה המסכמת שהם בוחנים.

נתונים סטטיסטיים יגבילו את עצמם לרוב לדיוק, בעוד שכורי נתונים יסתכלו על AUC, עקומות ROC, עקומות הרמה וכו 'ויכולים להיות מודאגים מלהשתמש בעקומת דיוק הקשורה בעלויות.

חבילות כריית נתונים (לדוגמא הקוד הפתוח Weka), בנו טכניקות לבחירת קלט, תמיכה בסיווג מכונות וקטוריות וכו ', בעוד שלרוב אלה פשוט נעדרים בחבילות סטטיסטיות כמו JMP. לאחרונה עברתי לקורס בנושא "כריית נתונים ב- jmp" מאנשי ה- jmp, ולמרות שמדובר בחבילה חזקה חזותית, כמה טכניקות חיוניות של כריית נתונים לפני / אחרי / באמצע פשוט חסרות. בחירת הקלט נעשתה באופן ידני, כדי לקבל תובנה בנתונים, עדיין בכריית נתונים, זו רק כוונתך לשחרר אלגוריתמים, בצורה חכמה, על נתונים גדולים ולראות באופן אוטומטי מה יוצא. כמובן שהקורס הועבר על ידי אנשי סטטיסטיקה, שהדגישו את הלך הרוח השונה בין השניים.