מהי סטטוס תרגום בראיית מחשב וברשת עצבית קונבולוציה?

שְׁאֵלָה:

מהי סטטוס תרגום בראיית מחשב וברשת עצבית קונבולוציה?

Rika

2016-04-23 20:30:35 UTC

view on stackexchange narkive permalink

אין לי רקע לראיית מחשב, אולם כשאני קורא כמה מאמרים ומאמרים הקשורים לעיבוד תמונה ורשתות עצביות, אני כל הזמן מתמודד עם המונח, סטנדרטי תרגום , או תרגום משתנה .
או שקראתי הרבה שפעולת הפיתול מספקת סטטוס תרגום ? !! מה זה אומר?
אני בעצמי תמיד תרגמתי את זה לעצמי כאילו זה אומר שאם אנו משנים תמונה בכל צורה שהיא, המושג בפועל של התמונה לא משתנה.
למשל אם אני מסובב תמונה של נניח עץ, זה שוב עץ לא משנה מה אעשה לתמונה ההיא.
ואני עצמי שוקל את כל הפעולות שיכולות לקרות לתמונה ולהפוך אותה בצורה (חתוך אותה, שנה אותה גודל, בקנה מידה אפור , צבע אותו וכו '... כדי להיות ככה. אין לי מושג אם זה נכון ולכן אודה אם מישהו יכול להסביר לי את זה.

ארבע תשובות:

Matt Krause

2016-04-23 21:53:40 UTC

view on stackexchange narkive permalink

אתה בדרך הנכונה.

סטייה פירושה שאתה יכול לזהות אובייקט כאובייקט, גם כשהמראה שלו משתנה ב בדרך כלשהי. זה בדרך כלל דבר טוב מכיוון שהוא שומר על זהות האובייקט, קטגוריה וכו 'על פני שינויים בפרטי הקלט החזותי, כמו מיקומים יחסית של הצופה / המצלמה והאובייקט.

התמונה למטה מכילה תצוגות רבות של אותו פסל. אתם (ורשתות עצביות מאומנות היטב) יכולים לזהות כי אותו אובייקט מופיע בכל תמונה, למרות שערכי הפיקסלים בפועל שונים לגמרי.

שים לב של תרגום כאן יש משמעות ספציפית בחזון, מושאל מגיאומטריה. זה לא מתייחס לשום סוג של המרה, שלא כמו לומר, תרגום מצרפתית לאנגלית או בין פורמטים של קבצים. במקום זאת, המשמעות היא שכל נקודה / פיקסל בתמונה הועברו באותה הכמות באותו כיוון. לחלופין, אתה יכול לחשוב על המקור כאילו הועבר כמות שווה בכיוון ההפוך. לדוגמה, אנו יכולים ליצור את התמונות השנייה והשלישית בשורה הראשונה מהראשונה על ידי הזזת כל פיקסל 50 או 100 פיקסלים ימינה.

אפשר להראות שמפעיל הפיתול נוסע ביחס לתרגום. אם אתה משלב $ f $ עם $ g $ , זה לא משנה אם אתה מתרגם את הפלט המפותל $ f * g $ , או אם אתה מתרגם $ f $ או $ g $ תחילה, ואז כנס אותם. בויקיפדיה יש קצת יותר.

גישה אחת לזיהוי אובייקטים תרגום-משתנה היא לקחת "תבנית" של האובייקט ולכנס אותו לכל מיקום אפשרי של האובייקט בתמונה. אם אתה מקבל תגובה גדולה במיקום, זה מציע שאובייקט הדומה לתבנית ממוקם באותו מקום. גישה זו מכונה לעיתים קרובות התאמת תבניות .

סטייה לעומת שיווי משקל

התשובה של סנטנו_פטאניאק () כאן) מציין כי יש הבדל בין תרגום סטייה לבין תרגום שיווי משקל . משמעות סטטוס התרגום היא שהמערכת מייצרת את אותה התגובה בדיוק, ללא קשר לאופן שבו הקלט שלה מועבר. לדוגמה, גלאי פנים עשוי לדווח על "FACE FOUND" עבור כל שלוש התמונות בשורה העליונה. משווה המשמעות היא שהמערכת עובדת באותה מידה בין עמדות, אך תגובתה עוברת עם מיקום היעד. לדוגמא, במפת חום של "פנים-פנים" יהיו בליטות דומות מצד שמאל, מרכז וימין כאשר היא מעבדת את שורת התמונות הראשונה.

זוהי לעיתים הבחנה חשובה, אך אנשים רבים מכנים את שתי התופעות "בלתי משתנות", במיוחד מכיוון שלרוב זה טריוויאלי להמיר תגובה שווה ערך לתופעה שאינה משתנה - פשוט התעלם מכל מידע העמדה).

שמח שיכולתי לעזור.זה אחד מענייני המחקר הגדולים שלי, כך שאם יש משהו אחר שיעזור לך, אני אראה מה אני יכול לעשות.

האם תוכל להבהיר כיצד מושגת שינוי של תרגום ב- CNN?ההפעלות של שכבה עוויתית ב- CNN אינן משתנות בתרגומים: הן מסתובבות כאשר התמונה מסתובבת (כלומר, הן שקולות, ולא משתנות, לתרגומים).הפעלות אלה מוזנות בדרך כלל בשכבת איגום, שאינה משתנה לתרגומים.ושכבת איגום עשויה להאכיל לשכבה מחוברת לחלוטין.האם המשקולות בשכבה מחוברת לחלוטין משנות איכשהו מעבר שווה ערך להתנהגות בלתי משתנה בתרגום?

@max, Pooling מגדיל את חריגות התרגום, במיוחד pooling max (!), מה שמתעלם לחלוטין ממידע מרחבי בשכונת הבריכה.ראה פרק 9 של למידה עמוקה http://www.deeplearningbook.org/contents/convnets.html (החל בעמוד 335).רעיון זה פופולרי גם במדעי המוח - מודל ה- HMAX (למשל, כאן: http://maxlab.neuro.georgetown.edu/docs/publications/nn99.pdf) משתמש בשילוב של ממוצע ואיחוד מקסימלי כדי ליצור תרגום (וסוגים אחרים של בלתי-משתנה.

אה נכון, איגום מספק אי-השתנות על תרגומים קטנים (חשבתי על משמרות גדולות יותר, אבל אולי כל שכבת איגומים רצופה יכולה להתמודד עם משמרות גדולות יותר ויותר).אבל מה לגבי [הרשתות המקובלות לחלוטין] (https://arxiv.org/abs/1412.6806)?ללא איחוד, מה מספק (לפחות משוער) בלתי משתנה?

איך מסבירים ש"דיבור הוא משתנה תרגום רק לאורך ציר הזמן, אבל לא ציר התדרים ", מה זה אומר?

@Fredom, שעשוי להיות טוב יותר כשאלה חדשה, אך בקיצור - אות השמע נשמע אותו דבר גם כאשר אתה מעביר אותו קדימה בזמן (למשל, על ידי הוספת חבורה של שקט בהתחלה).עם זאת, אם אתה מעביר אותו לתחום התדרים, זה * נשמע * שונה: לא רק הספקטרום משתנה, אלא גם היחסים בין התדרים (למשל, הרמוניות) מעוותים.

Santanu_Pattanayak

2017-06-30 09:01:35 UTC

view on stackexchange narkive permalink

אני חושב שיש בלבול מסוים למה הכוונה במשתנות תרגום.קונבולוציה מספקת שקילות תרגום שמשמעותה אם אובייקט בתמונה נמצא באזור A ובאמצעות קונבולציה זוהה תכונה בפלט באזור B, אזי אותה תכונה תתגלה כאשר האובייקט בתמונה מתורגם ל- A '.המיקום של תכונת הפלט יתורגם גם לאזור חדש B 'בהתבסס על גודל גרעין המסנן.זה נקרא שיווי משקל תרגומי ולא סטנדרטי תרגום.

Aksakal

2017-11-15 22:58:05 UTC

view on stackexchange narkive permalink

התשובה למעשה מסובכת ממה שהיא נראית בהתחלה. באופן כללי, המשתנה התרגומי פירושו שתזהה את האובייקט ללא מקום שבו הוא מופיע על המסגרת.

בתמונה הבאה במסגרת A ו- B היית מזהה את המילה "לחוץ" אם החזון שלך תומך במשתנות תרגום של words.

הדגשתי את המונח words מכיוון שאם המשתנות שלך נתמכת רק באותיות, גם המסגרת C תהיה שווה למסגרות A ו- B: יש לה בדיוק את אותן האותיות.

מבחינה מעשית, אם הכשרת את ה- CNN שלך באותיות, דברים כמו MAX POOL יעזרו להשיג את שינוי התרגום באותיות, אך לא בהכרח יביאו למשתנה בתרגום על מילים. איגום שולף את התכונה (המופקת על ידי שכבה מתאימה) ללא קשר למיקום של תכונות אחרות, כך שהיא תאבד את הידע של המיקום היחסי של האותיות D ו- T והמילים STRESSED ו- DESSERTS ייראו זהות.

המונח עצמו הוא ככל הנראה מפיזיקה, כאשר t סימטריית הגבול פירושה שהמשוואות נשארות זהות ללא קשר לתרגום במרחב.

mr e

2017-11-15 21:50:51 UTC

view on stackexchange narkive permalink

@ Santano

התשובה שלך אמנם נכונה בחלקה ומובילה לבלבול.נכון ששכבות קונבולוציה עצמן או מפות תכונות פלט הן שקולות בתרגום.מה שהשכבות המאגרות המקסימליות עושות זה לספק איזשהו שינוי בתרגום כפי שמציין @Matt.

כלומר, השוויון במפות התכונות בשילוב עם פונקציית שכבת מאגר מקסימום מוביל למשתנות תרגום בשכבת הפלט (softmax) של הרשת.מערכת התמונות הראשונה לעיל עדיין תניב חיזוי הנקרא "פסל" למרות שהוא תורגם לשמאל או לימין.העובדה שהתחזית נותרה "פסל" (כלומר אותו הדבר) למרות תרגום הקלט פירושה שהרשת השיגה אי-שינוי תרגום כלשהו.

אני לא כל כך בטוח כי איגום מוביל למשתנות תרגום.

בינוני זה כן.זכור שמפעיל האיחוד המקסימלי לוקח את ערך הפיקסלים המרבי כפלט שלו בחלון נתון.זה מחייב באופן מתמטי סטייה מסוימת מכיוון שהמיקום המרחבי של ערכי הפיקסלים המרביים אינו רלוונטי (בסובלנות כלשהי).

ⓘ

שאלה ותשובה זו תורגמה אוטומטית מהשפה האנגלית.התוכן המקורי זמין ב- stackexchange, ואנו מודים לו על רישיון cc by-sa 3.0 עליו הוא מופץ.

about - legalese

Loading...