דף זה מכיל מונחי מילון מונחים של מודלי תמונות. כאן אפשר למצוא את כל המונחים במילון המונחים.
A
מציאות רבודה
טכנולוגיה שמוסיפה תמונה ממוחשבת לנקודת המבט של המשתמש על העולם האמיתי, וכך מספקת תצוגה מורכבת.
מקודד אוטומטי
מערכת שלומדת לחלץ את המידע החשוב ביותר מהקלט. מקודדים אוטומטיים הם שילוב של מקודד ומפענח. מקודדים אוטומטיים פועלים לפי התהליך הדו-שלבי הבא:
- המקודד ממפה את הקלט לפורמט עם אובדן-ממדי נמוך (בדרך כלל) (ביניים).
- המפענח בונה גרסה עם אובדן של הקלט המקורי על ידי מיפוי של הפורמט במימדים נמוכים יותר לפורמט הקלט המקורי בעל המאפיינים הגבוהים יותר.
מקודדים אוטומטיים מאומנים מקצה לקצה כך שהמפענח מנסה לשחזר את הקלט המקורי מפורמט הביניים של המקודד, ככל האפשר. מכיוון שפורמט הביניים קטן יותר (במימדי תחתון) מהפורמט המקורי, המקודד האוטומטי נאלץ ללמוד איזה מידע מהקלט הוא חיוני, והפלט לא יהיה זהה לחלוטין לקלט.
לדוגמה:
- אם נתוני הקלט הם גרפיקה, העותק הלא מדויק יהיה דומה לגרפיקה המקורית, אבל ישתנה קצת. אולי העותק הלא מדויק מסיר את הרעש מהגרפיקה המקורית או ממלא כמה פיקסלים חסרים.
- אם נתוני הקלט הם טקסט, מקודד אוטומטי יוצר טקסט חדש שמחקה את הטקסט המקורי (אבל לא זהה לו).
למידע נוסף, ראו גם מקודדים אוטומטיים הווריאנטים.
מודל רגרסיבי אוטומטי
model שמסיק חיזוי על סמך חיזויים קודמים שלו. לדוגמה, מודלים של שפה עם רגרסיה אוטומטית חוזים את האסימון הבא על סמך האסימונים הצפויים בעבר. כל מודלים גדולים של שפה (LLM) שמבוססים על Transformer הם רגרסיביות אוטומטית.
לעומת זאת, מודלים של תמונות שמבוססים על GAN בדרך כלל לא רגרסיביים אוטומטית, כי הם יוצרים תמונה בהעברה אחת להעברה, ולא באופן איטרטיבי בשלבים. עם זאת, חלק מהמודלים ליצירת תמונות חוזרים באופן אוטומטי כי הם יוצרים תמונה בשלבים.
B
תיבה תוחמת (bounding box)
בתמונה, הקואורדינטות (x, y) של מלבן מסביב לאזור עניין, כמו הכלב בתמונה שלמטה.
C
Conolution
במתמטיקה, אפשר לדבר לקהל הרחב כשילוב של שתי פונקציות. בלמידת מכונה, קונבולוציה משלבת את המסנן המתקפל ואת מטריצת הקלט כדי לאמן משקולות.
המונח "קונובולציה" בלמידת מכונה הוא לעיתים קרובות דרך מקוצרת להתייחס לפעולה קונבולטורית או לשכבה קונבולטורית.
ללא קפיצות, אלגוריתם של למידת מכונה יצטרך ללמוד משקל נפרד לכל תא בtensor גדול. לדוגמה, אימון אלגוריתם של למידת מכונה על תמונות בגודל 2Kx2K ייאלץ למצוא 4 מיליון משקולות נפרדות. בזכות הפולים, האלגוריתם של למידת המכונה צריך למצוא את המשקולות לכל תא רק באמצעות המסנן המתחלף, וכך לצמצם באופן משמעותי את הזיכרון הנדרש לאימון המודל. כשמפעילים את המסנן המתקפל, הוא משוכפל בין תאים כך שכל אחד מהם מוכפל במסנן.
מסנן מפותל
אחד משני השחקנים בפעולה קונבולטורית. (השחקן השני הוא פרוסה במטריצת קלט). מסנן קונבולוציה הוא מטריצה שיש לה דירוג זהה לזה של מטריצת הקלט, אבל צורה קטנה יותר. לדוגמה, בהינתן מטריצת קלט בגודל 28x28, המסנן יכול להיות כל מטריצה דו-ממדית קטנה מ-28x28.
בתהליך הצילום, כל התאים במסנן מפותל מוגדרים בדרך כלל לתבנית קבועה של אפסים ואחדים. בלמידת מכונה, מסננים אנלוגיים בדרך כלל מיוצרים עם מספרים אקראיים, ואז רכבות הרשת מייצגות את הערכים האידיאליים.
שכבה מתוחכמת
שכבה של רשת נוירונים עמוקה שבה מסנן מסתובב מעביר מטריצת קלט. דוגמה למסנן מסתובב ביחס גובה-רוחב של 3x3:
האנימציה הבאה מציגה שכבה מפותלת שמורכבת מ-9 פעולות סיבוביות שכוללות מטריצת קלט של 5x5. שימו לב שכל פעולה אנלוגית פועלת על פרוסה שונה בגודל 3x3 של מטריצת הקלט. המטריצה שמתקבלת בגודל 3x3 (בצד שמאל) מורכבת מהתוצאות של 9 הפעולות המתקפלות:
רשת עצבית מתקפלת
רשת נוירונים שבה לפחות שכבה אחת היא שכבה אנלוגית. רשת נוירונים מפותלת טיפוסית מורכבת משילוב כלשהו של השכבות הבאות:
רשתות נוירונים מלאכותיות נחלו הצלחה רבה בסוגים מסוימים של בעיות, כמו זיהוי תמונות.
פעולה מפותלת
הפעולה המתמטית הדו-שלבית הבאה:
- הכפלה ברמת הרכיבים של המסנן המתקפל ופרוסה של מטריצת קלט. (לפלח של מטריצת הקלט יש אותו דירוג וגודל כמו המסנן המתקפל).
- סכום כל הערכים במטריצת המוצרים שמתקבלת.
לדוגמה, שימוש במטריצת הקלט הבאה בגודל 5x5:
עכשיו נניח את המסנן הבא שגודלו 2x2:
בכל פעולת קונבולוציה יש פרוסה אחת בגודל 2x2 של מטריצת הקלט. לדוגמה, נניח שאנחנו משתמשים בפלח של 2x2 שבפינה השמאלית העליונה של מטריצת הקלט. כך, פעולת הפיתול בקטע הזה נראית כך:
שכבה קונבולטורית מורכבת מסדרה של פעולות מתקפלות, שכל אחת מהן פועלת על פלח אחר של מטריצת הקלט.
D
הרחבת נתונים
הגדלה מלאכותית של הטווח והמספר של האימונים לדוגמה, על ידי טרנספורמציה של דוגמאות קיימות כדי ליצור דוגמאות נוספות. לדוגמה, נניח שתמונות הן אחד המאפיינים שלכם, אבל מערך הנתונים לא מכיל מספיק דוגמאות של תמונות כדי שהמודל יוכל ללמוד שיוכים שימושיים. במצב אידיאלי תצטרכו להוסיף למערך הנתונים מספיק תמונות מסומנות כדי לאפשר אימון תקין של המודל. אם זה לא אפשרי, הרחבת הנתונים יכולה לסובב, למתוח ולשקף כל תמונה כדי ליצור וריאנטים רבים של התמונה המקורית, וכך לקבל מספיק נתונים מתויגים כדי לאפשר אימון מצוין.
רשת עצבית מתקפלת שאפשר להפריד בעומק (sepCNN)
ארכיטקטורה של רשת עצבית מתקפלת שמבוססת על התחלה, אבל במקום שבו המודולים של Inception מוחלפים בקונבולוציות שניתנות להפרדה לעומק. נקרא גם Xception.
כדי ליצור קונבולוציה מופרדת בעומק (שמופיעה גם בקיצור כניתן להפרדה) היא יוצרת קונבולוציה תלת-ממדית סטנדרטית לשתי פעולות קונבולוציה נפרדות שהן יעילות יותר מבחינה ממוחשבת: הראשונה, הפמוטת עומק, עם עומק 1 (קמבול ש-1 (n להשיב n וויטה 1) ולאחר מכן הערך 1 (ערך n n סולם 1) ולאחר מכן ערך 1 (ערך n n סולם 1), ואז הערך 1 (ערך n רוכשים 1), ולאחר מכן ערך 1 (ערך n n סולם 1), הנקודה הראשונה.
למידע נוסף, קראו את המאמר Xception: למידה עמוקה (Deep Learning) עם קונבולוציות שניתנות להפרדת עומק.
דגימה למטה
מונח עמוס מדי שיכול לנבוע מאחת האפשרויות הבאות:
- לצמצם את כמות המידע בתכונה כדי לאמן מודל בצורה יעילה יותר. לדוגמה, לפני אימון של מודל לזיהוי תמונות, כדאי להקטין את הדגימה של תמונות ברזולוציה גבוהה לפורמט ברזולוציה נמוכה יותר.
- אימון על אחוז נמוך באופן לא פרופורציונלי של דוגמאות כיתה שמיוצגות יתר על המידה כדי לשפר את אימון המודלים בכיתות שסובלות מחוסר ייצוג. לדוגמה, במערך נתונים לא-מאוזן בין כיתה, מודלים נוטים ללמוד הרבה על סיווג הרוב, ולא מספיק על סיווג מיעוט. דגימה נמוכה עוזרת לאזן בין כמות האימון בכיתות הרוב ובכיתות המיעוט.
F
כוונון עדין
פס אימון נוסף שספציפי למשימה מבוצע על מודל שעבר אימון מראש, כדי לחדד את הפרמטרים שלו בתרחיש ספציפי לדוגמה. לדוגמה, רצף האימון המלא בחלק ממודלים גדולים של שפה הוא:
- הדרכה מקדימה: אימון מודל שפה גדול על מערך נתונים כללי גדול, כמו כל דפי הוויקיפדיה באנגלית.
- כוונון עדין: אפשר לאמן את המודל שעבר אימון מראש לבצע משימה ספציפית, כמו מענה לשאילתות רפואיות. לרוב, כוונון עדין כולל מאות או אלפי דוגמאות שמתמקדות במשימה הספציפית.
דוגמה נוספת: רצף האימון המלא של מודל תמונה גדול הוא:
- pre-training: אימון מודל תמונה גדול על מערך נתוני תמונות כללי נרחב, כמו כל התמונות ב-Wikimedia Common.
- כוונון עדין: אפשר לאמן את המודל שעבר אימון מראש לבצע משימה ספציפית, כמו יצירת תמונות של אורקות.
כוונון עדין יכול לכלול כל שילוב של האסטרטגיות הבאות:
- שינוי כל הפרמטרים הקיימים במודל שעבר אימון מראש. פעולה זו נקראת לפעמים כוונון עדין מלא.
- שינוי רק חלק מהפרמטרים הקיימים של המודל שעבר אימון מראש (בדרך כלל, השכבות הקרובות ביותר לשכבת הפלט), תוך השארת הפרמטרים הקיימים ללא שינוי (בדרך כלל, השכבות הקרובות ביותר לשכבת הקלט). למידע נוסף, ראו כוונון לפי פרמטר יעיל.
- הוספת שכבות נוספות, בדרך כלל מעל השכבות הקיימות הקרובות ביותר לשכבת הפלט.
כוונון עדין הוא סוג של העברת למידה. לכן, יכול להיות שכוונון עדין ישתמש בפונקציית אובדן אחרת או בסוג מודל אחר מאלה ששימשו לאימון המודל שעבר אימון מראש. לדוגמה, אפשר לכוונן מודל תמונה גדול שעבר אימון מראש כדי ליצור מודל רגרסיה שמחזיר את מספר הציפורים בתמונת קלט.
משווים ומשווים כוונון עדין בעזרת המונחים הבאים:
G
בינה מלאכותית גנרטיבית
שדה טרנספורמטיבי מתפתח ללא הגדרה רשמית. עם זאת, רוב המומחים מסכימים שמודלים של בינה מלאכותית גנרטיבית יכולים ליצור ("ליצור") תוכן שכולו:
- מורכב
- קוהרנט
- מקורית
לדוגמה, מודל של בינה מלאכותית גנרטיבית יכול ליצור תמונות או מאמרים מתוחכמים.
כמה מהטכנולוגיות הקודמות, כולל LSTM ורשתות RNN, יכולות גם ליצור תוכן מקורי ועקבי. חלק מהמומחים מתייחסים לטכנולוגיות הקודמות האלה כבינה מלאכותית גנרטיבית, ואילו אחרים סבורים שבינה מלאכותית גנרטיבית אמיתית דורשת פלט מורכב יותר מאשר הטכנולוגיות הקודמות יכולות להפיק.
בניגוד ללמידת מכונה חזויה.
I
זיהוי תמונות, זיהוי תמונה
תהליך שמסווג אובייקטים, תבניות או מושגים בתמונה. זיהוי תמונות נקרא גם סיווג תמונות.
מידע נוסף זמין במאמר ML Practicum: סיווג תמונות.
צומת מעל איחוד (IoU)
ההצטלבות של שתי קבוצות חלקי האיחוד שלהן. במשימות של זיהוי תמונות בלמידת מכונה, נעשה שימוש ב-IoU כדי למדוד את הדיוק של התיבה התוחמת החזויה של המודל ביחס לתיבה התוחמת ground-truth. במקרה הזה, ה-IoU של שתי התיבות הוא היחס בין האזור החופף לשטח הכולל, והערך שלו נע מ-0 (ללא חפיפה בין התיבה התוחמת החזויה והתיבה התוחמת החזויה) ל-1 (לתיבה תוחמת חזויה ולתיבה תוחמת אמת לקרקע יש אותן קואורדינטות בדיוק).
לדוגמה, בתמונה הבאה:
- התיבה התוחמת החזויה (הקואורדינטות שמפרידות בין המיקום שבו המודל מנבא את טבלת הלילה בציור) מתוארת בסגול.
- התיבה התוחמת את האמת (הקואורדינטות שמפרידות בין המיקום של שולחן הלילה בציור) מתוארת בירוק.
כאן, ההצטלבות של התיבות התוחמות לחיזוי ולאמת הקרקעית (מתחת לשמאל) היא 1, ואיחוד התיבות תוחמות לחיזוי ולאמת קרקע (מתחת לימין) הוא 7, כך שה-IoU הוא \(\frac{1}{7}\).
K
נקודות מפתח
הקואורדינטות של תכונות מסוימות בתמונה. לדוגמה, במודל זיהוי תמונות שמבדיל בין זני פרחים, נקודות מפתח יכולות להיות המרכז של כל עלי כותרת, גזע, סטמן וכן הלאה.
L
ציוני דרך
מילה נרדפת ל-keypoints.
M
MNIST
מערך נתונים מהדומיין הציבורי שנוצר על ידי LeCun, Cortes ו-Burges, ומכיל 60,000 תמונות. כל תמונה מראה איך אדם כתב ספרה מסוימת באופן ידני בין 0 ל-9. כל תמונה מאוחסנת כמערך מספרים שלמים בגודל 28x28, כאשר כל מספר שלם הוא ערך בגווני אפור בין 0 ל-255, כולל.
MNIST הוא מערך נתונים קנוני ללמידת מכונה, שמשמש לעיתים קרובות לבדיקת גישות חדשות של למידת מכונה. מידע נוסף זמין במאמר מסד הנתונים של MNIST לספרות בכתב יד.
P
מאגר
הקטנה של מטריצה (או מטריצות) שנוצרה על ידי שכבה קדומה למטריצה קטנה יותר. מאגר הנתונים בדרך כלל כולל את הערך המקסימלי או הממוצע בכל השטח הארגוני. לדוגמה, נניח שיש לנו את המטריצה הבאה של 3x3:
פעולת אגירת נתונים, בדיוק כמו פעולה מתקפלת, מחלקת את המטריצה למקטעים ולאחר מכן מחליפה את הפעולה המתקפלת לפי שלבים. לדוגמה, נניח שפעולת המאגר מחלקת את המטריצה המתקפלת לפרוסות בגודל 2x2 עם רוחב של 1x1. כפי שניתן לראות בתרשים הבא, מתבצעות ארבע פעולות איחוד. נניח שכל פעולת אגירת נתונים בוחרת את הערך המקסימלי של הארבעה בחלק הזה:
מאגר הנתונים עוזר לאכוף אי-זמינות תרגום במטריצת הקלט.
מאגר של אפליקציות ראייה ידוע באופן רשמי יותר כמאגר מרחבי. אפליקציות של סדרות זמנים בדרך כלל מתייחסות למאגר בתור מאגר זמני. באופן פחות רשמי, הדגימה נקראת subssampleing או downssampleing.
שעבר אימון מקדים
מודלים או רכיבי מודל (למשל וקטור הטמעה) שכבר אומנו. לפעמים צריך להזין וקטורים של הטמעה מאומנים ברשת נוירונים. במקרים אחרים, המודל יאמן את הווקטורים של ההטמעה בעצמם במקום להסתמך על הטמעות שעברו אימון מראש.
המונח מודל שפה שעבר אימון מראש מתייחס למודל שפה גדול (LLM) שעבר אימון מקדים.
לפני אימון
אימון ראשוני של מודל על מערך נתונים גדול. חלק מהמודלים שאומנו מראש הם ענקיים מגושמים, ובדרך כלל צריך לשפר אותם באמצעות אימון נוסף. לדוגמה, מומחי למידת מכונה יכולים לאמן מראש מודל שפה גדול על מערך נתונים גדול של טקסט, כמו כל הדפים באנגלית בוויקיפדיה. לאחר אימון מראש, אפשר לשפר את המודל שיתקבל באמצעות כל אחת מהשיטות הבאות:
R
משתנים סיבוביים
בבעיה בסיווג תמונות, היכולת של אלגוריתם לסווג תמונות בצורה נכונה, גם כשכיוון התמונה משתנה. לדוגמה, האלגוריתם עדיין יכול לזהות מחבט טניס בין אם הוא מצביע למעלה, הצידה או למטה. שימו לב ששונות סיבובית לא תמיד רצויה. לדוגמה, לא מומלץ לסווג 9 הפוך כ-9.
למידע נוסף, אפשר לקרוא את המאמרים אי-שונות תרגום ומידת שונות של גודל.
S
שונות של גודל
במקרה של בעיה בסיווג תמונות, היכולת של אלגוריתם לסווג תמונות בצורה נכונה, גם כשגודל התמונה משתנה. לדוגמה, האלגוריתם עדיין יכול לזהות חתול אם הוא צורך 2 מיליון פיקסלים או 200K פיקסלים. שימו לב שגם לאלגוריתמים הטובים ביותר של סיווג תמונות עדיין יש מגבלות מעשיות על שונות בגודל. לדוגמה, לא סביר שאלגוריתם (או אדם) יסווג בצורה נכונה תמונת חתול שצורכת 20 פיקסלים בלבד.
למידע נוסף, תוכלו לקרוא גם על אי-זמינות תרגום ועל אי-זמינות מסתובבת.
מאגר כללי
למידע נוסף, ראו איסוף נתונים.
צעד
בפעולה מפותלת או במאגר, הדלתא בכל מאפיין בסדרה הבאה של פלחי הקלט. לדוגמה, האנימציה הבאה מדגימה צעד (1,1) במהלך פעולת קבילה. לכן, פרוסת הקלט הבאה מתחילה מיקום אחד מימין לפרוסת הקלט הקודמת. כשהפעולה מגיעה לקצה הימני, החלק הבא נמצא בצד שמאל, אבל מיקום אחד למטה.
הדוגמה הקודמת ממחישה קו דו-ממדי. אם מטריצת הקלט היא תלת-ממדית, גם הפסיעה תהיה תלת-ממדית.
תת-דגימה
למידע נוסף, ראו איסוף נתונים.
T
טמפרטורה
היפר-פרמטר שקובע את מידת האקראיות של הפלט של המודל. טמפרטורה גבוהה יותר מובילה לפלט אקראי יותר, וטמפרטורות נמוכות יותר מניבות פחות פלט אקראי.
בחירת הטמפרטורה הטובה ביותר תלויה באפליקציה הספציפית ובמאפיינים הרצויים של הפלט של המודל. לדוגמה, סביר להניח להעלות את הטמפרטורה כשיוצרים אפליקציה שיוצרת פלט של קריאייטיב. לעומת זאת, כדאי להוריד את הטמפרטורה כשבונים מודל שמסווג תמונות או טקסט כדי לשפר את הדיוק והעקביות של המודל.
משתמשים בטמפרטורה בדרך כלל בעזרת softmax.
שונות מתורגמת
בבעיה בסיווג תמונות, היכולת של אלגוריתם לסווג תמונות בצורה נכונה, גם כשמיקום האובייקטים בתמונה משתנה. לדוגמה, האלגוריתם עדיין יכול לזהות כלב, בין אם הוא נמצא במרכז המסגרת או בקצה השמאלי של המסגרת.
למידע נוסף, תוכלו לקרוא גם על מידת השונות של הגודל ושונות סיבובית.