מילון מונחים ללמידת מכונה: מודלים של תמונות

דף זה מכיל מונחי מילון מונחים של מודלי תמונות. כאן אפשר למצוא את כל המונחים במילון המונחים.

A

מציאות רבודה

#image

טכנולוגיה שמוסיפה תמונה ממוחשבת לנקודת המבט של המשתמש על העולם האמיתי, וכך מספקת תצוגה מורכבת.

מקודד אוטומטי

#language
#image

מערכת שלומדת לחלץ את המידע החשוב ביותר מהקלט. מקודדים אוטומטיים הם שילוב של מקודד ומפענח. מקודדים אוטומטיים פועלים לפי התהליך הדו-שלבי הבא:

  1. המקודד ממפה את הקלט לפורמט עם אובדן-ממדי נמוך (בדרך כלל) (ביניים).
  2. המפענח בונה גרסה עם אובדן של הקלט המקורי על ידי מיפוי של הפורמט במימדים נמוכים יותר לפורמט הקלט המקורי בעל המאפיינים הגבוהים יותר.

מקודדים אוטומטיים מאומנים מקצה לקצה כך שהמפענח מנסה לשחזר את הקלט המקורי מפורמט הביניים של המקודד, ככל האפשר. מכיוון שפורמט הביניים קטן יותר (במימדי תחתון) מהפורמט המקורי, המקודד האוטומטי נאלץ ללמוד איזה מידע מהקלט הוא חיוני, והפלט לא יהיה זהה לחלוטין לקלט.

לדוגמה:

  • אם נתוני הקלט הם גרפיקה, העותק הלא מדויק יהיה דומה לגרפיקה המקורית, אבל ישתנה קצת. אולי העותק הלא מדויק מסיר את הרעש מהגרפיקה המקורית או ממלא כמה פיקסלים חסרים.
  • אם נתוני הקלט הם טקסט, מקודד אוטומטי יוצר טקסט חדש שמחקה את הטקסט המקורי (אבל לא זהה לו).

למידע נוסף, ראו גם מקודדים אוטומטיים הווריאנטים.

מודל רגרסיבי אוטומטי

#language
#image
#generativeAI

model שמסיק חיזוי על סמך חיזויים קודמים שלו. לדוגמה, מודלים של שפה עם רגרסיה אוטומטית חוזים את האסימון הבא על סמך האסימונים הצפויים בעבר. כל מודלים גדולים של שפה (LLM) שמבוססים על Transformer הם רגרסיביות אוטומטית.

לעומת זאת, מודלים של תמונות שמבוססים על GAN בדרך כלל לא רגרסיביים אוטומטית, כי הם יוצרים תמונה בהעברה אחת להעברה, ולא באופן איטרטיבי בשלבים. עם זאת, חלק מהמודלים ליצירת תמונות חוזרים באופן אוטומטי כי הם יוצרים תמונה בשלבים.

B

תיבה תוחמת (bounding box)

#image

בתמונה, הקואורדינטות (x, y) של מלבן מסביב לאזור עניין, כמו הכלב בתמונה שלמטה.

תמונה של כלב יושב על ספה. תיבה תוחמת ירוקה
 עם קואורדינטות (275, 1271) בצד שמאל למעלה וקואורדינטות (2954, 2761)
 מצד ימין
 מקיפים את גופו של הכלב.

C

Conolution

#image

במתמטיקה, אפשר לדבר לקהל הרחב כשילוב של שתי פונקציות. בלמידת מכונה, קונבולוציה משלבת את המסנן המתקפל ואת מטריצת הקלט כדי לאמן משקולות.

המונח "קונובולציה" בלמידת מכונה הוא לעיתים קרובות דרך מקוצרת להתייחס לפעולה קונבולטורית או לשכבה קונבולטורית.

ללא קפיצות, אלגוריתם של למידת מכונה יצטרך ללמוד משקל נפרד לכל תא בtensor גדול. לדוגמה, אימון אלגוריתם של למידת מכונה על תמונות בגודל 2Kx2K ייאלץ למצוא 4 מיליון משקולות נפרדות. בזכות הפולים, האלגוריתם של למידת המכונה צריך למצוא את המשקולות לכל תא רק באמצעות המסנן המתחלף, וכך לצמצם באופן משמעותי את הזיכרון הנדרש לאימון המודל. כשמפעילים את המסנן המתקפל, הוא משוכפל בין תאים כך שכל אחד מהם מוכפל במסנן.

מסנן מפותל

#image

אחד משני השחקנים בפעולה קונבולטורית. (השחקן השני הוא פרוסה במטריצת קלט). מסנן קונבולוציה הוא מטריצה שיש לה דירוג זהה לזה של מטריצת הקלט, אבל צורה קטנה יותר. לדוגמה, בהינתן מטריצת קלט בגודל 28x28, המסנן יכול להיות כל מטריצה דו-ממדית קטנה מ-28x28.

בתהליך הצילום, כל התאים במסנן מפותל מוגדרים בדרך כלל לתבנית קבועה של אפסים ואחדים. בלמידת מכונה, מסננים אנלוגיים בדרך כלל מיוצרים עם מספרים אקראיים, ואז רכבות הרשת מייצגות את הערכים האידיאליים.

שכבה מתוחכמת

#image

שכבה של רשת נוירונים עמוקה שבה מסנן מסתובב מעביר מטריצת קלט. דוגמה למסנן מסתובב ביחס גובה-רוחב של 3x3:

מטריצה מסדר 3x3 עם הערכים הבאים: [[0,1,0], [1,0,1], [0,1,0]]

האנימציה הבאה מציגה שכבה מפותלת שמורכבת מ-9 פעולות סיבוביות שכוללות מטריצת קלט של 5x5. שימו לב שכל פעולה אנלוגית פועלת על פרוסה שונה בגודל 3x3 של מטריצת הקלט. המטריצה שמתקבלת בגודל 3x3 (בצד שמאל) מורכבת מהתוצאות של 9 הפעולות המתקפלות:

אנימציה שמציגה שתי מטריצות. המטריצה הראשונה היא המטריצה בגודל 5x5:
          המטריצה השנייה היא המטריצה בגודל 3x3:
          [[181,303,618], [115,338,605], [169,351,560]].
          המטריצה השנייה מחושבת על ידי החלת המסנן המסוך [[0, 1, 0], [1, 0, 1], [0, 1, 0]] על פני קבוצות משנה שונות של 3x3 במטריצה.

רשת עצבית מתקפלת

#image

רשת נוירונים שבה לפחות שכבה אחת היא שכבה אנלוגית. רשת נוירונים מפותלת טיפוסית מורכבת משילוב כלשהו של השכבות הבאות:

רשתות נוירונים מלאכותיות נחלו הצלחה רבה בסוגים מסוימים של בעיות, כמו זיהוי תמונות.

פעולה מפותלת

#image

הפעולה המתמטית הדו-שלבית הבאה:

  1. הכפלה ברמת הרכיבים של המסנן המתקפל ופרוסה של מטריצת קלט. (לפלח של מטריצת הקלט יש אותו דירוג וגודל כמו המסנן המתקפל).
  2. סכום כל הערכים במטריצת המוצרים שמתקבלת.

לדוגמה, שימוש במטריצת הקלט הבאה בגודל 5x5:

מטריצת 5x5: [[128,97,53,201,198], [35,22,25,200,195],
          [37,24,28,197,182], [33,28,92,195,179,9,10,195,179], [31]

עכשיו נניח את המסנן הבא שגודלו 2x2:

המטריצה של 2x2: [[1, 0], [0, 1]]

בכל פעולת קונבולוציה יש פרוסה אחת בגודל 2x2 של מטריצת הקלט. לדוגמה, נניח שאנחנו משתמשים בפלח של 2x2 שבפינה השמאלית העליונה של מטריצת הקלט. כך, פעולת הפיתול בקטע הזה נראית כך:

החלת המסנן המתקפל [[1, 0], [0, 1]] בחלק השמאלי העליון של 2x2 של מטריצת הקלט, [[128,97], [35,22]].
          המסנן המתקפל משאיר את הערכים 128 ו-22 ללא שינוי, אבל
          מאפס את 97 ו-35. כתוצאה מכך, פעולת הקנבוס תניב את הערך 150 (128+22).

שכבה קונבולטורית מורכבת מסדרה של פעולות מתקפלות, שכל אחת מהן פועלת על פלח אחר של מטריצת הקלט.

D

הרחבת נתונים

#image

הגדלה מלאכותית של הטווח והמספר של האימונים לדוגמה, על ידי טרנספורמציה של דוגמאות קיימות כדי ליצור דוגמאות נוספות. לדוגמה, נניח שתמונות הן אחד המאפיינים שלכם, אבל מערך הנתונים לא מכיל מספיק דוגמאות של תמונות כדי שהמודל יוכל ללמוד שיוכים שימושיים. במצב אידיאלי תצטרכו להוסיף למערך הנתונים מספיק תמונות מסומנות כדי לאפשר אימון תקין של המודל. אם זה לא אפשרי, הרחבת הנתונים יכולה לסובב, למתוח ולשקף כל תמונה כדי ליצור וריאנטים רבים של התמונה המקורית, וכך לקבל מספיק נתונים מתויגים כדי לאפשר אימון מצוין.

רשת עצבית מתקפלת שאפשר להפריד בעומק (sepCNN)

#image

ארכיטקטורה של רשת עצבית מתקפלת שמבוססת על התחלה, אבל במקום שבו המודולים של Inception מוחלפים בקונבולוציות שניתנות להפרדה לעומק. נקרא גם Xception.

כדי ליצור קונבולוציה מופרדת בעומק (שמופיעה גם בקיצור כניתן להפרדה) היא יוצרת קונבולוציה תלת-ממדית סטנדרטית לשתי פעולות קונבולוציה נפרדות שהן יעילות יותר מבחינה ממוחשבת: הראשונה, הפמוטת עומק, עם עומק 1 (קמבול ש-1 (n להשיב n וויטה 1) ולאחר מכן הערך 1 (ערך n n סולם 1) ולאחר מכן ערך 1 (ערך n n סולם 1), ואז הערך 1 (ערך n רוכשים 1), ולאחר מכן ערך 1 (ערך n n סולם 1), הנקודה הראשונה.

למידע נוסף, קראו את המאמר Xception: למידה עמוקה (Deep Learning) עם קונבולוציות שניתנות להפרדת עומק.

דגימה למטה

#image

מונח עמוס מדי שיכול לנבוע מאחת האפשרויות הבאות:

  • לצמצם את כמות המידע בתכונה כדי לאמן מודל בצורה יעילה יותר. לדוגמה, לפני אימון של מודל לזיהוי תמונות, כדאי להקטין את הדגימה של תמונות ברזולוציה גבוהה לפורמט ברזולוציה נמוכה יותר.
  • אימון על אחוז נמוך באופן לא פרופורציונלי של דוגמאות כיתה שמיוצגות יתר על המידה כדי לשפר את אימון המודלים בכיתות שסובלות מחוסר ייצוג. לדוגמה, במערך נתונים לא-מאוזן בין כיתה, מודלים נוטים ללמוד הרבה על סיווג הרוב, ולא מספיק על סיווג מיעוט. דגימה נמוכה עוזרת לאזן בין כמות האימון בכיתות הרוב ובכיתות המיעוט.

F

כוונון עדין

#language
#image
#generativeAI

פס אימון נוסף שספציפי למשימה מבוצע על מודל שעבר אימון מראש, כדי לחדד את הפרמטרים שלו בתרחיש ספציפי לדוגמה. לדוגמה, רצף האימון המלא בחלק ממודלים גדולים של שפה הוא:

  1. הדרכה מקדימה: אימון מודל שפה גדול על מערך נתונים כללי גדול, כמו כל דפי הוויקיפדיה באנגלית.
  2. כוונון עדין: אפשר לאמן את המודל שעבר אימון מראש לבצע משימה ספציפית, כמו מענה לשאילתות רפואיות. לרוב, כוונון עדין כולל מאות או אלפי דוגמאות שמתמקדות במשימה הספציפית.

דוגמה נוספת: רצף האימון המלא של מודל תמונה גדול הוא:

  1. pre-training: אימון מודל תמונה גדול על מערך נתוני תמונות כללי נרחב, כמו כל התמונות ב-Wikimedia Common.
  2. כוונון עדין: אפשר לאמן את המודל שעבר אימון מראש לבצע משימה ספציפית, כמו יצירת תמונות של אורקות.

כוונון עדין יכול לכלול כל שילוב של האסטרטגיות הבאות:

  • שינוי כל הפרמטרים הקיימים במודל שעבר אימון מראש. פעולה זו נקראת לפעמים כוונון עדין מלא.
  • שינוי רק חלק מהפרמטרים הקיימים של המודל שעבר אימון מראש (בדרך כלל, השכבות הקרובות ביותר לשכבת הפלט), תוך השארת הפרמטרים הקיימים ללא שינוי (בדרך כלל, השכבות הקרובות ביותר לשכבת הקלט). למידע נוסף, ראו כוונון לפי פרמטר יעיל.
  • הוספת שכבות נוספות, בדרך כלל מעל השכבות הקיימות הקרובות ביותר לשכבת הפלט.

כוונון עדין הוא סוג של העברת למידה. לכן, יכול להיות שכוונון עדין ישתמש בפונקציית אובדן אחרת או בסוג מודל אחר מאלה ששימשו לאימון המודל שעבר אימון מראש. לדוגמה, אפשר לכוונן מודל תמונה גדול שעבר אימון מראש כדי ליצור מודל רגרסיה שמחזיר את מספר הציפורים בתמונת קלט.

משווים ומשווים כוונון עדין בעזרת המונחים הבאים:

G

בינה מלאכותית גנרטיבית

#language
#image
#generativeAI

שדה טרנספורמטיבי מתפתח ללא הגדרה רשמית. עם זאת, רוב המומחים מסכימים שמודלים של בינה מלאכותית גנרטיבית יכולים ליצור ("ליצור") תוכן שכולו:

  • מורכב
  • קוהרנט
  • מקורית

לדוגמה, מודל של בינה מלאכותית גנרטיבית יכול ליצור תמונות או מאמרים מתוחכמים.

כמה מהטכנולוגיות הקודמות, כולל LSTM ורשתות RNN, יכולות גם ליצור תוכן מקורי ועקבי. חלק מהמומחים מתייחסים לטכנולוגיות הקודמות האלה כבינה מלאכותית גנרטיבית, ואילו אחרים סבורים שבינה מלאכותית גנרטיבית אמיתית דורשת פלט מורכב יותר מאשר הטכנולוגיות הקודמות יכולות להפיק.

בניגוד ללמידת מכונה חזויה.

I

זיהוי תמונות, זיהוי תמונה

#image

תהליך שמסווג אובייקטים, תבניות או מושגים בתמונה. זיהוי תמונות נקרא גם סיווג תמונות.

מידע נוסף זמין במאמר ML Practicum: סיווג תמונות.

צומת מעל איחוד (IoU)

#image

ההצטלבות של שתי קבוצות חלקי האיחוד שלהן. במשימות של זיהוי תמונות בלמידת מכונה, נעשה שימוש ב-IoU כדי למדוד את הדיוק של התיבה התוחמת החזויה של המודל ביחס לתיבה התוחמת ground-truth. במקרה הזה, ה-IoU של שתי התיבות הוא היחס בין האזור החופף לשטח הכולל, והערך שלו נע מ-0 (ללא חפיפה בין התיבה התוחמת החזויה והתיבה התוחמת החזויה) ל-1 (לתיבה תוחמת חזויה ולתיבה תוחמת אמת לקרקע יש אותן קואורדינטות בדיוק).

לדוגמה, בתמונה הבאה:

  • התיבה התוחמת החזויה (הקואורדינטות שמפרידות בין המיקום שבו המודל מנבא את טבלת הלילה בציור) מתוארת בסגול.
  • התיבה התוחמת את האמת (הקואורדינטות שמפרידות בין המיקום של שולחן הלילה בציור) מתוארת בירוק.

ציור ואן גוך 'חדר השינה של וינסנט בארל', עם שתי תיבות תוחמות שונות מסביב לשולחן הלילה ליד המיטה. התיבה התוחמת את האמת
          שבירוק (בירוק) מתארת בצורה מושלמת את שולחן הלילה. התיבה התוחמת החזויה (בסגול) מקוזזת 50% למטה ולימין
 של התיבה התוחמת את האמת הבסיסית. היא מקיפה את החלק הימני התחתון של טבלת הלילה, אך מפספסת את שאר הטבלה.

כאן, ההצטלבות של התיבות התוחמות לחיזוי ולאמת הקרקעית (מתחת לשמאל) היא 1, ואיחוד התיבות תוחמות לחיזוי ולאמת קרקע (מתחת לימין) הוא 7, כך שה-IoU הוא \(\frac{1}{7}\).

אותה תמונה כמו למעלה, אבל כאשר כל תיבה תוחמת מחולקת לארבעה
          ריבועים. יש שבעה רבעונים בסך הכול, כשהרבע הימני התחתון של התיבה התוחמת אמת הקרקע והריבוע השמאלי העליון של התיבה התוחמת החזויה חופפת זה לזה. הקטע החופף (מודגש בירוק) מייצג את הצומת והשטח שלו הוא 1. אותה תמונה כמו למעלה, אבל כאשר כל תיבה תוחמת מחולקת לארבעה
          ריבועים. יש שבעה רבעונים בסך הכול, כשהרבע הימני התחתון של התיבה התוחמת אמת הקרקע והריבוע השמאלי העליון של התיבה התוחמת החזויה חופפת זה לזה.
          כל החלק הפנימי שמוקף בשתי תיבות תוחמות (מודגש בירוק) מייצג את האיחוד, ויש לו שטח של 7.

K

נקודות מפתח

#image

הקואורדינטות של תכונות מסוימות בתמונה. לדוגמה, במודל זיהוי תמונות שמבדיל בין זני פרחים, נקודות מפתח יכולות להיות המרכז של כל עלי כותרת, גזע, סטמן וכן הלאה.

L

ציוני דרך

#image

מילה נרדפת ל-keypoints.

M

MNIST

#image

מערך נתונים מהדומיין הציבורי שנוצר על ידי LeCun, Cortes ו-Burges, ומכיל 60,000 תמונות. כל תמונה מראה איך אדם כתב ספרה מסוימת באופן ידני בין 0 ל-9. כל תמונה מאוחסנת כמערך מספרים שלמים בגודל 28x28, כאשר כל מספר שלם הוא ערך בגווני אפור בין 0 ל-255, כולל.

MNIST הוא מערך נתונים קנוני ללמידת מכונה, שמשמש לעיתים קרובות לבדיקת גישות חדשות של למידת מכונה. מידע נוסף זמין במאמר מסד הנתונים של MNIST לספרות בכתב יד.

P

מאגר

#image

הקטנה של מטריצה (או מטריצות) שנוצרה על ידי שכבה קדומה למטריצה קטנה יותר. מאגר הנתונים בדרך כלל כולל את הערך המקסימלי או הממוצע בכל השטח הארגוני. לדוגמה, נניח שיש לנו את המטריצה הבאה של 3x3:

מטריצת 3x3 [[5,3,1], [8,2,5], [9,4,3]].

פעולת אגירת נתונים, בדיוק כמו פעולה מתקפלת, מחלקת את המטריצה למקטעים ולאחר מכן מחליפה את הפעולה המתקפלת לפי שלבים. לדוגמה, נניח שפעולת המאגר מחלקת את המטריצה המתקפלת לפרוסות בגודל 2x2 עם רוחב של 1x1. כפי שניתן לראות בתרשים הבא, מתבצעות ארבע פעולות איחוד. נניח שכל פעולת אגירת נתונים בוחרת את הערך המקסימלי של הארבעה בחלק הזה:

מטריצת הקלט היא 3x3 עם הערכים: [[5,3,1], [8,2,5], [9,4,3]].
          תת-המטריצה השמאלית העליונה של 2x2 של מטריצת הקלט היא [[5,3], [8,2]]. לכן
          פעולת המאגר בפינה השמאלית העליונה מניבה את הערך 8 (שהוא
          המספר המרבי של 5, 3, 8 ו-2). תת-המטריצה שבפינה הימנית העליונה של 2x2 של מטריצת הקלט היא [[3,1], [2,5]], כך שפעולת המאגר בפינה הימנית העליונה תניב את הערך 5. תת-המטריצה השמאלית התחתונה של 2x2 של מטריצת הקלט היא
          [[8,2], [9,4]], ולכן פעולת המאגר בפינה השמאלית התחתונה מניבה את הערך
          9. תת-המטריצה של 2x2 בצד ימין למטה של מטריצת הקלט היא
          [[2,5], [4,3]], ולכן פעולת המאגר בפינה הימנית התחתונה מניבה את הערך
          5. לסיכום, פעולת המאגר יוצרת מטריצת 2x2
          [[8,5], [9,5]].

מאגר הנתונים עוזר לאכוף אי-זמינות תרגום במטריצת הקלט.

מאגר של אפליקציות ראייה ידוע באופן רשמי יותר כמאגר מרחבי. אפליקציות של סדרות זמנים בדרך כלל מתייחסות למאגר בתור מאגר זמני. באופן פחות רשמי, הדגימה נקראת subssampleing או downssampleing.

שעבר אימון מקדים

#language
#image
#generativeAI

מודלים או רכיבי מודל (למשל וקטור הטמעה) שכבר אומנו. לפעמים צריך להזין וקטורים של הטמעה מאומנים ברשת נוירונים. במקרים אחרים, המודל יאמן את הווקטורים של ההטמעה בעצמם במקום להסתמך על הטמעות שעברו אימון מראש.

המונח מודל שפה שעבר אימון מראש מתייחס למודל שפה גדול (LLM) שעבר אימון מקדים.

לפני אימון

#language
#image
#generativeAI

אימון ראשוני של מודל על מערך נתונים גדול. חלק מהמודלים שאומנו מראש הם ענקיים מגושמים, ובדרך כלל צריך לשפר אותם באמצעות אימון נוסף. לדוגמה, מומחי למידת מכונה יכולים לאמן מראש מודל שפה גדול על מערך נתונים גדול של טקסט, כמו כל הדפים באנגלית בוויקיפדיה. לאחר אימון מראש, אפשר לשפר את המודל שיתקבל באמצעות כל אחת מהשיטות הבאות:

R

משתנים סיבוביים

#image

בבעיה בסיווג תמונות, היכולת של אלגוריתם לסווג תמונות בצורה נכונה, גם כשכיוון התמונה משתנה. לדוגמה, האלגוריתם עדיין יכול לזהות מחבט טניס בין אם הוא מצביע למעלה, הצידה או למטה. שימו לב ששונות סיבובית לא תמיד רצויה. לדוגמה, לא מומלץ לסווג 9 הפוך כ-9.

למידע נוסף, אפשר לקרוא את המאמרים אי-שונות תרגום ומידת שונות של גודל.

S

שונות של גודל

#image

במקרה של בעיה בסיווג תמונות, היכולת של אלגוריתם לסווג תמונות בצורה נכונה, גם כשגודל התמונה משתנה. לדוגמה, האלגוריתם עדיין יכול לזהות חתול אם הוא צורך 2 מיליון פיקסלים או 200K פיקסלים. שימו לב שגם לאלגוריתמים הטובים ביותר של סיווג תמונות עדיין יש מגבלות מעשיות על שונות בגודל. לדוגמה, לא סביר שאלגוריתם (או אדם) יסווג בצורה נכונה תמונת חתול שצורכת 20 פיקסלים בלבד.

למידע נוסף, תוכלו לקרוא גם על אי-זמינות תרגום ועל אי-זמינות מסתובבת.

מאגר כללי

#image

למידע נוסף, ראו איסוף נתונים.

צעד

#image

בפעולה מפותלת או במאגר, הדלתא בכל מאפיין בסדרה הבאה של פלחי הקלט. לדוגמה, האנימציה הבאה מדגימה צעד (1,1) במהלך פעולת קבילה. לכן, פרוסת הקלט הבאה מתחילה מיקום אחד מימין לפרוסת הקלט הקודמת. כשהפעולה מגיעה לקצה הימני, החלק הבא נמצא בצד שמאל, אבל מיקום אחד למטה.

מטריצת קלט של 5x5 ומסנן מפותל בגודל 3x3. מכיוון שהמדרג
     הוא (1,1), מסנן מפותל יופעל 9 פעמים. הפלח המתקפל הראשון
 בודק את תת-המטריצה השמאלית העליונה של 3x3 של מטריצת הקלט. בפלח השני נערכת הערכה של תת-המטריצה האמצעית בגודל 3x3. הפלח המשוקלל השלישי בודק את תת-המטריצה שבפינה הימנית העליונה
     של 3x3.  הפרוסה הרביעית מחשבת את תת-המטריצה של 3x3 שבצד שמאל.
     הפלח החמישי מעריך את תת-המטריצה האמצעית בגודל 3x3. הפלח השישי מכיל הערכה של התת-מטריה בגודל 3x3 מצד ימין. הפלח השביעי בודק את
     תת-המטריצה של 3x3 שבצד שמאל.  הפלח השמינית כולל הערכה של
     תת-המטריצה האמצעית בגודל 3x3. החתיכה התשיעית מחשבת את התת-מטריקס בגודל 3x3
     שבפינה הימנית התחתונה.

הדוגמה הקודמת ממחישה קו דו-ממדי. אם מטריצת הקלט היא תלת-ממדית, גם הפסיעה תהיה תלת-ממדית.

תת-דגימה

#image

למידע נוסף, ראו איסוף נתונים.

T

טמפרטורה

#language
#image
#generativeAI

היפר-פרמטר שקובע את מידת האקראיות של הפלט של המודל. טמפרטורה גבוהה יותר מובילה לפלט אקראי יותר, וטמפרטורות נמוכות יותר מניבות פחות פלט אקראי.

בחירת הטמפרטורה הטובה ביותר תלויה באפליקציה הספציפית ובמאפיינים הרצויים של הפלט של המודל. לדוגמה, סביר להניח להעלות את הטמפרטורה כשיוצרים אפליקציה שיוצרת פלט של קריאייטיב. לעומת זאת, כדאי להוריד את הטמפרטורה כשבונים מודל שמסווג תמונות או טקסט כדי לשפר את הדיוק והעקביות של המודל.

משתמשים בטמפרטורה בדרך כלל בעזרת softmax.

שונות מתורגמת

#image

בבעיה בסיווג תמונות, היכולת של אלגוריתם לסווג תמונות בצורה נכונה, גם כשמיקום האובייקטים בתמונה משתנה. לדוגמה, האלגוריתם עדיין יכול לזהות כלב, בין אם הוא נמצא במרכז המסגרת או בקצה השמאלי של המסגרת.

למידע נוסף, תוכלו לקרוא גם על מידת השונות של הגודל ושונות סיבובית.