מילון מונחים ללמידה חישובית: אשכול

דף זה מכיל מונחים של אשכול מילון מונחים. לעיון בכל המונחים של מילון המונחים, לחצו כאן.

א'

אשכול צבירה

#clustering

אשכול היררכי

ג'

סנטרואיד

#clustering

מרכז האשכול כפי שנקבע באלגוריתם k-me או k-median. למשל, אם k הוא 3, אז האלגוריתם של k-mediums או k- החציון מוצא 3 צנטרואיד.

אשכולות המבוססים על סנטרואיד

#clustering

קטגוריה של אלגוריתמים של אשכולות שמארגנים את הנתונים באשכולות לא היררכיות. k-mean הוא אלגוריתם האשכולות המבוסס על מרכז.

ניגודיות עם האלגוריתמים של אשכול היררכי.

אשכולות

#clustering

קיבוץ דוגמאות קשורות, במיוחד במהלך הלמידה ללא פיקוח. אחרי שכל הדוגמאות מקובצות, המשתמש יכול לספק משמעות לכל אשכול.

יש הרבה אלגוריתמים של אשכולות. לדוגמה, האלגוריתם k-mean מקבץ אשכולות על סמך הקרבה שלהם לצנטרואיד, כמו בתרשים הבא:

תרשים דו-מימדי שבו ציר ה-X מסומן בתווית 'רוחב עץ' וציר ה-y מסומן בתווית 'גובה עץ'. התרשים מכיל שני מרכזים
          ומספר עשרות נקודות נתונים. נקודות הנתונים מסווגות לפי מידת הקרבה שלהן. כלומר, הנקודות על הגרף
 הקרובות ביותר לצנטרואיד מסווגות כ 'אשכול 1', ואילו הנקודות הקרובות ביותר לצנטרואיד השני מסווגות כ 'אשכול 2'.

לאחר מכן חוקר אנושי יוכל לבדוק את האשכולות, לדוגמה, לתייג את אשכול 1 כ "עצים ננסיים", ואת אשכול 2 כ "עצים בגודל מלא".

כדוגמה נוספת, כדאי להשתמש באלגוריתם קיבוץ על סמך המרחק של הדוגמה מנקודה מרכזית, כפי שמתואר כאן:

עשרות נקודות נתונים מאורגנות במעגלי מרכז, כמעט כמו חורים סביב מרכז של לוח קליעה למטרה. הטבעת הפנימית ביותר של נקודות הנתונים מסווגת כ'אשכול 1', הטבעת האמצעית מסווגת כאשכול 2 והטבעת החיצונית ביותר מכילה את אשכול 3.

D

אשכולות מפוצלים

#clustering

אשכול היררכי

H

אשכול היררכי

#clustering

קטגוריה של אשכולות שיוצרים עץ של אשכולות. אשכולות היררכיים מתאימים היטב לנתונים היררכיים, כמו טקסונומיות בוטניות. יש שני סוגים של אלגוריתמים של קיבוץ בהיררכיה:

  • קודם כל, אשכולות מצטבר מקצה כל דוגמה לאשכול שלו, וממזג באופן קבוע את האשכולות הקרובים ביותר כדי ליצור עץ היררכי.
  • אשכולות לפי חלוקה מקבצים קודם את כל הדוגמאות לאשכול אחד ואז מחלקים את האשכול באופן היררכי לעץ היררכי.

ליצור ניגודיות עם אשכולות שמבוססים על מרכזיות.

K

סימן k

#clustering

אלגוריתם פופולרי של אשכולות שמקבץ דוגמאות בלמידה ללא פיקוח. האלגוריתם של k-in בעיקרון מבצע את הפעולות הבאות:

  • קובע באופן קבוע את הנקודות הטובות ביותר של k center (הנקראים צנטרואיד).
  • הקצאה של כל דוגמה לסנטרואיד הקרוב ביותר. הדוגמאות האלה של אותו סנטר שייכות לאותה קבוצה.

האלגוריתם של ה-k-e בוחר מיקומים בסנטרויד כדי למזער את הריבוע המצטבר של כל אחת מהדוגמאות לכל סנטרואיד הקרוב אליו.

דוגמאות:

עלילה קרטזית עם עשרות נקודות נתונים.

אם k=3, אלגוריתם k-mes יקבע שלושה צנטרואידים. כל דוגמה מוקצית לצנטרואיד הקרוב ביותר, ויוצרת שלוש קבוצות:

אותה עלילה בסגנון קרטזי כמו באיור הקודם, מלבד הוספת שלושה סנטרים.
          נקודות הנתונים הקודמות מקובצות ל-3 קבוצות נפרדות, כשכל קבוצה מייצגת את נקודות הנתונים הקרובות ביותר לצנטרואיד מסוים.

נניח שיצרן רוצה לקבוע את הגדלים האידיאליים לסוודרים קטנים, בינוניים וגדולים לכלבים. שלושת הסנטרואים מזהים את הגובה הממוצע ואת הרוחב הממוצע של כל כלב באשכול הזה. לכן, סביר להניח שהיצרן יתבסס על מידות של סוודרים בשלושת הסנטרואים. שימו לב שהמרכז של אשכול בדרך כלל לא דוגמה באשכול.

באיורים הקודמים תוכלו לראות k- צוותים לדוגמה עם שתי תכונות בלבד (גובה ורוחב). שימו לב ש-k-ens יכול לקבץ דוגמאות בתכונות רבות.

חציון

#clustering

אלגוריתם של אשכול שקשור באופן הדוק ל-k-me. ההבדל המעשי בין השניים הוא:

  • כלומר, ב-k-entroids, הם מצמצמים את סכום הריבועים של המרחק בין המועמד למרכז לבין כל אחת מהדוגמאות.
  • בחציון, הצנטרואידים נקבעים על ידי צמצום סך המרחק בין המועמד למרכז לבין כל אחת מהדוגמאות.

שימו לב שההגדרות של המרחק שונות:

  • המשמעות של k-להיעזר במרחק האוקלידי מהסנטרויד לדוגמה. (בשני מאפיינים, ריחוק האוקלידי פירושו שימוש במשפט פיתגורס לחישוב היתר. לדוגמה, המרחק בין הקילומטרים (2,2) עד 5,0-2 הוא:
$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$
  • חציון של k-leid מסתמך על המרחק במנהטן מהסנטרויד לדוגמה. המרחק הזה הוא הסכום של הדלתיות המוחלטות בכל מימד. לדוגמה, המרחק החציוני של k בין (2,2) לבין (5,-2) יהיה:
$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

S

מדד דמיון

#clustering

באלגוריתמים של אשכולות, המדד שמשמש לקביעת מידת הדמיון בין שתי דוגמאות (כמותיות).

רישום

#clustering

בלמידת מכונה לא בפיקוח, קטגוריה של אלגוריתמים שמבצעים ניתוח דמיון מקדים על דוגמאות. אלגוריתמים של שרטוט משתמשים ב פונקציית גיבוב (hash) הרגישה לאוכלוסיה כדי לזהות נקודות שעשויות להיות דומות, ולאחר מכן מקבצים אותן לקטגוריות.

השרטוט מפחית את החישוב שנדרש לחישובי דמיון במערכי נתונים גדולים. במקום לחשב את הדמיון בין כל זוג דוגמאות במערך הנתונים, אנחנו מחשבים את הדמיון רק עבור כל זוג נקודות בתוך כל קטגוריה.

T

ניתוח פעולות על ציר הזמן

#clustering

שדה משנה של למידת מכונה ונתונים סטטיסטיים שמנתחים נתונים זמניים. סוגים רבים של בעיות בלמידת מכונה מחייבים ניתוח פעולות על ציר הזמן, כולל סיווג, אשכולות, חיזוי וזיהוי אנומליות. לדוגמה, תוכלו להשתמש בניתוח של סדרות זמנים כדי לחזות את המכירות העתידיות של מעילי חורף לפי חודש על סמך נתוני מכירות היסטוריים.

U

למידת מכונה לא בפיקוח

#clustering
#fundamentals

אימון של מודל כדי למצוא תבניות במערך נתונים, בדרך כלל במערך נתונים ללא תווית.

השימוש הנפוץ ביותר בלמידת מכונה לא בפיקוח הוא אשכול בקבוצות של דוגמאות דומות. לדוגמה, אלגוריתם של למידה חישובית שאינו בפיקוח יכול לקבץ שירים על סמך מאפיינים שונים של המוזיקה. האשכולות שמתקבלים יכולים להיות קלט לאלגוריתמים אחרים של למידת מכונה (לדוגמה, לשירות המלצות על מוזיקה). אשכולות יכולים לעזור כשחסרים תוויות מועילות או שחסרים להן תוויות. לדוגמה, בדומיינים כמו מניעת ניצול לרעה והונאות, אשכולות יכולים לעזור לאנשים להבין טוב יותר את הנתונים.

ניגודיות עם למידת מכונה בפיקוח.