תהליך אשכול

כדי לקבץ את הנתונים, יש לבצע את השלבים הבאים:

  1. מכינים את הנתונים.
  2. יוצרים מדד דמיון.
  3. הרצת אלגוריתם של קיבוץ באשכולות.
  4. יש לפרש את התוצאות ולשנות את האשכולות.

דף זה מפרט בקצרה את השלבים. נפרט לעומק בקטעים הבאים.

ארבעת השלבים בתהליך העבודה של האשכול

הכנת נתונים

כמו בכל בעיה שקשורה ללמידת מכונה, צריך לנרמל, לשנות קנה מידה ולשנות את נתוני התכונות. עם זאת, בזמן שאתם מקבצים את הנתונים, תצטרכו גם לוודא שהנתונים מוכנים כדי לחשב את הדמיון בין הדוגמאות. הקטעים הבאים דנים בהתעניינות הזו.

יצירת מדד דמיון

לפני שאלגוריתם של אשכולות יוכל לקבץ נתונים, הוא צריך לדעת עד כמה התאמות דומות של דוגמאות. אתם מכמת את הדמיון בין דוגמאות על ידי יצירת מדד דמיון. כדי ליצור מדד דמיון, צריך להבין היטב את הנתונים שלכם ואיך לגזור דמיון בין התכונות שלכם.

אלגוריתם הרצת אשכול

אלגוריתם של אשכולות משתמש במדד הדמיון כדי לקבץ נתונים. הקורס הזה מתמקד באובייקטים של K.

פרשנות של תוצאות וביצוע התאמות

בדיקת האיכות של פלט האשכולות היא איטרטיבית וחוקרת, כי באשכולות אין 'אמת' שמאפשרת לאמת את הפלט. אתם מאמתים את התוצאה מול ציפיות ברמת האשכול וברמת הדוגמה. כדי לשפר את התוצאה, צריך לבצע ניסויים חוזרים עם השלבים הקודמים כדי לראות איך הם משפיעים על האשכול.