יתרונות וחסרונות של משקל ממוצע

היתרונות של k ממוצע

פשוט יחסית להטמעה.

התאמה לקבוצות גדולות של נתונים.

הבטחת המרות.

ניתן להתחמם את המיקומים של סנטרואיד.

מעבר בקלות לדוגמאות חדשות.

כללית מחולקת לאשכולות צורות וגדלים שונים, כגון אשכולות אליפטיים.

k-כלומר, כללי

מה קורה כשאשכולות שונים בגדלים שונים. איור 1. משווים בין האשכולות האינטואיטיביים בצד שמאל לבין האשכולות שנמצאים בפועל בממשים של K בצד שמאל. ההשוואה מראה איך K-אתם יכולים להיתקל במערכי נתונים מסוימים.

שני תרשימים זה לצד זה. הראשון מציג מערך נתונים עם אשכולות ברורים במקצת. השנייה מציגה קיבוץ אי-זוגי של דוגמאות לאחר הרצת אמצעי k.
איור 1: דוגמה של k-כלומר, לא כללי.

כדי לצבור אשכולות לא מאוזן באופן טבעי, כמו האשכולות המוצגים באיור 1, אפשר להתאים (להקליד) ממוצעים של K. באיור 2, הקווים מציגים את גבולות האשכול לאחר הכללה של K-הכוונה כ:

  • עלילה שמאלית: ללא הכללה, וכתוצאה מכך גובל גבול אשכולי לא אינטואיטיבי.
  • עלילה מרכזית: התרת רוחבי אשכולות שונים, שיובילו לאשכולות אינטואיטיביים יותר בגדלים שונים.
  • עלילה ימנית: מלבד רוחב אשכולות שונה, אפשר רוחב שונה לכל מימד, כדי לקבל אליפטיקל במקום אשכולות כדוריים, כדי לשפר את התוצאה.
שני תרשימים זה לצד זה. הראשון הוא דוגמה לאשכול בצורת כדור, והשני הוא דוגמה לאשכול.
איור 2: דוגמה לאשכול עגול ודוגמה באשכול שאינו כדורי.

הקורס הזה לא עוסק בפירוט כדי ליצור כללי K, אבל חשוב לזכור שהיכולת לשנות את ה-K-Kens היא סיבה נוספת לכך. למידע על הכללה של אמצעי K, יש לעיין באשכול – דגמי תערובת גאוסיאנית K- ממוצעים על ידי קרלוס אורחין מאוניברסיטת קרנגי מלון.

חסרונות של ממוצע K

בחירה \(k\) ידנית.

השתמשו בתרשים "הפסד לעומת אשכולות" כדי למצוא את האופטימלי (k), כפי שמתואר בתרגום התוצאות.

תלויים בערכים הראשוניים.

אם הערך נמוך \(k\), אפשר לצמצם את התלות הזו באמצעות הרצת k פעמים בערכים ראשוניים שונים ובחירת התוצאה הטובה ביותר. ככל \(k\) שגדל, נדרשות גרסאות מתקדמות של אמצעי K כדי לבחור ערכים טובים יותר של הסנטרואים הראשוניים (שנקראים זריעה מסוג k-הכוונה). כדי לפתח דיון מלא על זריעה תוך התמקדות בזרעי קרקע, אפשר להשוות בין שיטות מתודולוגיות לאתחול יעיל של אשכול K-Menes (אקלים) של M. אמרה סלבי, חסן א. קינגרביי, פטריוו א. ולה.

מקבץ נתונים בגדלים שונים ובדחיסות שונות.

כשמקישים על K, המשמעות היא שאשכולות הנתונים מקובצים באשכולות בגדלים שונים. כדי לקבץ נתונים כאלה, צריך להוסיף הכללה של אמצעי K כמתואר, בקטע יתרונות.

אשכולות יוצאי דופן.

ניתן לגרור את הסנטרואים על ידי נקודות קיצון, או שדפים חיצוניים יצברו אשכול משלהם במקום להתעלם מהם. כדאי לשקול להסיר או לחתוך את קטעי המסמך לפני שמתחילים באשכולות.

התאמה לעומס (scaling) באמצעות מספר מאפיינים.

ככל שמספר המאפיינים גדל, מידת הדמיון המבוססת על מרחק מתרחבת לערך קבוע בין כל אחת מהדוגמאות הנתון. מפחיתים את מידת המאפיינים באמצעות שימוש ב-PCA בנתוני התכונות, או באמצעות "אשכולות ספקטרום" כדי לשנות את אלגוריתם הקיבוץ, כפי שמוסבר בהמשך.

קללות של מימד ואשכולות ספקטרליים

העלים האלה מראים איך היחס בין סטיית התקן לבין מרחק המרחק בין הדוגמאות גדל ככל שמספר המאפיינים עולה. המשמעות של המשמעות הזו היא שמשמעות K היא פחות יעילה בהבחנה בין דוגמאות. תוצאה שלילית זו של נתונים בעלי מאפיינים גבוהים נקראת קללת המאפיינים.

שלושה עליות שמראים את סטיית התקן של המרחק בין הדוגמאות ככל שמספר המאפיינים עולה
איור 3: הדגמה של קללת המימד. כל תרשים מציג את המרחקים המותאמים בין 200 נקודות אקראיות.

אשכולת ספקטרום מונעת קללות של מימדיות על ידי הוספת שלב של אשכול מראש לאלגוריתם:

  1. שימוש ב-PCA יכול לצמצם את המידות של נתוני התכונות.
  2. אתם יכולים להקרין את כל הנקודות על פני השטח של האזור המשני-למאפיינים קטנים יותר.
  3. אשכול את הנתונים במרחב המשנה הזה באמצעות האלגוריתם שבחרת.

לכן, אשכולות ספקטרום אינם אלגוריתם של אשכולות נפרדים, אלא שלב של אשכול מקדים שבו ניתן להשתמש עם כל אלגוריתם של קיבוץ. הפרטים של אשכולות ספקטרום מורכבים. צפו במדריך על אשכולות ספקטרום מאת אולריק פון לוקסבורג.