السلبيات والعيوب

مزايا المعارف

سهولة التنفيذ نسبيًا.

التوسعة لمجموعات البيانات الكبيرة

ضمان نوع المحتوى ذي الصلة

يمكن أن يؤدي هذا الوضع إلى بدء التدفئة في مواضعها.

التكيُّف بسهولة مع الأمثلة الجديدة

عمولة لمجموعات من الأشكال والأحجام المختلفة، مثل المجموعات البيضاوية.

تعميم k-معني

ماذا يحدث عندما تكون المجموعات ذات كثافات وأحجام مختلفة؟ انظر إلى الشكل 1. قارِن بين المجموعات البسيطة على الجانب الأيمن والمجموعات التي تم العثور عليها فعليًا من خلال القيمة k على الجانب الأيمن. وتوضّح المقارنة كيف يمكن أن تظهر عمليات التثبيت على مجموعات بيانات معيّنة.

رسمان بيانيان جنبًا إلى جنب. أول مجموعة بيانات تعرض مجموعات واضحة إلى حدّ ما الثاني يعرض تجميعًا فرديًا للأمثلة بعد تنفيذ k-mean.
الشكل 1: مثال عن معنى ألف عام.

لتجميع مجموعات غير متوازنة بشكل طبيعي مثل المجموعات الموضحة في الشكل 1، يمكنك تكييف (k) ويعني ذلك بشكل عام. في الشكل 2، تعرض الأسطر حدود المجموعة بعد عمومية k تعني ما يلي:

  • مخطّط أيسر: ما من نظرة عامة، ما يؤدي إلى حدود بديهية للمجموعة.
  • الوسط: السماح بعرض مجموعة مختلفة، ما يؤدي إلى إنشاء مجموعات أكثر واقعية من أحجام مختلفة.
  • مخطط لليمين: بالإضافة إلى عرض المجموعات المختلفة، يتم السماح بعرض مختلف لكل بُعد، ما يؤدي إلى تمارين بيضاوية بدلاً من مجموعات كروية، ما يؤدي إلى تحسين النتيجة.
رسمان بيانيان جنبًا إلى جنب. أول مثال على مجموعة كروية والثانية مثال على مجموعة غير كروية.
الشكل 2: مثال على شكل كروي ومثال على مجموعة غير كروية.

وفي حين أنّ هذه الدورة التدريبية لا تتناول بالتفصيل كيفية تعميم K-معنيّة، فتذكّر أنّ سهولة تعديل k-means هي سبب آخر وراء فعاليتها. للحصول على معلومات حول عمومية k-means، يمكنك الاطّلاع على التجميع – نماذج K-means Gaussian من "كارلوس ضيفن" من جامعة "كارنيغي ميلون".

سلبيات المعالِف الأساسي

الاختيار \(k\) يدويًا:

استخدِم مخطّط "خسارة مقارنة بين مجموعات" للعثور على الصيغة المثلى (k)، كما تمت مناقشته في تفسير النتائج.

الاعتماد على القيم الأولية:

وبالنسبة إلى القيمة المنخفضة \(k\)، يمكنك تقليل هذا الاعتماد من خلال تشغيل الأمر k عدة مرات بقيم أولية مختلفة واختيار أفضل نتيجة. مع زيادة \(k\) التي تحتاج إلى إصدارات متقدّمة من k-means لاختيار قيم أفضل للنقاط المئوية الأولية (تُسمى k-means Seeding) للمناقشة الكاملة حول عملية التصنيف الأوليّ، تعرّف على المنهج المقارن للمقارنة بين طرق الإعداد الفعالة لـ K-Means Clustering الخوارزمية من M. "إمرّي سيلبي" و"حسن أ." كينغرافي، باتريسيو أ. فيلا

بيانات مجمّعة بأحجام وكثافة مختلفة.

وتواجه مشاكل k-معانًا مشكلة في تجميع البيانات حيث تكون المجموعات بأحجام وكثافة متفاوتة. لتجميع هذه البيانات، عليك بشكل عام دلالة تعريف k كما هو موضّح في القسم المزايا.

تجميع القيم الشاذّة:

ويمكن سحب القيم الوسطى من القيم الشاذّة، أو يمكن أن تحصل القيم الخارجية على مجموعة خاصة بها بدلاً من تجاهلها. وننصحك بإزالة القيم الشاذّة أو قصها قبل التجميع.

تحجيم باستخدام عدد الأبعاد:

عند زيادة عدد الأبعاد، يتطابق مقياس التشابه المستند إلى المسافة مع القيمة الثابتة بين أي أمثلة محدّدة. الحد من الأبعاد إما باستخدام PCA في بيانات الميزة أو باستخدام "التجميع الطيفي" لتعديل خوارزمية التجميع كما هو موضّح أدناه.

لعنة البعد والتجميع الطيفي

توضّح هذه الرسومات البيانية كيفية انخفاض نسبة الانحراف المعياري إلى متوسط المسافة بين الأمثلة كلما زاد عدد الأبعاد. وهذا يعني أنّ هذا النوع من التقارب أصبح أقل فعالية عند التمييز بين الأمثلة. وتُسمى هذه النتيجة السلبية للبيانات العالية الأبعاد لعنة "البُعد".

ثلاثة مخططات توضّح كيفية انخفاض الانحراف المعياري للمسافة بين الأمثلة كلما زاد عدد الأبعاد
الشكل 3: توضيح لعنة الأبعاد. يوضّح كل رسم بياني للأزواج المسافات بين 200 نقطة عشوائية.

يتجنّب التجميع الطيفي لعنة البعد عن طريق إضافة خطوة ما قبل التجميع إلى خوارزميتك:

  1. تقليل أبعاد بيانات الميزات باستخدام PCA.
  2. شارِك كل نقاط البيانات في المساحة الفرعية منخفضة الأبعاد.
  3. يمكنك تجميع البيانات في هذه المساحة الفرعية باستخدام الخوارزمية التي اخترتها.

وبالتالي، لا تمثّل ميزة التجميع الطيفي خوارزمية تجميع منفصلة وليست خطوة تجميع سابقة يمكنك استخدامها مع أي خوارزمية تجميع. وتكون تفاصيل التجميع الطيفي معقّدة. اطّلِع على برنامج تعليمي عن مجموعة Spectral Clustering من إعداد Ulrike von Luxburg.