تفسير النتائج وتعديل التجميع

بما أنّ التجميع غير خاضع للإشراف، لا تتوفّر "صحيح" للتحقق من النتائج. يؤدي غياب الحقيقة إلى تعقيد تقييم الجودة. علاوةً على ذلك، لا تنقسم مجموعات البيانات إلى أرض الواقع في مجموعات واضحة من الأمثلة، مثل مجموعة البيانات المعروضة في الشكل 1.

رسم بياني يعرض ثلاث مجموعات واضحة من نقاط البيانات
الشكل 1: مخطط بيانات مثالي، نادرًا ما تبدو البيانات الفعلية على هذا النحو.

للأسف، تبدو البيانات المتوفرة على أرض الواقع تشبه الشكل رقم 2، ما يجعل من الصعب تقييم جودة التجميع بصريًا.

رسم بياني يحتوي على نقاط بيانات عشوائية
الشكل 2: مخطّط بيانات واقعي

يلخّص المخطّط الانسيابي أدناه كيفية التحقق من جودة تجميعك. وسنوسّع الملخّص في الأقسام التالية.

رسم بياني انسيابي مرئي لعملية إثبات الملكية
انقر هنا للاطّلاع على نسخة أكبر من هذا الرسم البياني.

الخطوة الأولى: جودة التجميع

ليس من الصعب التحقّق من جودة التجميع لأنّ ميزة التجميع تفتقر إلى "الصحيح". في ما يلي الإرشادات التي يمكنك تطبيقها بشكلٍ متكرر لتحسين جودة تجميعك.

أولاً، يمكنك إجراء تحقق مرئي من أن المجموعات تبدو كما هو متوقع، ومن ظهور الأمثلة التي تعتبرها مشابهة في المجموعة نفسها. بعد ذلك، راجِع هذه المقاييس الشائعة الاستخدام كما هو موضّح في الأقسام التالية:

  • عدد العناصر في المجموعة
  • قوة التجمع
  • أداء نظام البث
رسم بياني شريطي يوضح عدد العناصر في الحقل
في مجموعات متعددة. تحتوي بعض المجموعات على اختلافات كبيرة.
الشكل 2: عدد العناصر في شكل مجموعات متعددة.

مجموعة الموارد الأساسية

عدد العناصر في المجموعة هو عدد الأمثلة لكل مجموعة. اكتسِب عدد العناصر في الحقل معًا لجميع المجموعات وتحقّق من المجموعات التي تكون قيمًا خارجة عن النطاق. على سبيل المثال، في الشكل 2، تحقق من رقم المجموعة 5.

رسم بياني شريطي يوضح حجم
          المجموعات المتعددة. كَمْ فِي حَدّْ مَوْجُودْ فِي وَضْعْ قُوَّة أَكْبَرْ مِنَ الْمَجْمُوعَاتِ التَّانْيَة.
الشكل 3: حجم عدة مجموعات.

قوة المجموعة

حجم المجموعة هو مجموع المسافات من جميع الأمثلة إلى شموع المجموعة. على غرار عدد العناصر في الحقل، اطّلِع على كيفية اختلاف الكمية في المجموعات وتحقّق من القيم الشاذة. على سبيل المثال، في الشكل 3، تحقق من رقم المجموعة 0.

رسم بياني للنقاط المبعثرة يُظهر عدد العناصر في الحقل وعدد العناصر في مجموعات متعددة. يتكوّن المحتوى من مجموعة واحدة متفرّقة في المخطّط.
الشكل 4: عدد العناصر في مقابل عدد مجموعات متعددة.

الحد الأقصى في مقابل عدد العناصر في الحقل

يُرجى العِلم أنّ عدد العناصر في الحقل أكبر من عدد العناصر في الحقل، ما يؤدي إلى زيادة حجم المجموعة، ما يعني أنّ عدد العناصر في مجموعات أكبر من ذلك. تشكّل المجموعات أمرًا شاذًا في حال عدم ارتباط عدد العناصر في الحقل مع حجم المجموعات الأخرى. البحث عن مجموعات شاذة من خلال تحديد قوتها ضد عدد العناصر في الحقل على سبيل المثال، في الشكل 4، يشير ملاءمة سطر في مقاييس المجموعة إلى أن رقم المجموعة 0 شاذ.

أداء نظام البث المباشر

بما أنه يتم غالبًا استخدام مخرجات التجميع في أنظمة تعلُّم الآلة في البداية، تحقَّق مما إذا كان أداء النظام أثناء البث سيتحسّن عندما تتغيّر عملية التجميع. ويقدّم التأثير على الأداء من خلال عملية البث المباشر اختبارًا فعليًا لجودة عملية التجميع. يتمثل السلبي في أن عملية التحقق هذه معقدة.

أسئلة التحقيق في حال العثور على مشاكل

إذا واجهت مشاكل، تحقق من قياس إعداد البيانات وأوجه التشابه، واطرح على نفسك الأسئلة التالية:

  • هل يتم تغيير بياناتك؟
  • هل قياس التشابه صحيح؟
  • هل تجري خوارزميتك عمليات ذات معنى دلالي على البيانات؟
  • هل تتطابق افتراضات الخوارزمية مع البيانات؟

الخطوة الثانية: أداء مقياس التشابه

خوارزمية التجميع أقلّ أهمية من مقياس التشابه. تأكّد من أن مقياس التشابه يعرض نتائج معقولة. تتمثّل أبسط خطوات عملية التحقّق في تحديد أزواج من الأمثلة التي يُعرف عنها أنها أكثر أو أقل تشابهًا مع الأجهزة الأخرى. بعد ذلك، احسب مقياس التشابه لكل زوج من الأمثلة. احرص على أن يكون مقياس التشابه للأمثلة المشابهة أكبر من قياس التشابه للأمثلة الأقل تشابهًا.

ويجب أن تكون الأمثلة التي تستخدمها للتحقق من مقياس التشابه ممثلة لمجموعة البيانات. تأكَّد من أن مقياس التشابه محتفظ بجميع الأمثلة. يضمن إثبات الملكية بعناية أن يكون مقياس التشابه، سواء يدويًا أو خاضعًا للإشراف، متسقًا في مجموعة بياناتك. إذا كان مقياس التشابه غير متسق مع بعض الأمثلة، لن يتم تجميع تلك الأمثلة مع أمثلة مشابهة.

إذا عثرت على أمثلة تحتوي على أوجه تشابه غير دقيقة، قد لا يشير مقياس التشابه إلى بيانات الميزات التي تميز هذه الأمثلة. جرِّب مقياس التشابه وحدِّد ما إذا كنت تريد الحصول على مزيد من التشابه الدقيقة.

الخطوة الثالثة: العدد الأمثل للمجموعات

ويعني الأمر k-me ضرورة تحديد عدد المجموعات \(k\) قبل ذلك. كيف يمكنك تحديد القيمة المثلى للسمة \(k\)؟ جرِّب تشغيل الخوارزمية لزيادة \(k\) وملاحظة مجموع أحجام المجموعات. ومع زيادة \(k\)، تصبح المجموعات أصغر، وتقلل إجمالي المسافة. ارسم هذه المسافة البعيدة على عدد المجموعات.

كما هو موضّح في الشكل 4، عند انخفاض معيّن \(k\)، يصبح الانخفاض في الخسارة هامشيًا مع الزيادة \(k\). رياضيًا، هذا هو \(k\) التقريب الذي يميل فيه الانحدار إلى أعلى من -1 (\(\theta > 135^{\circ}\)). لا تحدّد هذه الإرشادات القيمة الدقيقة للتحسين، \(k\) ولكن تمثل قيمة تقريبية. بالنسبة إلى الرسم البياني المعروض، يكون العدد الأمثل للعنوان \(k\) هو 11 تقريبًا. إذا كنت تفضّل استخدام مجموعات أكثر دقة، يمكنك اختيار إصدار أعلى \(k\) باستخدام هذا المخطط.

رسم بياني يعرض الخسارة
مقارنة بالمجموعات المستخدمة. وينقص الفقدان مع زيادة عدد المجموعات حتى يتم رفع مستوى المجموعات حوالي 10 مجموعات
الشكل 4: الخسارة مقابل عدد المجموعات