تشغيل خوارزمية التجميع

في مجال تعلُّم الآلة، تظهر لك أحيانًا مجموعات بيانات يمكن أن تتضمّن ملايين الأمثلة. ويجب أن يتم توسيع نطاق خوارزميات تعلُّم الآلة بكفاءة إلى مجموعات البيانات الكبيرة هذه. ومع ذلك، لا يمكن تطوير العديد من خوارزميات التجميع لأنها تحتاج إلى حساب التشابه بين جميع أزواج النقاط. وهذا يعني أنّ أوقات التشغيل تزداد بمقدار مربّع عدد النقاط الذي يُشار إليه بالرقم \(O(n^2)\). على سبيل المثال، تقارن خوارزميات التجميع الهرمي أو المقسّم إلى جميع أزواج النقاط ولديها تعقيدات \(O(n^2 log(n))\) و \(O(n^2)\)، على التوالي.

تركز هذه الدورة التدريبية على k-means لأنّها على النحو التالي \(O(nk)\)، حيث يشير \(k\) إلى عدد المجموعات. تشير k-means إلى المجموعات \(k\) من خلال تقليل المسافات بين النقاط والمركز المتوسط للمجموعة (كما هو موضّح في الشكل 1 أدناه). centroid للمجموعة هي متوسط جميع النقاط في المجموعة.

كما هو موضح، تعثر k-me على مجموعات دائرية تقريبًا. ومن الناحية النظرية، يعني هذا أنّ الأداة k-معنّيتها تتعامل بشكل فعّال مع البيانات على أنّها تتألف من عدد من التوزيعات الدائرية تقريبًا، وتحاول العثور على مجموعات مقابلة لهذه التوزيعات. في الواقع، تحتوي البيانات على قيم شاذّة وقد لا تتناسب مع هذا النموذج.

قبل تشغيل k-mes، يجب اختيار عدد المجموعات، \(k\) تخمين كلمة \(k\)في البداية. وسنناقش لاحقًا كيفية تحسين هذا العدد.

خوارزمية التجميع k-كانس

لتجميع البيانات في \(k\) مجموعات، يعني الأمر k أنّه يتّبع الخطوات التالية:

رسم بياني للآلاف يعنيه عند الإعداد
الشكل 1: يعني k في الإعداد.

الخطوة الأولى

تختار الخوارزمية عشوائيًا مجموعة مركزية لكل مجموعة. في المثال، نختار \(k\) من 3، وبالتالي تختار الخوارزمية 3 خطوط مركزية عشوائيًا.

المجموعات الأولية
الشكل 2: المجموعات الأولية
.

الخطوة الثانية

تحدّد الخوارزمية كل نقطة إلى أقرب نقطة مركزية للحصول على \(k\) المجموعات الأولية.

إعادة حساب درجات الحرارة المركزية
الشكل 3: إعادة تشكيل وحدات التحكم في الأجهزة اللوحية.

الخطوة الثالثة

تُعيد الخوارزمية حساب كل مجموعة، وذلك عن طريق أخذ متوسط جميع النقاط في المجموعة. تُعرض التغييرات في خطوط الطولية في الشكل 3 عن طريق الأسهم. ولأنّ أجهزة التحكّم بالمركز المركزي تتغير، تعيد الخوارزمية تعيين النقاط إلى أقرب نقطة مركزية. يُظهر الشكل 4 المجموعات الجديدة بعد إعادة التعيين.

المجموعات بعد إعادة التعيين
الشكل 4: مجموعات بعد إعادة التخصيص.

الخطوة الرابعة

تُكرِّر الخوارزمية حساب وحدات الإضاءة المركزية وتحديد النقاط إلى أن تتوقف النقاط عن تغيير المجموعات. عند تجميع مجموعات البيانات الكبيرة، تتوقّف الخوارزمية قبل الوصول إلى بيانات مشتركة، وذلك باستخدام معايير أخرى بدلاً من ذلك.

لا تحتاج إلى فهم العمليات الحسابية الأساسية في هذه الدورة التدريبية. مع ذلك، إذا كنت مهتمًا، يمكنك الاطّلاع على الدليل الرياضي.

بما أنه يتم اختيار مواضع الكرة الأرضية بشكل عشوائي، فإنّها تعني نتائج مختلفة بشكل كبير في عمليات التشغيل المتتالية. لحل هذه المشكلة، شغِّل الكلمات الرئيسية عدة مرات واختَر النتيجة باستخدام أفضل مقاييس الجودة. (سنشرح لاحقًا في هذه الدورة التدريبية مقاييس الجودة). ستحتاج إلى إصدار متقدّم من وضعية K لكي تتمكّن من اختيار مواضع أفضل للمركز.