ee.Clusterer.wekaKMeans

تجميع البيانات باستخدام خوارزمية k-means يمكن استخدام المسافة الإقليدية (الإعداد التلقائي) أو مسافة مانهاتن. في حال استخدام مسافة مانهاتن، يتم احتساب النقاط المركزية على أنّها الوسيط على مستوى المكوّن بدلاً من المتوسط. لمزيد من المعلومات، يُرجى الاطّلاع على:

د. آرثر، إس. Vassilvitskii: k-means++: the advantages of careful seeding. In: Proceedings of the eighteenth annual ACM-SIAM symposium on Discrete algorithms, 1027-1035, 2007.

الاستخدامالمرتجعات
ee.Clusterer.wekaKMeans(nClusters, init, canopies, maxCandidates, periodicPruning, minDensity, t1, t2, distanceFunction, maxIterations, preserveOrder, fast, seed)أداة التجميع
الوسيطةالنوعالتفاصيل
nClustersعدد صحيحعدد المجموعات
initعدد صحيح، القيمة التلقائية: 0طريقة الإعداد التي سيتم استخدامها. 0 = عشوائي، 1 = k-means++‎، 2 = مظلة، 3 = الأبعد أولاً
canopiesقيمة منطقية، القيمة التلقائية: falseاستخدِم المظلات لتقليل عدد عمليات حساب المسافة.
maxCandidatesعدد صحيح، القيمة التلقائية: 100الحد الأقصى لعدد مظلات المرشحين التي سيتم الاحتفاظ بها في الذاكرة في أي وقت عند استخدام تجميع المظلات سيحدّد مدى التباعد بين النقاط من النوع T2، بالإضافة إلى خصائص البيانات، عدد المظلات المرشّحة التي سيتم إنشاؤها قبل إجراء عمليات التقليم الدورية والنهائية، ما قد يؤدي إلى استهلاك مفرط للذاكرة. يساعد هذا الإعداد في تجنُّب استهلاك عدد كبير من مظلات المرشحين للذاكرة.
periodicPruningعدد صحيح، القيمة التلقائية: 10000تحديد عدد مرات تقليم الأغصان ذات الكثافة المنخفضة عند استخدام ميزة "تجميع الأغصان"
minDensityعدد صحيح، القيمة التلقائية: 2الحد الأدنى لكثافة المظلة عند استخدام التجميع حسب المظلة، والذي سيتم بموجبه تقليم المظلة أثناء التقليم الدوري
t1التعويم، القيمة التلقائية: -1.5يشير ذلك إلى مسافة T1 المطلوب استخدامها عند استخدام التجميع المظلي. يتم اعتبار القيمة < 0 مضاعفًا موجبًا لـ T2.
t2Float، القيمة التلقائية: -1مسافة T2 المطلوب استخدامها عند استخدام التجميع المظلي تتسبّب القيم الأقل من 0 في استخدام قاعدة إرشادية تستند إلى الانحراف المعياري للسمة.
distanceFunctionسلسلة، القيمة التلقائية: "Euclidean"دالة المسافة التي سيتم استخدامها الخيارات هي: Euclidean وManhattan.
maxIterationsعدد صحيح، القيمة التلقائية: nullالحدّ الأقصى لعدد التكرارات
preserveOrderقيمة منطقية، القيمة التلقائية: falseالحفاظ على ترتيب الحالات
fastقيمة منطقية، القيمة التلقائية: falseيتيح إجراء عمليات حسابية أسرع للمسافات باستخدام قيم الحدّ الأدنى. تؤدي إلى إيقاف احتساب/إخراج الأخطاء/المسافات المربّعة.
seedعدد صحيح، القيمة التلقائية: 10القيمة الأساسية للتوزيع العشوائي