Menafsirkan Hasil dan Menyesuaikan Pengelompokan

Karena pengelompokan tidak diawasi, tidak ada “kebenaran” yang tersedia untuk memverifikasi hasil. Ketiadaan kebenaran mempersulit penilaian kualitas. Selanjutnya, set data dunia nyata biasanya tidak termasuk dalam kumpulan contoh yang jelas seperti set data yang ditampilkan dalam Gambar 1.

Grafik yang menampilkan tiga kelompok titik data yang jelas
Gambar 1: Alur data yang ideal; data di dunia nyata jarang terlihat seperti ini.

Sayangnya, data dunia nyata lebih mirip dengan Gambar 2, sehingga sulit untuk menilai kualitas pengelompokan secara visual.

Grafik dengan titik data acak
Gambar 2: Diagram data kehidupan nyata

Diagram alir di bawah merangkum cara memeriksa kualitas pengelompokan Anda. Kami akan memperluas ringkasan di bagian berikut.

Diagram alir visual proses verifikasi
Klik di sini untuk melihat versi diagram yang lebih besar.

Langkah Satu: Kualitas Pengelompokan

Memeriksa kualitas pengelompokan bukanlah proses yang ketat karena pengelompokan tersebut tidak memiliki "kebenaran". Berikut adalah pedoman yang dapat Anda terapkan secara berulang untuk meningkatkan kualitas pengelompokan Anda.

Pertama, lakukan pemeriksaan visual agar cluster terlihat seperti yang diharapkan, dan contoh yang Anda anggap serupa muncul di cluster yang sama. Kemudian, periksa metrik yang biasa digunakan ini seperti yang dijelaskan di bagian berikut:

  • Kardinalitas cluster
  • Magnitudo cluster
  • Performa sistem downstream
Diagram batang yang menunjukkan kardinalitas beberapa cluster. Beberapa cluster memiliki perbedaan besar.
Gambar 2: Kardinalitas beberapa cluster.

Kardinalitas cluster

Kardinalitas cluster adalah jumlah contoh per cluster. Rencanakan kardinalitas cluster untuk semua cluster dan selidiki cluster yang merupakan pencilan utama. Misalnya, pada Gambar 2, selidiki cluster nomor 5.

Diagram batang yang menunjukkan besarnya beberapa cluster. Satu cluster memiliki skala yang jauh lebih tinggi
                                            dibandingkan cluster lainnya.
Gambar 3: Besarnya beberapa cluster.

Magnitudo cluster

Magnitudo cluster adalah jumlah jarak dari semua contoh ke sentroid cluster. Serupa dengan kardinalitas, periksa bagaimana besarnya bervariasi di seluruh cluster, dan selidiki anomali. Misalnya, pada Gambar 3, selidiki cluster nomor 0.

Plot sebar yang menunjukkan kardinalitas versus magnitudo untuk beberapa cluster. Satu
          cluster adalah pencilan dalam plot.
Gambar 4: Kardinalitas vs. Magnitudo beberapa cluster.

Magnitudo vs. Kardinalitas

Perhatikan bahwa kardinalitas cluster yang lebih tinggi cenderung menghasilkan magnitudo cluster yang lebih tinggi, yang secara intuitif masuk akal. Cluster akan dianggap sebagai anomali jika kardinalitas tidak berkorelasi dengan besarnya relatif terhadap cluster lainnya. Temukan cluster yang tidak wajar dengan memetakan magnitudo terhadap kardinalitas. Misalnya, dalam Gambar 4, pencocokan garis ke metrik cluster akan menunjukkan bahwa nomor cluster 0 tidak wajar.

Performa Sistem Downstream

Karena output pengelompokan sering digunakan dalam sistem ML downstream, periksa apakah performa sistem downstream meningkat saat proses pengelompokan Anda berubah. Dampak pada performa downstream Anda menyediakan pengujian sungguhan untuk kualitas clustering Anda. Kekurangannya adalah pemeriksaan ini rumit untuk dilakukan.

Pertanyaan untuk Menyelidiki Jika Masalah Ditemukan

Jika Anda menemukan masalah, periksa persiapan data dan langkah kemiripan Anda, dengan mengajukan pertanyaan berikut kepada diri sendiri:

  • Apakah data Anda diskalakan?
  • Apakah kesamaan Anda dalam hal ini sudah benar?
  • Apakah algoritme Anda melakukan operasi yang bermakna secara semantik pada data?
  • Apakah asumsi algoritme Anda cocok dengan data?

Langkah Dua: Performa Pengukuran Kesamaan

Algoritme pengelompokan Anda akan sama baiknya dengan ukuran kesamaan Anda. Pastikan ukuran kesamaan Anda menampilkan hasil yang masuk akal. Pemeriksaan paling sederhana adalah mengidentifikasi pasangan contoh yang diketahui kurang lebih mirip dengan pasangan lain. Kemudian, hitung ukuran kesamaan untuk setiap pasangan contoh. Pastikan ukuran kesamaan untuk contoh yang lebih mirip lebih tinggi daripada ukuran kesamaan untuk contoh yang kurang mirip.

Contoh yang Anda gunakan untuk melihat kecocokan ukuran Anda harus mewakili set data. Pastikan kesamaan ukuran Anda berlaku untuk semua contoh. Verifikasi yang cermat memastikan bahwa ukuran kesamaan Anda, baik secara manual maupun yang diawasi, konsisten di seluruh set data. Jika ukuran kemiripan Anda tidak konsisten untuk beberapa contoh, contoh tersebut tidak akan dikelompokkan dengan contoh yang serupa.

Jika Anda menemukan contoh dengan kesamaan yang tidak akurat, pengukuran kemiripan Anda mungkin tidak menangkap data fitur yang membedakan contoh tersebut. Lakukan eksperimen dengan pengukuran kesamaan dan tentukan apakah Anda mendapatkan tingkat kemiripan yang lebih akurat.

Langkah Tiga: Jumlah Cluster yang Optimal

k-berarti mengharuskan Anda untuk memutuskan jumlah kelompok \(k\) terlebih dahulu. Bagaimana Anda menentukan nilai optimal \(k\)? Coba jalankan algoritme untuk meningkatkan \(k\) dan perhatikan jumlah magnitudo cluster. Seiring meningkatnya \(k\), cluster akan menjadi lebih kecil dan jarak totalnya menurun. Gambarkan jarak ini terhadap jumlah cluster.

Seperti yang ditunjukkan pada Gambar 4, pada \(k\)tertentu, pengurangan kerugian akan menjadi marginal dengan meningkatnya \(k\). Secara matematis, itu kira-kira \(k\) dengan kemiringan yang melintasi di atas -1 (\(\theta > 135^{\circ}\)). Pedoman ini tidak menentukan nilai pasti untuk yang optimal \(k\) tetapi hanya nilai perkiraan. Untuk plot yang ditampilkan, jumlah optimal \(k\) adalah sekitar 11. Jika Anda lebih memilih cluster yang lebih terperinci, Anda dapat memilih \(k\) yang lebih tinggi menggunakan plot ini sebagai panduan.

Grafik yang menunjukkan cluster kerugian vs. cluster yang digunakan. Kalahnya menurun seiring meningkatnya jumlah cluster hingga berkurang sekitar 10 cluster
Gambar 4: Kerugian vs. jumlah kelompok