Halaman ini berisi istilah glosarium untuk Pengelompokan. Untuk semua istilah glosarium, klik di sini.
A
pengelompokan aglomeratif
Lihat pengelompokan hierarkis.
C
sentroid
Pusat cluster seperti yang ditentukan oleh algoritme k-intent atau k-median. Misalnya, jika k bernilai 3, algoritme k-average atau k-median akan menemukan 3 sentroid.
pengelompokan berdasarkan sentroid
Kategori algoritme pengelompokan yang mengatur data ke dalam kelompok non-hierarki. k-berarti adalah algoritme pengelompokan berbasis centroid yang paling banyak digunakan.
Berbeda dengan algoritme pengelompokan hierarkis.
pengelompokan
Mengelompokkan contoh terkait, terutama selama pembelajaran yang tidak diawasi. Setelah semua contoh dikelompokkan, manusia dapat secara opsional memberikan arti pada setiap cluster.
Ada banyak algoritme pengelompokan. Misalnya, contoh algoritma k-average mengelompokkan contoh berdasarkan kedekatannya dengan centroid, seperti dalam diagram berikut:
Kemudian, peneliti manusia dapat meninjau cluster dan, misalnya, memberi label cluster 1 sebagai "pohon kerdil" dan cluster 2 sebagai "pohon berukuran penuh."
Sebagai contoh lainnya, pertimbangkan algoritme pengelompokan berdasarkan jarak contoh dari titik tengah, yang diilustrasikan sebagai berikut:
D
pengelompokan divisi
Lihat pengelompokan hierarkis.
H
pengelompokan hierarkis
Kategori algoritme pengelompokan yang membuat hierarki cluster. Pengelompokan hierarki sangat cocok untuk data hierarkis, seperti taksonomi botani. Ada dua jenis algoritme pengelompokan hierarki:
- Pengelompokan aglomeratif menetapkan setiap contoh ke clusternya sendiri terlebih dahulu, dan secara berulang menggabungkan cluster terdekat untuk membuat hierarki hierarki.
- Pengelompokan divisif mengelompokkan semua contoh ke dalam satu cluster terlebih dahulu, kemudian secara berulang membagi cluster ke dalam hierarki hierarki.
Berbeda dengan pengelompokan berbasis sentroid.
rb
k-mean
Algoritme pengelompokan populer yang mengelompokkan contoh dalam pembelajaran yang tidak diawasi. Algoritme k-intent pada dasarnya melakukan hal-hal berikut:
- Secara berulang menentukan titik tengah k terbaik (dikenal sebagai centroid).
- Menetapkan setiap contoh ke sentroid terdekat. Contoh yang terdekat dengan sentroid ini termasuk dalam kelompok yang sama.
Algoritme k-intent memilih lokasi sentroid untuk meminimalkan kuadrat kumulatif jarak dari setiap contoh ke sentroid terdekatnya.
Misalnya, perhatikan plot tinggi anjing terhadap lebar anjing berikut:
Jika k=3, algoritme k-average akan menentukan tiga sentroid. Setiap contoh ditetapkan ke sentroid terdekatnya, yang menghasilkan tiga kelompok:
Bayangkan produsen ingin menentukan ukuran ideal untuk sweater berukuran kecil, sedang, dan besar untuk anjing. Tiga sentroid tersebut mengidentifikasi tinggi rata-rata dan lebar rata-rata setiap anjing dalam kelompok tersebut. Jadi, produsen mungkin harus menggunakan ukuran sweter pada ketiga sentroid tersebut. Perhatikan bahwa sentroid cluster biasanya bukan merupakan contoh dalam cluster.
Ilustrasi sebelumnya menunjukkan k-saran untuk contoh dengan hanya dua fitur (tinggi dan lebar). Perhatikan bahwa k-intent dapat mengelompokkan contoh di banyak fitur.
K-Median
Algoritme pengelompokan yang terkait erat dengan k-intent. Perbedaan praktisnya antara keduanya adalah sebagai berikut:
- Dalam rata-rata k, sentroid ditentukan dengan meminimalkan jumlah kuadrat jarak antara kandidat sentroid dan setiap contohnya.
- Dalam k-median, sentroid ditentukan dengan meminimalkan jumlah jarak antara kandidat sentroid dan setiap contohnya.
Perhatikan bahwa definisi jarak juga berbeda:
- k-average bergantung pada jarak Euclidean dari sentroid ke contoh. (Dalam dua dimensi, jarak Euclidean berarti menggunakan teorema Pythagoras untuk menghitung sisi miring.) Misalnya, jarak k-berarti antara (2,2) dan (5,-2) adalah:
- k-median bergantung pada jarak Manhattan dari sentroid ke contoh. Jarak ini adalah jumlah delta absolut di setiap dimensi. Misalnya, jarak k-median antara (2,2) dan (5,-2) adalah:
S
ukuran kesamaan
Dalam algoritme pengelompokan, metrik yang digunakan untuk menentukan seberapa mirip dua contoh yang diberikan.
sketsa
Dalam unSupervised machine learning, kategori algoritme yang melakukan analisis kesamaan awal pada contoh. Algoritme sketching menggunakan fungsi hash yang sensitif terhadap lokalitas untuk mengidentifikasi titik-titik yang mungkin mirip, kemudian mengelompokkannya ke dalam bucket.
Sketsa mengurangi komputasi yang diperlukan untuk penghitungan kesamaan pada set data besar. Kami menghitung kesamaan hanya untuk setiap pasangan titik dalam setiap bucket, bukan menghitung kesamaan untuk setiap pasangan contoh dalam set data.
T
analisis deret waktu
Subkolom machine learning dan statistik yang menganalisis data sementara. Berbagai jenis masalah machine learning memerlukan analisis deret waktu, termasuk klasifikasi, pengelompokan, perkiraan, dan deteksi anomali. Misalnya, Anda dapat menggunakan analisis deret waktu untuk memperkirakan penjualan mantel musim dingin di masa mendatang menurut bulan berdasarkan data penjualan historis.
U
machine learning tanpa pengawasan
Melatih model untuk menemukan pola dalam set data, biasanya set data tak berlabel.
Penggunaan machine learning yang tidak diawasi yang paling umum adalah dengan mengelompokkan data ke dalam grup contoh serupa. Misalnya, algoritme machine learning yang tidak diawasi dapat mengelompokkan lagu berdasarkan berbagai properti musik. Cluster yang dihasilkan dapat menjadi input untuk algoritme machine learning lainnya (misalnya, untuk layanan rekomendasi musik). Pengelompokan dapat membantu saat label yang berguna langka atau tidak ada. Misalnya, dalam domain seperti anti-penyalahgunaan dan penipuan, cluster dapat membantu manusia untuk lebih memahami data.
Berbeda dengan machine learning yang diawasi.