Glosarium Machine Learning: Pengelompokan

Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.

Halaman ini berisi istilah glosarium untuk Pengelompokan. Untuk semua istilah glosarium, klik di sini.

A

pengelompokan aglomeratif

#clustering

Lihat pengelompokan hierarkis.

C

sentroid

#clustering

Pusat cluster seperti yang ditentukan oleh algoritme k-intent atau k-median. Misalnya, jika k bernilai 3, algoritme k-average atau k-median akan menemukan 3 sentroid.

pengelompokan berdasarkan sentroid

#clustering

Kategori algoritme pengelompokan yang mengatur data ke dalam kelompok non-hierarki. k-berarti adalah algoritme pengelompokan berbasis centroid yang paling banyak digunakan.

Berbeda dengan algoritme pengelompokan hierarkis.

pengelompokan

#clustering

Mengelompokkan contoh terkait, terutama selama pembelajaran yang tidak diawasi. Setelah semua contoh dikelompokkan, manusia dapat secara opsional memberikan arti pada setiap cluster.

Ada banyak algoritme pengelompokan. Misalnya, contoh algoritma k-average mengelompokkan contoh berdasarkan kedekatannya dengan centroid, seperti dalam diagram berikut:

Grafik dua dimensi dengan sumbu x berlabel 'lebar pohon'
          dan sumbu y diberi label 'tinggi pohon'.  Grafik ini berisi dua
          persentil dan beberapa lusin data. Titik data dikategorikan berdasarkan kedekatannya. Artinya, titik data yang terdekat dengan satu centroid dikategorikan sebagai 'cluster 1', sedangkan yang terdekat dengan sentroid lainnya dikategorikan sebagai 'cluster 2'.

Kemudian, peneliti manusia dapat meninjau cluster dan, misalnya, memberi label cluster 1 sebagai "pohon kerdil" dan cluster 2 sebagai "pohon berukuran penuh."

Sebagai contoh lainnya, pertimbangkan algoritme pengelompokan berdasarkan jarak contoh dari titik tengah, yang diilustrasikan sebagai berikut:

Puluhan titik data disusun dalam lingkaran konsentris, hampir seperti lubang di sekeliling pusat papan panah. Cincin titik data terdalam dikategorikan sebagai 'cluster 1', cincin tengah dikategorikan sebagai 'cluster 2', dan cincin terluar sebagai 'cluster 3.'

D

pengelompokan divisi

#clustering

Lihat pengelompokan hierarkis.

H

pengelompokan hierarkis

#clustering

Kategori algoritme pengelompokan yang membuat hierarki cluster. Pengelompokan hierarki sangat cocok untuk data hierarkis, seperti taksonomi botani. Ada dua jenis algoritme pengelompokan hierarki:

  • Pengelompokan aglomeratif menetapkan setiap contoh ke clusternya sendiri terlebih dahulu, dan secara berulang menggabungkan cluster terdekat untuk membuat hierarki hierarki.
  • Pengelompokan divisif mengelompokkan semua contoh ke dalam satu cluster terlebih dahulu, kemudian secara berulang membagi cluster ke dalam hierarki hierarki.

Berbeda dengan pengelompokan berbasis sentroid.

rb

k-mean

#clustering

Algoritme pengelompokan populer yang mengelompokkan contoh dalam pembelajaran yang tidak diawasi. Algoritme k-intent pada dasarnya melakukan hal-hal berikut:

  • Secara berulang menentukan titik tengah k terbaik (dikenal sebagai centroid).
  • Menetapkan setiap contoh ke sentroid terdekat. Contoh yang terdekat dengan sentroid ini termasuk dalam kelompok yang sama.

Algoritme k-intent memilih lokasi sentroid untuk meminimalkan kuadrat kumulatif jarak dari setiap contoh ke sentroid terdekatnya.

Misalnya, perhatikan plot tinggi anjing terhadap lebar anjing berikut:

Plot Cartesian dengan beberapa lusin titik data.

Jika k=3, algoritme k-average akan menentukan tiga sentroid. Setiap contoh ditetapkan ke sentroid terdekatnya, yang menghasilkan tiga kelompok:

Plot Cartesian yang sama seperti dalam ilustrasi sebelumnya, kecuali dengan tambahan tiga sentroid.
          Titik data sebelumnya dikelompokkan ke dalam tiga grup yang berbeda, dengan setiap grup mewakili titik data yang paling dekat dengan sentroid tertentu.

Bayangkan produsen ingin menentukan ukuran ideal untuk sweater berukuran kecil, sedang, dan besar untuk anjing. Tiga sentroid tersebut mengidentifikasi tinggi rata-rata dan lebar rata-rata setiap anjing dalam kelompok tersebut. Jadi, produsen mungkin harus menggunakan ukuran sweter pada ketiga sentroid tersebut. Perhatikan bahwa sentroid cluster biasanya bukan merupakan contoh dalam cluster.

Ilustrasi sebelumnya menunjukkan k-saran untuk contoh dengan hanya dua fitur (tinggi dan lebar). Perhatikan bahwa k-intent dapat mengelompokkan contoh di banyak fitur.

K-Median

#clustering

Algoritme pengelompokan yang terkait erat dengan k-intent. Perbedaan praktisnya antara keduanya adalah sebagai berikut:

  • Dalam rata-rata k, sentroid ditentukan dengan meminimalkan jumlah kuadrat jarak antara kandidat sentroid dan setiap contohnya.
  • Dalam k-median, sentroid ditentukan dengan meminimalkan jumlah jarak antara kandidat sentroid dan setiap contohnya.

Perhatikan bahwa definisi jarak juga berbeda:

  • k-average bergantung pada jarak Euclidean dari sentroid ke contoh. (Dalam dua dimensi, jarak Euclidean berarti menggunakan teorema Pythagoras untuk menghitung sisi miring.) Misalnya, jarak k-berarti antara (2,2) dan (5,-2) adalah:
$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$
  • k-median bergantung pada jarak Manhattan dari sentroid ke contoh. Jarak ini adalah jumlah delta absolut di setiap dimensi. Misalnya, jarak k-median antara (2,2) dan (5,-2) adalah:
$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

S

ukuran kesamaan

#clustering

Dalam algoritme pengelompokan, metrik yang digunakan untuk menentukan seberapa mirip dua contoh yang diberikan.

sketsa

#clustering

Dalam unSupervised machine learning, kategori algoritme yang melakukan analisis kesamaan awal pada contoh. Algoritme sketching menggunakan fungsi hash yang sensitif terhadap lokalitas untuk mengidentifikasi titik-titik yang mungkin mirip, kemudian mengelompokkannya ke dalam bucket.

Sketsa mengurangi komputasi yang diperlukan untuk penghitungan kesamaan pada set data besar. Kami menghitung kesamaan hanya untuk setiap pasangan titik dalam setiap bucket, bukan menghitung kesamaan untuk setiap pasangan contoh dalam set data.

T

analisis deret waktu

#clustering

Subkolom machine learning dan statistik yang menganalisis data sementara. Berbagai jenis masalah machine learning memerlukan analisis deret waktu, termasuk klasifikasi, pengelompokan, perkiraan, dan deteksi anomali. Misalnya, Anda dapat menggunakan analisis deret waktu untuk memperkirakan penjualan mantel musim dingin di masa mendatang menurut bulan berdasarkan data penjualan historis.

U

machine learning tanpa pengawasan

#clustering
#fundamentals

Melatih model untuk menemukan pola dalam set data, biasanya set data tak berlabel.

Penggunaan machine learning yang tidak diawasi yang paling umum adalah dengan mengelompokkan data ke dalam grup contoh serupa. Misalnya, algoritme machine learning yang tidak diawasi dapat mengelompokkan lagu berdasarkan berbagai properti musik. Cluster yang dihasilkan dapat menjadi input untuk algoritme machine learning lainnya (misalnya, untuk layanan rekomendasi musik). Pengelompokan dapat membantu saat label yang berguna langka atau tidak ada. Misalnya, dalam domain seperti anti-penyalahgunaan dan penipuan, cluster dapat membantu manusia untuk lebih memahami data.

Berbeda dengan machine learning yang diawasi.