Apa itu Pengelompokan?

Saat Anda mencoba mempelajari sesuatu, misalnya musik, salah satu pendekatannya adalah dengan mencari grup atau koleksi yang bermakna. Anda dapat mengatur musik berdasarkan genre, sedangkan teman Anda dapat mengatur musik berdasarkan dekade. Cara Anda memilih untuk mengelompokkan item membantu Anda memahami lebih banyak item sebagai bagian dari musik. Anda mungkin menemukan bahwa Anda memiliki minat yang mendalam terhadap punk rock dan mengelompokkan genre menjadi berbagai musik atau pendekatan dari lokasi yang berbeda. Di sisi lain, teman Anda mungkin melihat musik dari tahun 1980-an dan dapat memahami bagaimana musik lintas genre pada saat itu dipengaruhi oleh iklim sosial politik. Dalam kedua kasus tersebut, Anda dan teman Anda telah mempelajari sesuatu yang menarik tentang musik, meskipun Anda menggunakan pendekatan yang berbeda.

Dalam machine learning, kita sering kali mengelompokkan contoh sebagai langkah pertama untuk memahami subjek (set data) dalam sistem machine learning. Pengelompokan contoh tidak berlabel disebut pengelompokan.

Karena contoh tidak berlabel, pengelompokan bergantung pada machine learning yang tidak diawasi. Jika contoh diberi label, pengelompokan akan menjadi klasifikasi. Untuk pembahasan lebih mendetail tentang metode yang diawasi dan tidak diawasi, lihat Pengantar Framing Masalah Machine Learning.

Grafik yang menampilkan tiga cluster
Gambar 1: Contoh tak berlabel yang dikelompokkan ke dalam tiga kelompok.

Sebelum dapat mengelompokkan contoh yang serupa, Anda harus menemukan contoh yang serupa terlebih dahulu. Anda dapat mengukur kesamaan antara contoh dengan menggabungkan data fitur contoh ke dalam metrik, yang disebut ukuran kesamaan. Jika setiap contoh ditentukan oleh satu atau dua fitur, mudah untuk mengukur kemiripan. Misalnya, Anda dapat menemukan buku serupa yang ditulis oleh pengarangnya. Seiring bertambahnya jumlah fitur, membuat ukuran kesamaan menjadi lebih kompleks. Kita nanti akan melihat cara membuat ukuran kesamaan dalam berbagai skenario.

Apa Kegunaan Pengelompokan?

Pengelompokan memiliki berbagai kegunaan di berbagai industri. Beberapa aplikasi umum untuk pengelompokan mencakup hal berikut:

  • segmentasi pasar
  • analisis jaringan sosial
  • pengelompokan hasil penelusuran
  • pencitraan medis
  • segmentasi gambar
  • deteksi anomali

Setelah pengelompokan, setiap cluster diberi nomor yang disebut ID cluster. Sekarang, Anda dapat meringkas seluruh set fitur untuk contoh ke dalam ID cluster-nya. Merepresentasikan contoh kompleks dengan ID cluster sederhana akan menjadikan cluster efektif. Memperluas ide, mengelompokkan data dapat menyederhanakan set data yang besar.

Misalnya, Anda dapat mengelompokkan item berdasarkan fitur yang berbeda seperti yang ditunjukkan dalam contoh berikut:

Contoh
  • Kelompokkan bintang menurut kecerahan.
  • Kelompokkan organisme menurut informasi genetik ke dalam taksonomi.
  • Mengelompokkan dokumen menurut topik.

Sistem machine learning kemudian dapat menggunakan ID cluster untuk menyederhanakan pemrosesan set data besar. Oleh karena itu, output pengelompokan berfungsi sebagai data fitur untuk sistem ML downstream.

Di Google, pengelompokan digunakan untuk generik, kompresi data, dan pelestarian privasi dalam produk seperti video YouTube, aplikasi Play, dan Trek musik.

Generalisasi

Jika beberapa contoh dalam cluster tidak memiliki data fitur, Anda dapat menyimpulkan data yang hilang dari contoh lain dalam cluster.

Contoh
Video yang kurang populer dapat dikelompokkan dengan video yang lebih populer untuk meningkatkan rekomendasi video.

Kompresi Data

Seperti yang telah dibahas, data fitur untuk semua contoh dalam cluster dapat diganti dengan ID cluster yang relevan. Penggantian ini menyederhanakan data fitur dan menghemat penyimpanan. Manfaat ini menjadi signifikan jika diskalakan ke set data besar. Selain itu, sistem machine learning dapat menggunakan ID cluster sebagai input, bukan seluruh set data fitur. Mengurangi kompleksitas data input akan membuat model ML menjadi lebih sederhana dan lebih cepat untuk dilatih.

Contoh
Data fitur untuk satu video YouTube dapat mencakup:
  • data penonton tentang lokasi, waktu, dan demografi
  • data komentar dengan stempel waktu, teks, dan ID pengguna
  • tag video
Pengelompokan video YouTube memungkinkan Anda mengganti rangkaian fitur ini dengan satu ID cluster, sehingga mengompresi data Anda.

Pemeliharaan Privasi

Anda dapat menjaga privasi dengan mengelompokkan pengguna, dan mengaitkan data pengguna dengan ID cluster, bukan pengguna tertentu. Untuk memastikan Anda tidak dapat mengaitkan data pengguna dengan pengguna tertentu, cluster harus mengelompokkan jumlah pengguna yang memadai.

Contoh
Misalnya, Anda ingin menambahkan histori video untuk pengguna YouTube ke model Anda. Anda dapat mengelompokkan pengguna dan mengandalkan ID cluster, bukan mengandalkan ID pengguna. Kini, model Anda tidak dapat mengaitkan histori video dengan pengguna tertentu, tetapi hanya dengan ID cluster yang mewakili sejumlah besar pengguna.