Pembelajaran yang Diawasi

Tugas supervised learning telah didefinisikan dengan baik dan dapat diterapkan ke banyak skenario—seperti mengidentifikasi spam atau memprediksi presipitasi.

Konsep dasar supervised learning

Supervised machine learning didasarkan pada konsep inti berikut:

  • Data
  • Model
  • Pelatihan
  • Mengevaluasi
  • Inferensi

Data

Data adalah kekuatan pendorong ML. Data tersedia dalam bentuk kata dan angka yang disimpan dalam tabel, atau sebagai nilai piksel dan bentuk gelombang yang diambil dalam file gambar dan audio. Kita menyimpan data terkait dalam {i>dataset<i}. Misalnya, kita mungkin memiliki {i>dataset<i} berikut:

  • Gambar kucing
  • Harga rumah
  • Informasi cuaca

Set data terdiri dari contoh individual yang berisi fitur dan label. Anda bisa menganggap sebuah contoh sebagai analogi satu baris dalam {i>spreadsheet<i}. Fitur adalah nilai yang digunakan oleh model yang diawasi untuk memprediksi label. Label adalah "jawaban", atau nilai yang kita inginkan untuk diprediksi oleh model. Pada model cuaca yang memprediksi curah hujan, fitur tersebut dapat meliputi lintang, bujur, suhu, kelembapan, cakupan awan, arah angin, dan tekanan atmosfer. Labelnya adalah jumlah hujan.

Contoh yang berisi fitur dan label disebut contoh berlabel.

Dua contoh berlabel

Gambar placeholder.

Sebaliknya, contoh tak berlabel berisi fitur, tetapi tidak ada label. Setelah Anda membuat model, model tersebut akan memprediksi label dari fitur.

Dua contoh tak berlabel

Gambar placeholder.

Karakteristik set data

Sebuah {i>dataset<i} dicirikan oleh ukuran dan keragamannya. Ukuran menunjukkan jumlah contoh. Keberagaman menunjukkan rentang yang tercakup dalam contoh-contoh tersebut. {i>Dataset<i} yang baik berukuran besar dan sangat beragam.

Beberapa {i>dataset<i} berukuran besar dan beragam. Namun, beberapa {i>dataset<i} berukuran besar tetapi memiliki keragaman yang rendah, dan beberapa kecil tetapi sangat beragam. Dengan kata lain, set data berukuran besar tidak menjamin keragaman yang memadai, dan set data yang sangat beragam tidak menjamin contoh yang memadai.

Misalnya, set data mungkin berisi data dari rentang waktu 100 tahun, tetapi hanya untuk bulan Juli. Menggunakan set data ini untuk memprediksi curah hujan di bulan Januari akan menghasilkan prediksi yang buruk. Sebaliknya, set data mungkin hanya mencakup beberapa tahun tetapi berisi setiap bulan. {i>Dataset<i} ini mungkin menghasilkan prediksi yang buruk karena tidak berisi cukup tahun untuk memperhitungkan variabilitas.

Memeriksa Pemahaman Anda

Apa atribut set data yang sebaiknya digunakan untuk ML?
Ukuran besar / Keragaman tinggi
Sejumlah besar contoh yang mencakup berbagai kasus penggunaan sangat penting bagi sistem machine learning untuk memahami pola yang mendasari dalam data. Model yang dilatih pada jenis set data ini lebih cenderung akan membuat prediksi yang baik pada data baru.
Ukuran besar / Keragaman rendah
Model machine learning hanya akan bagus jika contoh yang digunakan untuk melatihnya. Model akan menghasilkan prediksi yang lebih buruk pada data baru yang tidak pernah dilatih sebelumnya.
Ukuran kecil / Keragaman tinggi
Sebagian besar model tidak dapat menemukan pola yang dapat diandalkan dalam set data kecil. Prediksinya akan kurang memiliki tingkat keyakinan yang diberikan oleh set data yang lebih besar.
Ukuran kecil / Keragaman rendah
Jika set data Anda kecil dan tidak memiliki banyak variasi, Anda mungkin tidak akan mendapatkan manfaat dari machine learning.

Sebuah {i>dataset<i} juga dapat dikarakterisasi dengan jumlah fiturnya. Misalnya, beberapa set data cuaca mungkin berisi ratusan fitur, mulai dari citra satelit hingga nilai cakupan cloud. {i>Dataset<i} lain mungkin hanya berisi tiga atau empat fitur, seperti kelembapan, tekanan atmosfer, dan suhu. Set data dengan lebih banyak fitur dapat membantu model menemukan pola tambahan dan membuat prediksi yang lebih baik. Namun, set data dengan lebih banyak fitur tidak selalu menghasilkan model yang membuat prediksi lebih baik karena beberapa fitur mungkin tidak memiliki hubungan kausalitas dengan label.

Model

Dalam supervised learning, model adalah kumpulan angka kompleks yang menentukan hubungan matematika dari pola fitur input tertentu hingga nilai label output tertentu. Model menemukan pola ini melalui pelatihan.

Pelatihan

Sebelum model yang diawasi dapat membuat prediksi, model tersebut harus dilatih. Untuk melatih model, kita memberi model tersebut set data dengan contoh berlabel. Tujuan model adalah mencari solusi terbaik untuk memprediksi label dari fitur. Model ini menemukan solusi terbaik dengan membandingkan nilai prediksinya dengan nilai sebenarnya label. Berdasarkan perbedaan antara nilai yang diprediksi dan nilai aktual—yang didefinisikan sebagai kerugian—model secara bertahap memperbarui solusinya. Dengan kata lain, model ini mempelajari hubungan matematika antara fitur dan label sehingga dapat membuat prediksi terbaik pada data yang tidak terlihat.

Misalnya, jika model memprediksi 1.15 inches hujan, tetapi nilai sebenarnya adalah .75 inches, model akan memodifikasi solusinya sehingga prediksinya lebih dekat dengan .75 inches. Setelah melihat setiap contoh dalam set data—dalam beberapa kasus, beberapa kali—model akan mendapatkan solusi yang membuat rata-rata prediksi terbaik untuk setiap contoh.

Berikut ini adalah contoh pelatihan model:

  1. Model ini mengambil satu contoh berlabel dan memberikan prediksi.

    Gambar model yang membuat prediksi.

    Gambar 1. Model ML yang membuat prediksi dari contoh berlabel.

     

  2. Model ini membandingkan nilai yang diprediksi dengan nilai sebenarnya dan memperbarui solusinya.

    Gambar model yang membandingkan prediksinya dengan nilai sebenarnya.

    Gambar 2. Model ML memperbarui nilai prediksinya.

     

  3. Model mengulangi proses ini untuk setiap contoh berlabel dalam set data.

    Gambar model yang mengulangi proses prediksinya versus nilai sebenarnya.

    Gambar 3. Model ML memperbarui prediksinya untuk setiap contoh berlabel dalam set data pelatihan.

     

Dengan cara ini, model secara bertahap mempelajari hubungan yang benar antara fitur dan label. Pemahaman bertahap ini juga menjadi alasan mengapa {i>dataset<i} yang besar dan beragam menghasilkan model yang lebih baik. Model ini telah melihat lebih banyak data dengan rentang nilai yang lebih luas dan telah menyempurnakan pemahamannya tentang hubungan antara fitur dan label.

Selama pelatihan, praktisi ML dapat melakukan penyesuaian kecil pada konfigurasi dan fitur yang digunakan model untuk membuat prediksi. Misalnya, fitur tertentu memiliki kemampuan prediksi yang lebih besar daripada yang lain. Oleh karena itu, praktisi ML dapat memilih fitur mana yang digunakan model selama pelatihan. Misalnya, set data cuaca berisi time_of_day sebagai fitur. Dalam hal ini, praktisi ML dapat menambahkan atau menghapus time_of_day selama pelatihan untuk melihat apakah model tersebut membuat prediksi yang lebih baik dengan atau tanpanya.

Mengevaluasi

Kami mengevaluasi model terlatih untuk menentukan seberapa baik model tersebut dipelajari. Saat mengevaluasi model, kita menggunakan set data berlabel, tetapi kita hanya memberikan fitur set data kepada model tersebut. Kemudian, kita membandingkan prediksi model dengan nilai label yang sebenarnya.

Gambar yang menunjukkan model terlatih yang memiliki prediksinya dibandingkan dengan nilai sebenarnya.

Gambar 4. Mengevaluasi model ML dengan membandingkan prediksinya dengan nilai sebenarnya.

 

Bergantung pada prediksi model, kita mungkin melakukan lebih banyak pelatihan dan evaluasi sebelum men-deploy model di aplikasi dunia nyata.

Memeriksa Pemahaman Anda

Mengapa model perlu dilatih sebelum dapat membuat prediksi?
Sebuah model perlu dilatih untuk mempelajari hubungan matematis antara fitur dan label dalam sebuah set data.
Model tidak perlu dilatih. Model tersedia di sebagian besar komputer.
Model perlu dilatih sehingga tidak memerlukan data untuk membuat prediksi.

Inferensi

Setelah puas dengan hasil dari evaluasi model, kita dapat menggunakan model itu untuk membuat prediksi, yang disebut inferensi, pada contoh tak berlabel. Dalam contoh aplikasi cuaca, kita akan memberikan model kondisi cuaca saat ini—seperti suhu, tekanan atmosfer, dan kelembapan relatif—kepada model yang akan memprediksi jumlah curah hujan.