Kami akan menghapus Kursus Singkat Machine Learning dari situs ini pada tanggal 30 Juli 2021. Versi bahasa Inggris akan tetap tersedia.

Set Validasi: Partisi Lainnya

Modul sebelumnya memperkenalkan partisi kumpulan data ke dalam set pelatihan dan pengujian. Partisi ini memungkinkan Anda melatih satu set contoh, lalu menguji model terhadap set contoh yang berbeda. Dengan dua partisi, alur kerja akan terlihat sebagai berikut:

Diagram alur kerja yang terdiri dari tiga tahap. 1. Pelatihan model di set pelatihan. 2. Evaluasi model di set pengujian. 3. Ubah model berdasarkan hasil evaluasi di set pengujian. Lakukan iterasi pada tahap 1, 2, dan 3, yang pada akhirnya memilih model dengan performa terbaik pada set pengujian.

Gambar 1. Kemungkinan alur kerja?

Pada gambar 1, "Menyesuaikan model" berarti menyesuaikan apa pun terkait model yang dapat Anda bayangkan—dari mengubah kecepatan pembelajaran, menambahkan, atau menghapus fitur, hingga mendesain model baru mulai dari awal. Di akhir alur kerja ini, Anda memilih model dengan performa terbaik pada set pengujian.

Membagi kumpulan data menjadi dua set adalah ide yang bagus, tetapi bukan hal terbaik. Anda dapat mengurangi peluang overfitting secara signifikan dengan melakukan partisi kumpulan data menjadi tiga subset yang ditunjukkan dalam gambar berikut:

Garis horizontal dibagi menjadi tiga bagian: 70% di antaranya merupakan set pelatihan, 15% set validasi, dan 15% set pengujian

Gambar 2. Membagi satu kumpulan data menjadi tiga subset.

Gunakan set validasi untuk mengevaluasi hasil dari set pelatihan. Kemudian, gunakan set pengujian untuk memeriksa kembali evaluasi Anda setelah model "lulus" set validasi. Gambar berikut menunjukkan alur kerja baru ini:

Alur kerja yang serupa dengan Gambar 1, kecuali sebagai ganti mengevaluasi model terhadap set pengujian, alur kerja akan mengevaluasi model terhadap set validasi. Lalu, setelah set pelatihan dan set validasi kurang lebih setuju, konfirmasikan model terhadap set pengujian.

Gambar 3. Alur kerja yang lebih baik.

Dalam alur kerja yang disempurnakan ini:

  1. Pilih model dengan performa terbaik pada set validasi.
  2. Periksa kembali model tersebut terhadap set pengujian.

Ini adalah alur kerja yang lebih baik karena memiliki peluang eksposur lebih sedikit ke set pengujian.