Uji Pemahaman Anda

Pertanyaan berikut membantu Anda memperkuat pemahaman tentang konsep ML inti.

Daya prediktif

Model ML yang diawasi dilatih menggunakan set data dengan contoh berlabel. Model ini mempelajari cara memprediksi label dari fitur. Namun, tidak setiap fitur dalam {i>dataset<i} memiliki kemampuan prediksi. Dalam beberapa kasus, hanya beberapa fitur yang bertindak sebagai prediktif label. Pada set data di bawah ini, gunakan harga sebagai label dan kolom lainnya sebagai fitur.

Contoh berlabel atribut mobil.

Apa tiga fitur yang menurut Anda kemungkinan menjadi prediktor terbesar untuk harga sebuah mobil?
Make_model, tahun, mil.
Merek/model, tahun, dan jarak mobil kemungkinan akan menjadi salah satu prediktor terkuat untuk harganya.
Warna, tinggi, make_model.
Tinggi dan warna mobil bukanlah prediktor kuat untuk harga mobil.
Mil, kotak roda gigi, make_model.
Roda gigi bukan merupakan prediktor utama harga.
Tire_size, wheel_base, tahun.
Ukuran ban dan dasar roda bukanlah prediktor kuat untuk harga mobil.

Supervised dan unsupervised learning

Berdasarkan masalahnya, Anda akan menggunakan pendekatan yang diawasi atau tidak diawasi. Misalnya, jika Anda mengetahui sebelumnya nilai atau kategori yang ingin diprediksi, Anda harus menggunakan supervised learning. Namun, jika ingin mengetahui apakah set data Anda berisi segmentasi atau pengelompokan contoh terkait, Anda perlu menggunakan unsupervised learning.

Misalkan Anda memiliki {i>dataset<i} pengguna untuk {i>website<i} belanja {i>online<i}, dan datanya berisi kolom berikut:

Gambar baris atribut pelanggan.

Jika Anda ingin memahami jenis pengguna yang mengunjungi situs tersebut, apakah Anda dapat menggunakan supervised learning atau unsupervised learning?
Unsupervised learning.
Karena kita ingin model mengelompokkan grup pelanggan terkait, kita akan menggunakan unsupervised learning. Setelah model mengelompokkan pengguna, kami akan membuat nama kami sendiri untuk setiap cluster, misalnya, "pencari diskon", "pemburu transaksi", "peselancar", "loyal", dan "pengembara".
Supervised learning karena saya mencoba memprediksi kelas yang dimiliki pengguna.
Dalam supervised learning, set data harus berisi label yang ingin Anda prediksi. Dalam set data, tidak ada label yang mengacu pada kategori pengguna.

Misalkan Anda memiliki {i>dataset<i} penggunaan energi untuk rumah dengan kolom-kolom berikut:

Gambar baris atribut rumah.

Jenis ML apa yang akan Anda gunakan untuk memprediksi jam kilowatt yang digunakan per tahun untuk rumah yang baru dibangun?
Pembelajaran yang diawasi.
Supervised learning melatih contoh berlabel. Dalam set data ini, "kilowatt jam yang digunakan per tahun" akan menjadi label karena ini adalah nilai yang Anda inginkan untuk diprediksi oleh model. Fiturnya akan berupa "persegi panjang", "lokasi", dan "tahun dibuat".
Unsupervised learning.
Unsupervised learning menggunakan contoh tak berlabel. Dalam contoh ini, "kilowatt jam yang digunakan per tahun" akan menjadi label karena ini adalah nilai yang Anda inginkan untuk diprediksi oleh model.

Misalkan Anda memiliki {i>dataset<i} penerbangan dengan kolom berikut:

Gambar baris data penerbangan.

Jika Anda ingin memprediksi biaya tiket pelatih, apakah Anda akan menggunakan regresi atau klasifikasi?
Regresi
Output model regresi adalah nilai numerik.
Klasifikasi
Output model klasifikasi adalah nilai diskret, biasanya sebuah kata. Dalam hal ini, biaya tiket kereta adalah nilai numerik.
Berdasarkan set data, dapatkah Anda melatih model klasifikasi untuk mengklasifikasikan biaya tiket pelatih sebagai "tinggi", "sedang", atau "rendah"?
Ya, tetapi pertama-tama kita harus mengonversi nilai numerik dalam kolom coach_ticket_cost menjadi nilai kategoris.
Anda dapat membuat model klasifikasi dari set data. Anda dapat melakukan tindakan seperti berikut:
  1. Cari biaya rata-rata tiket dari bandara keberangkatan ke bandara tujuan.
  2. Tentukan batas yang akan ditetapkan sebagai "tinggi", "sedang", dan "rendah".
  3. Bandingkan prediksi biaya dengan nilai minimum dan dapatkan output kategori yang mencakup nilai tersebut.
Tidak. Model klasifikasi tidak dapat dibuat. Nilai coach_ticket_cost bersifat numerik dan bukan kategoris.
Dengan sedikit upaya, Anda dapat membuat model klasifikasi.
Tidak. Model klasifikasi hanya memprediksi dua kategori, seperti spam atau not_spam. Model ini perlu memprediksi tiga kategori.
Model klasifikasi dapat memprediksi beberapa kategori. Model ini disebut model klasifikasi multiclass.

Pelatihan dan evaluasi

Setelah melatih model, kami mengevaluasinya menggunakan set data dengan contoh berlabel dan membandingkan nilai prediksi model dengan nilai label yang sebenarnya.

Pilih dua jawaban yang paling sesuai untuk pertanyaan.

Jika prediksi modelnya jauh, apa yang mungkin Anda lakukan untuk membuatnya lebih baik?
Latih ulang model, tetapi hanya gunakan fitur yang Anda yakini memiliki daya prediktif terkuat untuk label.
Melatih kembali model dengan fitur yang lebih sedikit tetapi memiliki daya prediktif lebih besar, dapat menghasilkan model yang membuat prediksi yang lebih baik.
Anda tidak dapat memperbaiki model yang prediksinya jauh meleset.
Anda dapat memperbaiki model yang prediksinya nonaktif. Sebagian besar model memerlukan beberapa putaran pelatihan sampai dapat membuat prediksi yang berguna.
Latih ulang model menggunakan {i>dataset<i} yang lebih besar dan beragam.
Model yang dilatih berdasarkan set data dengan lebih banyak contoh dan rentang nilai yang lebih luas dapat menghasilkan prediksi yang lebih baik karena model tersebut memiliki solusi umum yang lebih baik untuk hubungan antara fitur dan label.
Coba pendekatan pelatihan lain. Misalnya, jika Anda menggunakan pendekatan yang diawasi, cobalah pendekatan yang tidak diawasi.
Pendekatan pelatihan yang berbeda tidak akan menghasilkan prediksi yang lebih baik.

Sekarang Anda siap untuk mengambil langkah selanjutnya dalam perjalanan ML Anda:

  • Buku Panduan People + AI. Jika Anda mencari serangkaian metode, praktik terbaik, dan contoh yang disampaikan oleh Googler, pakar industri, dan penelitian akademis untuk menggunakan ML.

  • Framing Masalah. Jika Anda mencari pendekatan yang telah teruji di lapangan untuk membuat model ML dan menghindari masalah umum selama proses pembuatan.

  • Kursus Singkat Machine Learning. Jika Anda siap mengikuti pendekatan langsung dan mendalam untuk mempelajari ML lebih lanjut.