Persiapan Data dan Rekayasa Fitur di ML

Machine learning membantu kami menemukan pola dalam data, yang kemudian kami gunakan untuk membuat prediksi tentang titik data baru. Untuk mendapatkan prediksi tersebut dengan benar, kita harus membuat set data dan mengubah data dengan benar. Kursus ini membahas dua langkah utama ini. Kita juga akan melihat pengaruh pertimbangan pelatihan/penayangan terhadap langkah-langkah ini.

Project machine learning yang disusun menjadi lima tahap. 1. Menentukan masalah
ML dan mengusulkan solusi. 2. Buat set data Anda. 3. Mentransformasi data.
4. Latih model. 5. Menggunakan model untuk membuat prediksi.  Kursus ini membahas cara membuat set data dan mengubah data.

Prasyarat

Kursus ini mengasumsikan bahwa Anda telah:

Mengapa Mempelajari Persiapan Data dan Rekayasa Fitur?

Anda dapat menganggap rekayasa fitur sebagai bantuan bagi model untuk memahami set data dengan cara yang sama seperti yang Anda lakukan. Pelajar sering mengikuti kursus machine learning yang berfokus pada pembuatan model, tetapi pada akhirnya menghabiskan lebih banyak waktu untuk fokus pada data.

Untuk pertanyaan berikut, klik panah yang diinginkan untuk memeriksa jawaban Anda:

Jika Anda harus memprioritaskan peningkatan pada salah satu area di bawah ini dalam project machine learning, manakah yang akan memberikan dampak terbesar?
Kualitas dan ukuran data Anda
Data mengungguli semua. Memang benar bahwa memperbarui algoritme pembelajaran atau arsitektur model akan memungkinkan Anda mempelajari berbagai jenis pola, tetapi jika data Anda buruk, pada akhirnya Anda akan mem-build fungsi yang sesuai dengan hal yang salah. Kualitas dan ukuran set data jauh lebih penting daripada algoritme mencolok yang Anda gunakan.
Menggunakan algoritme pengoptimalan terbaru
Anda tentu dapat melihat beberapa keuntungan dalam mendorong pengoptimal, tetapi hal ini tidak akan berdampak signifikan pada model Anda seperti item lain dalam daftar ini.
Jaringan yang lebih dalam
Meskipun jaringan yang lebih dalam dapat meningkatkan model Anda, dampaknya tidak akan sebesar item lainnya dalam daftar ini.
Fungsi kerugian yang lebih cerdas
Hampir benar! Fungsi kerugian yang lebih baik dapat memberi Anda kemenangan besar, tetapi berada di posisi kedua setelah item lain dalam daftar ini.

Mengapa Mengumpulkan Set Data yang Baik Penting?

Google Terjemahan

"...salah satu kemajuan kualitas kami yang paling berdampak sejak terjemahan mesin neural telah mengidentifikasi subset terbaik dari data pelatihan kami untuk digunakan"

- Software Engineer, Google Terjemahan

Tim Google Terjemahan memiliki lebih banyak data pelatihan daripada yang dapat mereka gunakan. Alih-alih menyesuaikan model, tim perusahaan ini telah memperoleh kemenangan lebih besar dengan menggunakan fitur terbaik dalam data mereka.

 

 

 

"...sering kali saat saya mencoba men-debug secara manual error yang tampak menarik, error tersebut dapat dilacak kembali ke masalah dengan data pelatihan." - Software Engineer, Google Terjemahan

Error "Tampak menarik" biasanya disebabkan oleh data. Data yang rusak dapat menyebabkan model Anda mempelajari pola yang salah, terlepas dari teknik pemodelan yang Anda coba.

 

 

Proyek Retinopati Diabetik Otak

Proyek retinopati diabetik Google Brain menggunakan arsitektur jaringan neural, yang dikenal sebagai Inception, untuk mendeteksi penyakit dengan mengklasifikasikan gambar. Tim tidak mengubah modelnya. Sebagai gantinya, mereka berhasil membuat set data yang berisi 120.000 contoh yang diberi label oleh dokter spesialis mata. (Pelajari lebih lanjut di https://research.google.com/pubs/pub43022.html.)