Proses Debug Data dan Fitur

Data berkualitas rendah akan memengaruhi performa model Anda secara signifikan. Jauh lebih mudah untuk mendeteksi data berkualitas rendah saat input daripada menebak keberadaannya setelah model Anda memprediksi dengan buruk. Pantau data Anda dengan mengikuti saran di bagian ini.

Memvalidasi Data Input Menggunakan Skema Data

Untuk memantau data, Anda harus terus memeriksa data terhadap nilai statistik yang diharapkan dengan menulis aturan yang harus dipenuhi oleh data tersebut. Kumpulan aturan ini disebut skema data. Tentukan skema data dengan mengikuti langkah-langkah berikut:

  1. Untuk data fitur Anda, pahami rentang dan distribusinya. Untuk fitur kategori, pahami kumpulan kemungkinan nilai.
  2. Enkode pemahaman Anda ke dalam aturan yang ditentukan dalam skema. Contoh aturan adalah:

    • Pastikan rating yang dikirimkan pengguna selalu antara 1 dan 5.
    • Periksa apakah “the” paling sering terjadi (untuk fitur teks bahasa Inggris).
    • Pastikan fitur kategoris memiliki nilai dari kumpulan tetap.
  3. Uji data Anda dengan skema data. Skema Anda harus menangkap error data seperti:

    • anomali
    • nilai variabel kategori yang tidak diharapkan
    • distribusi data yang tidak diharapkan

Memastikan Kualitas Pemisahan

Pemisahan pengujian dan pelatihan harus sama mewakili data input Anda. Jika pemisahan pengujian dan pelatihan berbeda secara statistik, data pelatihan tidak akan membantu memprediksi data pengujian. Untuk mempelajari cara mengambil sampel dan memisahkan data, lihat bagian Pengambilan Sampel dan Pemisahan Data dalam kursus Persiapan Data dan Rekayasa Fitur di ML.

Pantau properti statistik pemisahan Anda. Jika properti berbeda, naikkan tanda. Selanjutnya, uji apakah rasio contoh di setiap pemisahan tetap konstan. Misalnya, jika data Anda dibagi 80:20, rasio tersebut tidak akan berubah.

Menguji Data Engineer

Meskipun data mentah Anda mungkin valid, model Anda hanya akan melihat data fitur yang direkayasa. Karena data yang direkayasa terlihat sangat berbeda dari data input mentah, Anda harus memeriksa data yang direkayasa secara terpisah. Berdasarkan pemahaman Anda tentang data yang direkayasa, tulis pengujian unit. Misalnya, Anda dapat menulis pengujian unit untuk memeriksa kondisi berikut:

  • Semua fitur numerik diskalakan, misalnya, antara 0 dan 1.
  • Vektor yang dienkodekan satu kali hanya berisi satu nol 1 dan N-1.
  • Data yang hilang diganti dengan nilai rata-rata atau default.
  • Distribusi data setelah transformasi sesuai dengan ekspektasi. Misalnya, jika Anda menormalisasi menggunakan skor z, rata-rata skor z adalah 0.
  • Pencilan ditangani, seperti dengan menskalakan atau memotong.