Mentransformasi Data Anda: Periksa Pemahaman Anda

Untuk pertanyaan berikut, klik panah yang diinginkan untuk memeriksa jawaban Anda:

Anda sedang memproses data untuk model regresi. Transformasi apa yang wajib dilakukan? Centang semua yang sesuai.
Mengonversi semua fitur non-numerik ke fitur numerik.
Benar. Ini adalah transformasi wajib. Anda harus mengonversi string ke beberapa representasi numerik karena Anda tidak dapat melakukan perkalian matriks pada string.
Menormalisasi data numerik.
Menormalisasi data numerik dapat membantu, tetapi ini adalah transformasi kualitas opsional.

 

Perhatikan diagram di bawah. Teknik transformasi data mana yang kemungkinan besar akan menjadi yang paling produktif di awal dan mengapa? Asumsikan sasaran Anda adalah menemukan hubungan linear antara roomPerPerson dan harga rumah.
Skor Z
Skor Z adalah pilihan yang bagus jika pencilan tidak ekstrem. Namun, pencilan di sini sangat ekstrem.
Klip
Pembuatan klip adalah pilihan yang tepat di sini karena set data berisi pencilan yang ekstrem. Anda harus memperbaiki pencilan ekstrem sebelum menerapkan normalisasi lainnya.
Penskalaan Log
Penskalaan log adalah pilihan yang baik jika data Anda mengonfirmasi distribusi hukum daya. Namun, data ini sesuai dengan distribusi normal, bukan distribusi hukum daya.
Bucket (bining) dengan batas kuantil
Bucketing kuantil dapat menjadi pendekatan yang bagus untuk data yang miring, tetapi dalam kasus ini, kemiringan ini sebagian disebabkan oleh beberapa pencilan yang ekstrem. Selain itu, Anda ingin model mempelajari hubungan linear. Oleh karena itu, Anda harus mempertahankan roomPerPerson secara numerik, bukan mengubahnya menjadi kategori, yang merupakan fungsi bucketing. Sebagai gantinya, coba teknik normalisasi.

Diagram yang menunjukkan frekuensi relatif berbagai RoomPerPerson, dengan
RoomsPerPerson adalah jumlah kamar di suatu rumah dibagi dengan jumlah orang di
tempat tinggal tersebut.  Sebagian besar data didistribusikan antara 0 dan 5 dengan beberapa titik dari 5 hingga 55.

 

Perhatikan diagram di bawah. Teknik transformasi data mana yang kemungkinan besar akan menjadi yang paling produktif di awal dan mengapa?
Skor Z
Skor Z adalah pilihan yang bagus jika pencilan tidak terlalu ekstrem sehingga Anda perlu klip. Tidak demikian di sini. Cara data miring harus berupa petunjuk.
Klip
Pembuatan klip adalah pilihan yang tepat jika ada pencilan yang ekstrem. Namun, diagram ini menunjukkan distribusi hukum daya, dan ada teknik normalisasi lain yang lebih baik untuk mengatasinya.
Penskalaan Log
Penskalaan log adalah pilihan yang bagus di sini karena data sesuai dengan distribusi hukum daya.
Bucket (bining) dengan batas kuantil
Bucketing kuantil dapat menjadi pendekatan yang tepat untuk data yang miring. Namun, Anda sedang mencari model untuk mempelajari hubungan linear. Oleh karena itu, Anda harus menyimpan data dalam bentuk angka dan tidak menempatkan data tersebut dalam bucket. Cobalah teknik normalisasi.

Grafik batang yang batangnya sangat terkonsentrasi di ujung bawah. Batang pertama
memiliki magnitudo 1,200, batang kedua memiliki magnitudo 460, batang ketiga memiliki magnitudo 300. Pada batang ke-15, magnitudo turun menjadi sekitar 30. Ekor yang sangat panjang berlanjut untuk 90 batang lainnya dengan magnitudo dari ekor panjang yang tidak pernah naik melebihi 10.

 

Perhatikan diagram di bawah. Apakah model linear dapat memberikan prediksi yang baik tentang hubungan antara rasio kompresi dan kota-mpg? Jika tidak, bagaimana cara Anda mengubah data untuk melatih model dengan lebih baik?
Ya, model mungkin akan menemukan hubungan linear dan membuat prediksi yang cukup akurat.
Meskipun model akan menemukan hubungan linear, model tidak akan membuat prediksi yang sangat akurat. Anda dapat mencoba melatih set data ini dalam Latihan Pemodelan Data untuk lebih memahami alasannya.
Tidak. Model mungkin akan lebih akurat setelah diskalakan.
Anda dapat menerapkan penskalaan linear, tetapi kemiringan hubungan antara rasio kompresi dan kota-mpg akan terlihat sama. Yang akan membantu Anda lebih lanjut adalah melihat dua lereng terpisah—satu untuk cluster titik dalam rasio kompresi lebih rendah dan satu lagi untuk posisi lebih tinggi.
Tidak. Sepertinya ada dua perilaku berbeda yang terjadi. Menetapkan ambang batas di tengah dan menggunakan fitur yang dikelompokkan dapat membantu Anda lebih memahami apa yang terjadi di kedua area tersebut.
Benar. Penting untuk memahami alasan dan cara Anda menetapkan batas. Dalam Latihan Pemodelan Data, Anda akan mempelajari lebih lanjut bagaimana pendekatan ini dapat membantu Anda membuat model yang lebih baik.

Detektif yang menampilkan jalan raya-mpg terhadap rasio kompresi. Dua rumpun data yang berbeda, satu rumpun yang jauh lebih besar dari yang lain, muncul pada ujung yang berlawanan dari sumbu rasio kompresi. Gumpalan yang lebih besar mencakup rentang rasio kompresi 7-12; rumpun yang lebih kecil mencakup rentang rasio kompresi 21-23. Jalan raya-mpg umumnya sedikit lebih rendah dalam rumpun yang lebih besar
daripada rumpun
yang lebih kecil.

 

Tim pembanding memberi tahu Anda tentang progres yang telah mereka buat dalam project ML mereka. Mereka menghitung kosakata dan melatih model secara offline. Namun, mereka ingin menghindari masalah yang sudah usang, sehingga kini mereka akan melatih model yang berbeda secara online. Apa yang mungkin terjadi selanjutnya?
Model akan terus diperbarui saat data baru tiba. Tim lainnya harus terus memantau data input.
Meskipun menghindari keusangan model adalah manfaat utama dari pelatihan dinamis, menggunakan kosakata dengan model yang dilatih secara offline akan menimbulkan masalah.
Mereka mungkin mendapati bahwa indeks yang mereka gunakan tidak sesuai dengan kosakatanya.
Benar. Peringatkan kolega Anda tentang risiko pelatihan/penyelenggaraan penayangan, lalu rekomendasikan mereka untuk mengikuti kursus Google tentang Persiapan Data dan Rekayasa Fitur untuk ML guna mempelajarinya lebih lanjut.