Mengukur keberhasilan

Bagaimana Anda akan tahu apakah penerapan ML Anda sepadan dengan upaya yang dilakukan? Kapan Anda harus mulai merayakan: tepat setelah model masuk ke tahap produksi dan menyajikan prediksi pertamanya, atau hanya setelah metrik bisnis kuantitatif mulai bergerak ke arah yang benar?

Sebelum memulai project, Anda harus menentukan metrik kesuksesan dan menyepakati hasil akhir. Anda harus menentukan dan melacak dua jenis metrik berikut:

  • Metrik bisnis. Metrik untuk mengukur performa bisnis, misalnya, pendapatan, rasio klik-tayang, atau jumlah pengguna.

  • Metrik model. Metrik untuk mengukur kualitas model, misalnya, Root Mean Squared Error, presisi, atau perolehan.

Metrik bisnis

Metrik bisnis adalah yang paling penting. Alasan Anda menggunakan ML: Anda ingin meningkatkan bisnis.

Mulai dengan metrik produk atau bisnis yang dapat diukur. Metrik harus sekecil mungkin dan berfokus. Berikut adalah contoh metrik bisnis yang terfokus dan dapat diukur:

  • Mengurangi biaya listrik bulanan pusat data sebesar 30 persen.
  • Meningkatkan pendapatan dari rekomendasi produk sebesar 12 persen.
  • Meningkatkan rasio klik-tayang sebesar 9 persen.
  • Meningkatkan sentimen pelanggan dari survei keikutsertaan sebesar 20 persen.
  • Meningkatkan waktu di halaman sebesar 4 persen.

Melacak metrik bisnis

Jika Anda tidak melacak metrik bisnis yang ingin ditingkatkan, mulailah dengan menerapkan infrastruktur untuk melakukannya. Menetapkan sasaran untuk meningkatkan rasio klik-tayang sebesar 15% tidak logis jika Anda saat ini tidak mengukur rasio klik-tayang.

Yang lebih penting, pastikan Anda mengukur metrik yang tepat untuk masalah Anda. Misalnya, jangan menghabiskan waktu untuk menulis instrumentasi guna melacak rasio klik-tayang jika metrik yang lebih penting mungkin adalah pendapatan dari rekomendasi.

Seiring kemajuan proyek, Anda akan menyadari apakah metrik keberhasilan target benar-benar merupakan target yang realistis atau tidak. Dalam beberapa kasus, Anda mungkin menentukan bahwa proyek tidak layak berdasarkan metrik keberhasilan yang ditentukan.

Metrik model

Kapan Anda harus menempatkan model ke produksi? Kapan AUC berada pada nilai tertentu? Saat model mencapai skor F1 tertentu? Jawaban atas pertanyaan ini bergantung pada jenis masalah yang Anda pecahkan dan kualitas prediksi yang menurut Anda perlu ditingkatkan untuk meningkatkan metrik bisnis.

Saat menentukan metrik untuk mengevaluasi model, pertimbangkan hal-hal berikut:

  • Tentukan satu metrik untuk dioptimalkan. Misalnya, model klasifikasi dapat dievaluasi berdasarkan berbagai metrik (AUC, AUC-PR, dll). Memilih model terbaik bisa jadi sulit jika metrik yang berbeda lebih mendukung model yang berbeda. Oleh karena itu, sepakati satu metrik untuk mengevaluasi model.

  • Tentukan sasaran penerimaan yang harus dipenuhi. Tujuan akseptabilitas berbeda dengan metrik evaluasi model. Metrik ini mengacu pada sasaran yang harus dipenuhi model agar dianggap dapat diterima untuk kasus penggunaan yang dimaksud. Misalnya, sasaran penerimaan mungkin berupa "output yang salah kurang dari 0,1%", atau "recall untuk lima kategori teratas lebih besar dari 97%".

Misalnya, anggap saja model klasifikasi biner mendeteksi transaksi penipuan. Metrik pengoptimalannya mungkin perolehan, sedangkan sasaran penerimaannya mungkin presisi. Dengan kata lain, kami akan memprioritaskan recall (mengidentifikasi penipuan dengan benar hampir sepanjang waktu) sekaligus menginginkan presisi tetap berada pada atau di atas nilai tertentu (mengidentifikasi transaksi penipuan yang sebenarnya).

Hubungan antara metrik model dan metrik bisnis

Pada dasarnya, Anda mencoba mengembangkan model yang kualitas prediksinya terhubung secara kausal dengan metrik bisnis Anda. Metrik model yang bagus tidak selalu menyiratkan peningkatan metrik bisnis. Tim Anda mungkin mengembangkan model dengan metrik yang mengesankan, tetapi prediksi model mungkin gagal meningkatkan metrik bisnis.

Setelah Anda puas dengan kualitas prediksi model, coba tentukan pengaruh metrik model terhadap metrik bisnis. Biasanya, tim akan men-deploy model ke 1% pengguna, lalu memantau metrik bisnis.

Misalnya, tim Anda mengembangkan model untuk meningkatkan pendapatan dengan memprediksi churn pelanggan. Secara teori, jika Anda dapat memprediksi apakah pelanggan cenderung meninggalkan platform atau tidak, Anda dapat mendorong mereka untuk tetap menggunakan platform.

Tim Anda membuat model dengan kualitas prediksi 95% dan mengujinya pada sampel kecil pengguna. Namun, pendapatan tidak meningkat. Kehilangan pelanggan justru meningkat. Berikut beberapa kemungkinan penjelasannya:

  • Prediksi tidak terjadi cukup awal untuk dapat ditindaklanjuti. Model hanya dapat memprediksi churn pelanggan dalam jangka waktu tujuh hari, yang tidak cukup cepat untuk menawarkan insentif agar mereka tetap menggunakan platform.

  • Fitur tidak lengkap. Mungkin ada faktor lain yang menyebabkan churn pelanggan yang tidak ada dalam set data pelatihan.

  • Nilai minimum tidak cukup tinggi. Model mungkin perlu memiliki kualitas prediksi 97% atau lebih tinggi agar dapat berguna.

Contoh sederhana ini menyoroti dua poin:

  • Penting untuk melakukan pengujian pengguna awal guna membuktikan (dan memahami) hubungan antara metrik model dan metrik bisnis.
  • Metrik model yang bagus tidak menjamin peningkatan metrik bisnis.

AI Generatif

Mengevaluasi output AI generatif menimbulkan tantangan unik. Dalam banyak kasus, seperti output open-ended atau kreatif, evaluasi output ML lebih sulit daripada evaluasi output ML tradisional.

LLM dapat diukur dan dievaluasi berdasarkan berbagai metrik. Menentukan metrik yang akan digunakan untuk mengevaluasi model Anda bergantung pada kasus penggunaan Anda.

Perhatikan

Jangan samakan kesuksesan model dengan kesuksesan bisnis. Dengan kata lain, model dengan metrik yang luar biasa tidak menjamin kesuksesan bisnis.

Banyak engineer yang terampil dapat membuat model dengan metrik yang mengesankan. Pelatihan model yang cukup baik biasanya bukan masalahnya. Sebaliknya, model tidak meningkatkan metrik bisnis. Project ML dapat ditakdirkan gagal karena ketidakselarasan antara metrik bisnis dan metrik model.

Periksa Pemahaman Anda

Anda memiliki masalah bisnis yang jelas dan solusi yang terdefinisi dengan baik untuk menggunakan LLM sebagai agen dukungan pelanggan. Bagaimana cara Anda mengukur keberhasilan solusi tersebut?
Jumlah kasus dukungan yang diselesaikan yang memerlukan keterlibatan manusia berkurang dari 72% menjadi 50%.
Benar. Ini adalah metrik bisnis terukur yang dapat Anda lacak.
Metrik evaluasi LLM selalu tinggi.
Metrik model yang baik tidak menjamin bahwa Anda akan memiliki metrik bisnis yang lebih baik.
Masukan dari pengujian pengguna awal sangat positif.
Umpan balik awal pengguna biasanya lebih kualitatif daripada kuantitatif. Anda harus menentukan metrik bisnis yang dapat diukur untuk mengukur keberhasilan.