Mengevaluasi kualitas perintah

Memastikan kualitas dan keandalan perintah sangat penting saat menerapkan Prompt API.

Untuk mengevaluasi kualitas perintah, Anda harus mengembangkan serangkaian input dan output yang diharapkan secara komprehensif untuk kasus penggunaan Anda.

Untuk menilai apakah perintah Anda memenuhi standar kualitas dengan setiap versi model Gemini Nano, sebaiknya gunakan alur kerja berikut:

  1. Jalankan set data evaluasi Anda dan catat outputnya.
  2. Evaluasi hasil secara manual atau gunakan LLM-as-a-judge.
    1. Jika evaluasi tidak memenuhi standar kualitas Anda, ulangi perintah Anda. Misalnya, minta LLM yang lebih canggih seperti Gemini Pro untuk meningkatkan kualitas perintah berdasarkan output yang diinginkan versus output sebenarnya.

Rekayasa perintah meningkatkan performa tugas, dan mengulangi perintah adalah kuncinya. Sebaiknya lakukan minimal 3-5 iterasi pada langkah-langkah di atas. Perhatikan bahwa pendekatan ini memiliki batas, karena pengoptimalan pada akhirnya akan memberikan hasil yang semakin berkurang.

Atau, untuk meningkatkan kualitas perintah dengan cepat dalam skala besar, Anda dapat menggunakan pengoptimal berbasis data, yang dapat menargetkan model di perangkat seperti gemma-3n-e4b-it.

Keamanan

Untuk memastikan Gemini Nano memberikan hasil yang aman bagi pengguna, beberapa lapisan perlindungan diterapkan untuk membatasi hasil yang berbahaya atau tidak diinginkan:

  • Keamanan model native: Semua model Gemini, termasuk Gemini Nano, dilatih agar memiliki kesadaran keamanan sejak awal. Artinya, pertimbangan keamanan dibangun ke dalam inti model, bukan hanya ditambahkan sebagai pertimbangan tambahan.
  • Filter keamanan pada input dan output: Perintah input dan hasil yang dihasilkan oleh runtime Gemini Nano dievaluasi berdasarkan filter keamanan kami sebelum memberikan hasil ke aplikasi. Hal ini membantu mencegah konten tidak aman lolos, tanpa mengurangi kualitas.

Namun, karena setiap aplikasi memiliki kriteria sendiri untuk apa yang dianggap sebagai konten aman bagi pengguna, Anda harus menilai risiko keamanan untuk kasus penggunaan spesifik aplikasi Anda dan melakukan pengujian yang sesuai.

Referensi lainnya