Langkah 1: Kumpulkan Data

Mengumpulkan data adalah langkah terpenting dalam menyelesaikan masalah machine learning yang diawasi. Pengklasifikasi teks Anda hanya dapat sebaik set data yang dibuatnya.

Jika Anda tidak memiliki masalah tertentu yang ingin dipecahkan dan hanya tertarik dalam mempelajari klasifikasi teks secara umum, ada banyak set data open source. Anda dapat menemukan link ke beberapa di antaranya di repo GitHub kami. Di sisi lain, jika Anda mengatasi masalah tertentu, Anda harus mengumpulkan data yang diperlukan. Banyak organisasi menyediakan API publik untuk mengakses data mereka—misalnya, Twitter API atau NY Times API. Anda mungkin dapat memanfaatkannya untuk masalah yang Anda coba selesaikan.

Berikut beberapa hal penting yang perlu diingat saat mengumpulkan data:

  • Jika Anda menggunakan API publik, pahami batasan API sebelum menggunakannya. Misalnya, beberapa API menetapkan batas pada kecepatan pembuatan kueri.
  • Semakin banyak contoh pelatihan (disebut sebagai sampel dalam panduan ini) yang Anda miliki, semakin baik. Hal ini akan membantu model Anda menggeneralisasi dengan lebih baik.
  • Pastikan jumlah sampel untuk setiap class atau topik tidak terlalu tidak seimbang. Artinya, Anda harus memiliki jumlah sampel yang sebanding di setiap class.
  • Pastikan sampel Anda mencakup ruang input yang memungkinkan secara memadai, bukan hanya pada kasus umum.

Dalam panduan ini, kami akan menggunakan set data ulasan film Database Internet (IMDb) untuk mengilustrasikan alur kerja. Set data ini berisi ulasan film yang diposting oleh orang-orang di situs IMDb, serta label terkait (“positif” atau “negatif”) yang menunjukkan apakah peninjau menyukai film atau tidak. Ini adalah contoh klasik dari masalah analisis sentimen.