Mengurangi Kerugian: Penurunan Gradien Stokastik

Dalam penurunan gradien, tumpukan adalah jumlah total contoh yang Anda gunakan untuk menghitung gradien dalam satu iterasi. Sejauh ini, kita telah berasumsi bahwa tumpukan adalah seluruh kumpulan data. Ketika bekerja dalam skala Google, kumpulan data biasanya berisi miliaran atau bahkan ratusan miliar contoh. Selain itu, kumpulan data Google biasanya berisi sejumlah besar fitur. Akibatnya, tumpukan dapat menjadi sangat besar. Satu tumpukan yang sangat besar dapat menyebabkan satu iterasi memakan waktu yang sangat lama untuk dihitung.

Kumpulan data yang besar dengan sampel contoh acak mungkin berisi data yang berlebihan. Faktanya, redundansi menjadi lebih mungkin dilakukan karena ukuran tumpukan meningkat. Beberapa redundansi dapat menjadi berguna untuk meluruskan gradien yang mengandung noise, tetapi tumpukan yang sangat besar cenderung tidak membawa nilai prediktif yang jauh lebih besar daripada tumpukan besar.

Bagaimana jika kita bisa mendapatkan rata-rata gradien yang tepat untuk penghitungan yang jauh lebih sedikit? Dengan memilih contoh secara acak dari kumpulan data kita, kita dapat memperkirakan (meskipun, bermasalah) rata-rata besar dari penghitungan yang jauh lebih kecil. Penurunan gradien stokastik (PGS) menerapkan ide ini secara ekstrem--hanya salah satu contoh yang digunakan (satu ukuran tumpukan untuk 1 contoh) per iterasi. Dengan iterasi yang memadai, PGS berfungsi namun terdapat banyak noise. Istilah "stokastik" menunjukkan bahwa satu contoh yang terdiri dari setiap tumpukan dipilih secara acak.

Tumpukan mini penurunan gradien stokastik (tumpukan mini PGS) adalah sebuah kompromi antara iterasi tumpukan penuh dan PGS. Tumpukan mini biasanya antara 10 dan 1.000 contoh, dipilih secara acak. Tumpukan mini PGS mengurangi jumlah noise dalam PGS tetapi masih lebih efisien daripada tumpukan penuh.

Untuk menyederhanakan penjelasannya, kita fokus pada penurunan gradien untuk satu fitur. Yakinlah bahwa penurunan gradien juga berfungsi pada set fitur yang berisi beberapa fitur.