Pemfilteran Berbasis Konten

Pemfilteran berbasis konten menggunakan fitur item untuk merekomendasikan item lain yang mirip dengan yang disukai pengguna, berdasarkan tindakan sebelumnya atau masukan eksplisit.

Untuk mendemonstrasikan pemfilteran berbasis konten, mari kita rekayasa beberapa fitur untuk Google Play Store. Gambar berikut menampilkan matriks fitur dengan setiap baris mewakili aplikasi dan setiap kolom mewakili fitur. Fitur dapat mencakup kategori (seperti Pendidikan, Kasual, Kesehatan), penerbit aplikasi, dan banyak lagi. Untuk menyederhanakannya, asumsikan matriks fitur ini adalah biner: nilai bukan nol berarti aplikasi memiliki fitur tersebut.

Anda juga mewakili pengguna di ruang fitur yang sama. Beberapa fitur terkait pengguna dapat diberikan secara eksplisit oleh pengguna. Misalnya, pengguna memilih "Aplikasi hiburan" di profil mereka. Fitur lainnya dapat bersifat implisit, berdasarkan aplikasi yang telah diinstal sebelumnya. Misalnya, pengguna menginstal aplikasi lain yang dipublikasikan oleh Science R Us.

Model harus merekomendasikan item yang relevan kepada pengguna ini. Untuk melakukannya, Anda harus memilih metrik kesamaan terlebih dahulu (misalnya, produk titik). Kemudian, Anda harus menyiapkan sistem untuk menilai setiap item kandidat sesuai dengan metrik kesamaan ini. Perhatikan bahwa rekomendasi tersebut khusus untuk pengguna ini karena modelnya tidak menggunakan informasi tentang pengguna lain.

Gambar matriks yang menampilkan pengguna dan aplikasi yang mungkin direkomendasikan

Menggunakan Produk Dot sebagai Ukuran Kesamaan

Pertimbangkan kasus saat pengguna yang menyematkan \(x\) dan penyematan aplikasi \(y\) merupakan vektor biner. Karena \(\langle x, y \rangle = \sum_{i = 1}^d x_i y_i\), fitur yang muncul di \(x\) dan \(y\) akan memberikan kontribusi 1 ke jumlah. Dengan kata lain, \(\langle x, y \rangle\) adalah jumlah fitur yang aktif di kedua vektor secara bersamaan. Produk titik tinggi kemudian menunjukkan fitur yang lebih umum, sehingga kemiripan yang lebih tinggi.

Cobalah Sendiri!

Hitung produk titik untuk setiap aplikasi dalam masalah aplikasi sebelumnya. Lalu gunakan informasi tersebut untuk menjawab pertanyaan di bawah:

Aplikasi mana yang harus kami rekomendasikan?
Aplikasi pendidikan yang dibuat oleh Science R Us.
Anda benar! Item ini memiliki produk titik tertinggi pada 2. Pengguna kami sangat menyukai aplikasi pendidikan dan sains.
Aplikasi kesehatan yang dibuat oleh Healthcare.
Aplikasi ini mendapatkan skor 1. Ini bukan rekomendasi terburuk yang dapat dibuat oleh sistem kami, tetapi bukan yang terbaik.
Aplikasi kasual yang dibuat oleh TimeWastr.
Aplikasi ini sebenarnya memiliki produk titik terendah di 0. Pengguna kami tidak tertarik dengan aplikasi kasual seperti game.