Aday Oluşturmaya Genel Bakış

Aday oluşturma, önerinin ilk aşamasıdır. Sistem, bir sorgu göz önünde bulundurulduğunda alakalı bir aday grubu oluşturur. Aşağıdaki tabloda aday oluşturmaya yönelik iki yaygın yaklaşım gösterilmektedir:

TürTanımÖrnek
içerik tabanlı filtreleme Kullanıcının beğendiğine benzer öğeler önermek için öğeler arasındaki benzerlik'i kullanır. A kullanıcısı iki sevimli kedi videosu izliyorsa sistem, bu kullanıcıya sevimli hayvan videoları önerebilir.
ortak çalışma filtreleme Öneri sunmak için sorgular ve öğeler arasındaki benzerlikleri aynı anda kullanır. A kullanıcısı B kullanıcısına benziyorsa ve B kullanıcısı video 1'i beğendiyse sistem (A kullanıcısı 1. video ile benzer bir video görmemiş olsa bile) 1. videoyu A kullanıcısına önerebilir.

Yerleştirme Alanı

Hem içeriğe dayalı hem de ortak çalışmaya dayalı filtreleme, her bir öğeyi ve her bir sorguyu (veya bağlamı) ortak bir yerleştirme alanındaki bir yerleştirme vektörüyle eşler.\(E = \mathbb R^d\)Genellikle yerleştirme alanı düşük boyutludur (yani \(d\) bedenin boyutundan çok daha küçüktür) ve öğe ya da sorgu grubunun bazı gizli yapılarını yakalar. Genellikle aynı kullanıcı tarafından izlenen YouTube videoları gibi benzer öğeler, yerleştirme alanında birbirine yaklaşır. "Yakınlık" kavramı bir benzerlik ölçüsüyle tanımlanır.

Benzerlik Önlemleri

Benzerlik ölçüsü, \(s : E \times E \to \mathbb R\) çözüm yerleştirmeleri alıp benzerliklerini ölçen bir skalar değer döndüren bir işlevdir. Yerleştirme, aday oluşturmak için şu şekilde kullanılabilir: Sorgu yerleştirme \(q \in E\)göz önünde bulundurulduğunda sistem,\(x \in E\) yakın olan \(q\), yani yüksek benzerlik gösteren yerleştirmeleri arar \(s(q, x)\).

Benzerlik derecesini belirlemek için çoğu öneri sistemi aşağıdakilerin en az birini kullanır:

  • kosinüs
  • noktalı ürün
  • Öklid uzaklığı

Kosinüs

Bu,iki vektör arasındaki açının kosinüsüdür. \(s(q, x) = \cos(q, x)\)

Nokta Ürün

İki vektörün nokta ürünü\(s(q, x) = \langle q, x \rangle = \sum_{i = 1}^d q_i x_i\). Ayrıca \(s(q, x) = \|x\| \|q\| \cos(q, x)\) (açının kosinüsünü normların çarpımıyla çarpılmasıyla) elde edilir. Dolayısıyla, yerleştirmeler normalleştirilirse nokta-ürün ve kosinüs örtüşür.

Öklid uzaklığı

Bu, Öklid bölgesindeki normal mesafedir, \(s(q, x) = \|q - x\| = \left[ \sum_{i = 1}^d (q_i - x_i)^2\right]^{\frac{1}{2}}\). Daha az mesafe, daha yüksek benzerlik anlamına gelir. Yerleştirmeler normalleştirildiğinde, Öklid mesafesinin karesi, nokta-ürün (ve kosinüs) ile sabittir. Çünkü bu durumda \(\frac{1}{2}\|q - x\|^2 = 1 - \langle q, x \rangle\).

Sorgu yerleştirme ve üç aday öğe içeren iki boyutlu yerleştirme alanını gösteren resim.

Benzerlik Önlemlerini Karşılaştırma

Sağdaki örnekte bulunan örneği inceleyin. Siyah vektör, sorgu yerleştirmeyi gösterir. Diğer üç yerleştirme vektörü (A Öğesi, B Öğesi, C Öğesi) aday öğelerini temsil eder. Kullanılan benzerlik önlemlerine bağlı olarak, öğelerin sıralaması farklı olabilir.

Bu resmi kullanarak, benzerlik önlemlerinin üçünü de (kosinüs, nokta ürünü ve Öklid mesafesi) kullanarak öğe sıralamasını belirlemeye çalışın.

Hangi Benzerlik Ölçümünü Seçmeniz Gerekir?

Kosinüsle karşılaştırıldığında, noktalı ürün benzerliği, yerleştirmenin normasına karşı hassastır. Yani, bir yerleştirmenin standardı ne kadar büyük olursa benzerlik de (akusma açısı olan öğeler için) o kadar yüksek olur ve öğenin önerilme olasılığı daha yüksek olur. Bu işlem, önerileri aşağıdaki şekilde etkileyebilir:

  • Eğitim setinde çok sık görünen öğeler (örneğin, popüler YouTube videoları) genellikle büyük normlara sahip yerleştirmeler içerir. Popülerlik bilgilerini yakalamak istenirse nokta ürünü tercih etmeniz gerekir. Ancak dikkatli olmazsanız popüler öğeler, önerilere hakim olabilir. Pratikte, öğenin standardına daha az önem veren benzerlik önlemlerinin diğer varyantlarını kullanabilirsiniz. Örneğin,\(s(q, x) = \|q\|^\alpha \|x\|^\alpha \cos(q, x)\) bazılarını \(\alpha \in (0, 1)\)tanımlayın.

  • Nadiren görünen öğeler eğitim sırasında sık sık güncellenmeyebilir. Sonuç olarak, bu öğeler büyük bir norm ile başlatıldıysa, sistem daha alakalı öğeler yerine nadir öğeler önerebilir. Bu sorunu önlemek için yerleştirmeyi ilk kullanıma hazırlarken dikkatli olun ve uygun normalleştirmeler kullanın. Bu sorunu ilk alıştırmada ayrıntılarıyla açıklayacağız.