Veri Günlüklerini Birleştirme

Eğitim setini bir araya getirirken bazen birden fazla veri kaynağına katılmanız gerekir.

Günlük Türleri

Aşağıdaki giriş verisi türlerinden herhangi biriyle çalışabilirsiniz:

  • işlem günlükleri
  • özellik verileri
  • toplu istatistikler

İşlem günlükleri belirli bir etkinliği kaydeder. Örneğin, bir işlem günlüğü, sorgu yapan bir IP adresini ve sorgunun yapıldığı tarih ve saati kaydedebilir. İşlem etkinlikleri belirli bir etkinliğe karşılık gelir.

Özellik verileri, bilgilerin anlık görüntülerini içerir. Örneğin:

  • kullanıcı demografisi
  • sorgu sırasında arama geçmişi

Özellik verileri bir etkinliğe veya belirli bir ana özel değildir, ancak tahminlerde bulunmak için yararlı olabilir. Belirli bir etkinlikle bağlantılı olmayan tahmin görevleri (örneğin, bireysel bir an yerine bir zaman aralığını içeren kullanıcı kaybını tahmin etme) için tek veri türü özellik verileri olabilir.

Özellik verileri ve işlem günlükleri birbiriyle ilişkilidir. Örneğin, çeşitli işlem günlüklerini birleştirerek, toplu istatistikler oluşturarak bir özellik verisi türü oluşturabilirsiniz. Bu durumda, kullanıcı için tek bir özellik oluşturmak amacıyla çok sayıda işlem günlüğüne bakabilirsiniz.

Toplu istatistikler, birden çok işlem günlüğünden bir özellik oluşturur. Örneğin:

  • kullanıcı sorgularının sıklığı
  • Belirli bir reklamın ortalama tıklama oranı

Günlük Kaynaklarına Katılma

Her günlük türü farklı bir konumda olabilir. Makine öğrenimi modeliniz için veri toplarken, veri kümenizi oluşturmak için farklı kaynakları bir araya getirmeniz gerekir. Bazı örnekler:

  • Etkinlik sırasında kullanıcı özelliklerini aramak için işlem günlüklerinde kullanıcı kimliğinden ve zaman damgasından yararlanın.
  • Sorgu sırasında arama geçmişini seçmek için işlem zaman damgasını kullanın.

Tahmin Veri Kaynakları - Çevrimiçi ve Çevrimdışı

Makine Öğrenimi Kilitlenme Kursu'nda online ve çevrimdışı hizmet hakkında bilgi edindiniz. Seçim, sisteminizin verileri nasıl topladığını etkiler:

  • Online: Gecikme bir sorun olduğu için sisteminizin hızlı bir şekilde giriş oluşturması gerekir.
  • Muhtemelen bilgi işlem kısıtlamalarınız yoktur. Bu nedenle, veri oluşturma eğitimi gibi benzer karmaşık işlemler gerçekleştirebilirsiniz.

Örneğin, özellik verilerinin genellikle başka bir sistemden aranması gerekir. Bu da gecikme endişelerine yol açabilir. Benzer şekilde, toplu istatistiklerin anında hesaplanması çok pahalı olabilir. Gecikme, engelleyiciyse bu istatistiklerin önceden hesaplanması mümkündür.