Etiketleri ve Kaynakları Tanımlama

Doğrudan ve Türetilmiş Etiketler

Etiketleriniz iyi tanımlandığında makine öğrenimi daha kolay olur. En iyi etiket, tahmin etmek istediğiniz şeyin doğrudan etiketidir. Örneğin, bir kullanıcının Taylor Swift hayranı olup olmadığını tahmin etmek istiyorsanız, doğrudan etiket "Kullanıcı; Taylor Swift hayranıdır."&quot

Kullanıcıların YouTube'da Taylor Swift videosu izleyip izlemediği, takipçilerin basit testlerinden biri olabilir. Kullanıcı, YouTube'da Taylor Swift videosu izledi. Bu video, tahmin etmek istediğiniz şeyi doğrudan ölçmediği için türetilmiş bir etiket. Bu türetilmiş etiket, kullanıcının Taaylor Swift'i sevdiğine dair güvenilir bir gösterge mi? Modeliniz, türetilmiş etiketiniz ve istediğiniz tahmin arasındaki bağlantı kadar iyi olacaktır.

Etiket Kaynakları

Modelinizin sonucu, bir Etkinlik veya Özellik olabilir. Bunun sonucunda iki tür etiket oluşturulur:

  • Etkinlikler için doğrudan etiket: "Kullanıcı en popüler arama sonucunu mu tıkladı?"
  • Özellikler için doğrudan etiket (ör. "Gelecek hafta reklamveren X kattan fazla harcama yapacak mı?").

Etkinlikler için Doğrudan Etiketler

Etkinliklerde, doğrudan etiketler genellikle basittir. Bunun nedeni, etkinlik sırasında kullanıcı davranışını etiket olarak kullanmak üzere günlüğe kaydetmenizdir. Etkinlikleri etiketlerken kendinize aşağıdaki soruları sorun:

  • Günlükleriniz nasıl yapılandırıldı?
  • Günlüklerinizde "etkinlik" olarak kabul edilen nedir?

Örneğin, sistem bir arama sonucunu tıklayan kullanıcıyı mı yoksa kullanıcı arama yaptığında mı günlüğe kaydeder? Tıklama günlükleriniz varsa tıklama olmadan gösterimleri hiçbir zaman görmeyeceğinizi unutmayın. Etkinliklerin gösterim olduğu günlüklere ihtiyacınız vardır. Bu nedenle, bir kullanıcının en popüler arama sonucunu gördüğü tüm durumları kapsar.

Özellikler için Doğrudan Etiketler

Etiketinizin "Reklamveren önümüzdeki hafta X TL'den daha fazla harcama yapacaktır" şeklinde olduğunu varsayalım. Genellikle sonraki günlerde ne olacağını tahmin etmek için önceki gün verilerini kullanırsınız. Örneğin, aşağıdaki çizimde, sonraki yedi günü tahmin eden on günlük eğitim verileri gösterilmektedir:

10 günlük engellemenin hemen ardından 7 günlük bloku vurgulayan takvim.
Model, 7 günlük blokla ilgili tahminde bulunmak için 10 günlük bloktaki verileri kullanır.

Sezon etkisini veya döngüsel etkileri göz önünde bulundurun. Örneğin, reklamverenler hafta sonları daha fazla harcama yapabilir. Bu nedenle, bunun yerine 14 günlük bir aralık kullanmayı veya tarihin bir özellik olarak kullanılmasını tercih edebilir, böylece modelin yıllık etkileri öğrenmesini sağlayabilirsiniz.

Doğrudan Etiketlerin Geçmişteki Davranış Günlükleri Gerekiyor

Önceki durumlarda, gerçek sonuçla ilgili verilere ihtiyacımız olduğunu fark ettik. Bu, reklamverenlerin ne kadar harcama yaptığı veya hangi kullanıcıların Tayland Swift videolarını izlediğine bakılmaksızın, gözetimli makine öğrenimini kullanmak için geçmiş verilere ihtiyacımız vardı. Makine öğrenimi, geçmişte olanları temel alarak tahminlerde bulunur. Bu nedenle, geçmişteki günlükleriniz yoksa günlüklere ulaşmanız gerekir.

Kaydedilecek Verileriniz yoksa ne olur?

Muhtemelen ürününüz henüz mevcut değildir. Bu nedenle, günlüğe kaydetmek için herhangi bir veriniz yoktur. Bu durumda, aşağıdaki işlemlerden birini veya daha fazlasını yapabilirsiniz:

  • İlk lansman için buluşsal yöntem kullanın, ardından günlüğe kaydedilen verilere göre bir sistem eğitin.
  • Sisteminizi önyüklemek için benzer bir sorunun günlüklerini kullanın.
  • Görevleri tamamlayarak veri oluşturmak için gerçek kişilerden oluşan değerlendirmecileri kullanın.

İnsan Etiketli Verileri Neden Kullanmalı?

İnsan etiketli verileri kullanmanın avantajları ve dezavantajları vardır.

Artıları

  • Gerçek kişi olan değerlendirmeciler çeşitli görevler gerçekleştirebilirler.
  • Veriler, sizi net bir sorun tanımına sahip olmaya zorlar.

Eksileri

  • Bazı alanlar için veri pahalıdır.
  • İyi veriler genellikle birden fazla yineleme gerektirir.

Kaliteyi Artırma

Gerçek kişiler tarafından değerlendirilen kişilerin değerlendirmelerini her zaman kontrol edin. Örneğin, 1000 etiketini örnek olarak alın ve sonuçların değerlendiricilerle nasıl eşleştiğini görün. (Verileri kendiniz etiketlemek de verilerinizi tanımak için mükemmel bir alıştırmadır.) Farklılıklar ortaya çıkarsa derecelendirmelerinizin doğru olduğu varsaymayın. Aksine, özellikle bir değer yargısı söz konusuysa. Gerçek kişi olan değerlendiriciler hatalarla karşılaştıysa onlara yardımcı olacak talimatlar ekleyip tekrar deneyebilirsiniz.

Verilerinizi elle incelemek, verilerinizi nasıl edindiğinize bakılmaksızın iyi bir alıştırmadır. Andrej Karpathy bunu ImageNet'te yaptı ve deneyimle ilgili konuştu.