Sorunu anlama

Sorunu anlamak için aşağıdaki görevleri gerçekleştirin:

  • Geliştirdiğiniz veya yeniden düzenlediğiniz ürünün hedefini belirtin.
  • Hedefin en iyi çözümün tahmine dayalı makine öğrenimi mi, üretken yapay zeka mı yoksa makine öğrenimi harici bir çözüm mü olduğunu belirleyin.
  • Tahmine dayalı bir makine öğrenimi yaklaşımı kullanıyorsanız bir modeli eğitmek için gereken verilere sahip olduğunuzu doğrulayın.

Hedefi belirtin

Hedefinizi makine öğrenimi harici terimlerle ifade ederek başlayın. Hedef, "Neyi başarmaya çalışıyorum?" sorusunun yanıtıdır.

Aşağıdaki tabloda, varsayıma dayalı uygulamaların hedefleri açıkça belirtilmiştir:

Uygulama Hedef
Hava Durumu uygulaması Bir coğrafi bölge için yağış miktarını altı saatlik artışlarla hesaplar.
Moda uygulaması Çeşitli gömlek tasarımları oluşturmak.
Video uygulaması Faydalı videolar önermek.
Posta uygulaması Spam algılama.
Finans uygulaması Birden fazla haber kaynağından gelen finansal bilgileri özetleyin.
Harita uygulaması Seyahat süresini hesaplayın.
Bankacılık uygulaması Sahte işlemleri belirleyin.
Yemek uygulaması Yemekleri bir restoranın menüsünden belirleyin.
E-ticaret uygulaması Yorumları faydalı cevaplarla yanıtlayın.

Makine öğreniminin anlaşılır kullanım alanı

Bazıları makine öğrenimini tüm sorunlara uygulanabilecek evrensel bir araç olarak görür. Gerçekte ise makine öğrenimi, yalnızca belirli sorunlar için uygun olan özel bir araçtır. Daha basit bir makine öğrenimi dışı çözüm işe yaradığında karmaşık bir makine öğrenimi çözümü uygulamak istemezsiniz.

ML sistemleri iki geniş kategoriye ayrılabilir: tahmine dayalı makine öğrenimi ve üretken yapay zeka. Aşağıdaki tabloda bunların tanımlayıcı özellikleri listelenmiştir:

Giriş Çıkış Eğitim tekniği
Tahmini makine öğrenimi Metin
Resim
Ses
Video
Sayısal
Tahminde bulunur. Örneğin, bir e-postayı spam veya spam değil olarak sınıflandırabilir, yarınki yağışla ilgili tahminde bulunabilir veya bir hisse senedinin fiyatını tahmin edebilirsiniz. Çıkış genellikle gerçeğe karşı doğrulanabilir. Genellikle, belirli bir görevi gerçekleştirmek üzere gözetimli, denetlenmeyen veya pekiştirmeli bir öğrenme modelini eğitmek için yüksek miktarda veri kullanır.
Generative AI Metin
Resim
Ses
Video
Sayısal
Kullanıcının amacına göre çıkışlar oluşturur (örneğin, bir makaleyi özetlemek veya bir ses klibi ya da kısa video hazırlamak). Eksik verileri doldurmak amacıyla büyük bir dil modelini veya resim oluşturma aracını eğitmek için genellikle etiketlenmemiş çok sayıda veri kullanılır. Model daha sonra boşluk doldurma görevler olarak çerçevelenebilen görevler için kullanılabilir veya sınıflandırma gibi belirli görevler için etiketli veriler üzerinde eğitilerek hassas ayarlamalar yapılabilir.

Makine öğreniminin doğru yaklaşım olduğunu onaylamak için önce mevcut makine öğrenimi dışı çözümünüzün optimize edildiğini doğrulayın. Uyguladığınız makine öğrenimi harici bir çözüm yoksa sorunu sezgisel bir yaklaşım kullanarak manuel olarak çözmeyi deneyin.

ML dışı çözüm, makine öğreniminin sorununuz için iyi bir kullanım alanı olup olmadığını belirlemek amacıyla kullanacağınız karşılaştırmadır. ML olmayan bir yaklaşımı makine öğrenimiyle karşılaştırırken şu soruları göz önünde bulundurun:

  • Kalite. Bir ML çözümünün ne kadar daha iyi olabileceğini düşünüyorsunuz? Bir ML çözümünün sadece küçük bir iyileştirme olabileceğini düşünüyorsanız bu, mevcut çözümün en iyi çözüm olduğunu gösterebilir.

  • Maliyet ve bakım. ML çözümü kısa ve uzun vadede ne kadar pahalı? Bazı durumlarda, işlem kaynakları ve makine öğrenimini uygulama süresi açısından önemli ölçüde daha yüksek maliyetlidir. Kendinize şu soruları sorun:

    • ML çözümü maliyetteki artışı haklı çıkarabiliyor mu? Büyük sistemlerdeki küçük iyileştirmelerin, ML çözümü uygulamanın maliyetini ve bakımını kolayca gerekçelendirebileceğini unutmayın.
    • Çözüm ne kadar bakım gerektirecek? Çoğu durumda, makine öğrenimi uygulamaları için uzun süreli özel bakım gerekir.
    • Ürününüz, makine öğrenimi uzmanlığı olan kişilerin eğitimini veya işe alınmasını destekleyecek kaynaklara sahip mi?

Öğrendiklerinizi Sınayın

ML çözümünü analiz etmeden önce makine öğrenimi harici bir çözümün veya bulgusal bir çözüme sahip olmak neden önemlidir?
Makine öğrenimi harici çözümler, bir ML çözümünün karşılaştırılacağı karşılaştırmadır.
Makine öğrenimi dışındaki çözümler, bir makine öğrenimi çözümünün maliyetini belirlemenize yardımcı olur.

Tahmine dayalı makine öğrenimi ve veriler

Veriler, tahmine dayalı makine öğreniminin itici gücüdür. İyi tahminler yapmak için tahmin gücüne sahip özellikler içeren verilere ihtiyacınız vardır. Verileriniz aşağıdaki özelliklere sahip olmalıdır:

  • Çok miktarda. Veri kümenizde ne kadar alakalı ve faydalı örnekler olursa modeliniz de o kadar iyi olur.

  • Tutarlı ve güvenilir. Verilerin tutarlı ve güvenilir bir şekilde toplanması daha iyi bir model üretecektir. Örneğin, makine öğrenimi tabanlı bir hava durumu modeli aynı güvenilir araçlardan yıllar içinde toplanan verilerden faydalanır.

  • Güvenilir. Verilerinizin nereden geldiğini anlayın. Veriler, kontrol ettiğiniz güvenilir kaynaklardan (ör. ürününüze ait günlükler) mi yoksa başka bir makine öğrenimi sisteminden elde edilen sonuçlar gibi fazla bilgi sahibi olmadığınız kaynaklardan mı alınacak?

  • Kullanılabilir. Tüm girişlerin tahmin zamanında doğru biçimde bulunduğundan emin olun. Tahmin sırasında belirli özellik değerlerini elde etmek zor olacaksa bu özellikleri veri kümelerinizden çıkarın.

  • Doğru. Büyük veri kümelerinde bazı etiketlerin yanlış değerlere sahip olması kaçınılmazdır ancak etiketlerin küçük bir yüzdesinden fazlası hatalı olursa model, kötü tahminler üretir.

  • Temsil edici. Veri kümeleri gerçek dünyayı mümkün olduğunca temsil etmelidir. Başka bir deyişle, veri kümeleri; olayları, kullanıcı davranışlarını ve/veya modellenen gerçek dünyanın fenomenlerini doğru bir şekilde yansıtmalıdır. Modelden gerçek hayattan tahminler yapması istendiğinde, temsil edilmeyen veri kümeleriyle ilgili eğitim yapmak düşük performansa neden olabilir.

İhtiyacınız olan verileri gerekli biçimde alamazsanız modeliniz kötü tahminlerde bulunacaktır.

Tahmin gücü

Bir modelin iyi tahminlerde bulunabilmesi için veri kümenizdeki özelliklerin tahmin gücüne sahip olması gerekir. Bir özellik bir etiketle ne kadar ilişkiliyse tahmin etme olasılığı da o kadar yüksek olur.

Bazı özellikler, diğerlerinden daha fazla tahmin gücüne sahiptir. Örneğin, hava durumu veri kümesinde cloud_coverage, temperature ve dew_point gibi özellikler, moon_phase veya day_of_week ile kıyaslandığında yağmuru daha iyi tahmin edebilir. Video uygulaması örneğinde video_description, length ve views gibi özelliklerin, kullanıcının izlemek isteyeceği videolar konusunda iyi birer gösterge olabileceğini varsayabilirsiniz.

Bağlam veya alan adı değiştiği için bir özelliğin tahmin gücünün değişebileceğini unutmayın. Örneğin, video uygulamasında upload_date gibi bir özelliğin (genel olarak) etiketle bağlantısı zayıf olabilir. Bununla birlikte, oyun videolarının alt alanında upload_date etiketi ile güçlü bir ilişki olabilir.

Hangi özelliklerin tahmin gücüne sahip olduğunu belirlemek zaman alan bir süreç olabilir. Bir modeli eğitirken özelliği kaldırıp ekleyerek bu özelliğin tahmin gücünü manuel olarak keşfedebilirsiniz. Özelliğin tahmin gücünün analiz edilmesi için sayısal bir değerlendirme sağlayan Pearson korelasyonu, Düzenlenmiş karşılıklı bilgiler (AMI) ve Shapley değeri gibi algoritmalar kullanarak bir özelliğin tahmin gücünü bulmayı otomatikleştirebilirsiniz.

Öğrendiklerinizi Sınayın

Veri kümelerinizi analiz ederken dikkat etmeniz gereken üç temel özellik nedir?
Gerçek dünyanın temsilcisi.
Doğru değerleri içerir.
Özellikler, etiket için tahmin gücüne sahiptir.
Yerel bir makineye yüklenebilecek kadar küçük.
Tahmin edilemeyen çeşitli kaynaklardan toplanır.

Veri kümelerinizi analiz etme ve hazırlama hakkında daha fazla bilgi için Makine Öğrenimi İçin Veri Hazırlama ve Özellik Mühendisliği sayfasını inceleyin.

Tahminler ile işlemler karşılaştırması

Bir tahmini, kullanıcılara yardımcı olacak bir eyleme dönüştüremezseniz tahmin yapmanın hiçbir anlamı olmaz. Yani ürününüz model çıktısına göre harekete geçmelidir.

Örneğin, kullanıcının bir videoyu faydalı bulup bulmayacağını tahmin eden bir model, faydalı videolar öneren bir uygulamaya yüklemelidir. Yağmur yağıp yağmayacağını tahmin eden bir model bir hava durumu uygulamasına girmeli.

Öğrendiklerinizi Sınayın

Aşağıdaki senaryoya göre, makine öğrenimi kullanmanın bu soruna en iyi yaklaşım olup olmadığını belirleyin.

Büyük bir kuruluştaki bir mühendislik ekibi, gelen telefon aramalarının yönetiminden sorumludur.

Hedef: Arayanlara, mevcut arama hacmine göre ne kadar bekleyeceklerini bildirmek.

Kullanabilecekleri bir çözüm yoktur ancak bulgusal bir yöntem olarak, muhafazaya alınan mevcut müşteri sayısını telefonlara cevap veren çalışanların sayısına bölüp 10 dakikayla çarpmak olduğunu düşünürler. Ancak bazı müşterilerin sorunlarını iki dakika içinde çözdüğünü, diğerlerinin ise 45 dakika veya daha uzun süre bulabileceğini biliyorlar.

Sezgisel yöntemler büyük olasılıkla tam olarak yeterli bir sayı bulmayacaktır. Veri kümesi şu sütunları içeren bir veri kümesi oluşturabilir: number_of_callcenter_phones, user_issue, time_to_resolve, call_time, time_on_hold.

Makine öğreniminden yararlanın. Mühendislik ekibinin net bir şekilde tanımlanmış bir hedefi var. Sezgisel yolları, kullanım alanları için yeterli olmaz. Veri kümesinde, time_on_hold etiketi için tahmin özellikleri bulunduğu anlaşılıyor.
Makine öğrenimi kullanmayın. Net bir şekilde tanımlanmış hedefleri olsa da öncelikle makine öğrenimi dışındaki bir çözümü uygulayıp optimize etmeleri gerekir. Ayrıca, veri kümeleri tahmin gücüne sahip yeterli özellik içermiyor.