Başarıyı ölçme

ML uygulamanızın çabaya değip değmediğini nasıl anlarsınız? Kutlamaya ne zaman başlamalısınız: Model üretime geçip ilk tahmini sunduktan hemen sonra mı yoksa yalnızca nicel bir işletme metriği doğru yönde hareket etmeye başladıktan sonra mı?

Bir projeye başlamadan önce başarı metriklerinizi tanımlamanız ve teslimatlarla ilgili anlaşmaya varmanız çok önemlidir. Aşağıdaki iki metrik türünü tanımlamanız ve izlemeniz gerekir:

İşletme metrikleri

İşletme metrikleri en önemlisidir. İşletmeyi geliştirmek istediğiniz için makine öğrenimini kullanıyorsunuz.

Ölçülebilir ürün veya işletme metrikleriyle başlayın. Metrik mümkün olduğunca ayrıntılı ve odaklanmış olmalıdır. Aşağıda, odaklanılmış ve ölçülebilir işletme metriklerine örnekler verilmiştir:

  • Bir veri merkezinin aylık elektrik maliyetlerini yüzde 30 azaltma
  • Ürün önerilerinden elde edilen geliri %12 artırın.
  • Tıklama oranını %9 artırın.
  • Katılım anketlerinden elde edilen müşteri duyarlılığını yüzde 20 artırmak.
  • Sayfada kalma süresini %4 artırın.

İşletme metriklerini izleme

İyileştirmek istediğiniz işletme metriğini izlemiyorsanız öncelikle bunu yapacak altyapıyı uygulayarak başlayın. Şu anda tıklama oranlarını ölçmüyorsanız tıklama oranını% 15 artırma hedefi belirlemek mantıklı değildir.

Daha da önemlisi, sorununuz için doğru metriği ölçtüğünüzden emin olun. Örneğin, daha önemli metrik önerilerden elde edilen gelir olabilecekse tıklama oranlarını izlemek için enstrümantasyon yazarak zaman harcamayın.

Projeniz ilerledikçe hedef başarı metriğinin gerçekçi bir hedef olup olmadığını anlayacaksınız. Bazı durumlarda, tanımlanan başarı metrikleri göz önüne alındığında projenin uygulanabilir olmadığını belirleyebilirsiniz.

Model metrikleri

Modeli ne zaman üretime almalısınız? AUC belirli bir değere ulaştığında mı? Model belirli bir F1 puanına ulaştığında mı? Bu sorunun yanıtı, çözdüğünüz sorunun türüne ve işletme metriğini iyileştirmek için geliştirmeniz gerektiğini düşündüğünüz tahmin kalitesine bağlıdır.

Modelinizi hangi metriklere göre değerlendireceğinizi belirlerken aşağıdakileri göz önünde bulundurun:

  • Optimize edilecek tek bir metrik belirleyin. Örneğin, sınıflandırma modelleri çeşitli metriklere (AUC, AUC-PR vb.) göre değerlendirilebilir. Farklı metrikler farklı modelleri desteklediğinde en iyi modeli seçmek zor olabilir. Bu nedenle, modelleri değerlendirmek için tek bir metrik üzerinde anlaşın.

  • Karşılanması gereken kabul edilebilirlik hedeflerini belirleyin. Kabul edilebilirlik hedefleri, model değerlendirme metriklerinden farklıdır. Bunlar, bir modelin amaçlanan kullanım alanı için kabul edilebilir sayılması için karşılaması gereken hedefleri ifade eder. Örneğin, kabul edilebilirlik hedefi "yanlış çıktı %0,1'den az" veya "ilk beş kategorinin hatırlama oranı %97'den fazla" olabilir.

Örneğin, bir ikili sınıflandırma modelinin sahtekarlık içeren işlemleri algıladığını varsayalım. Optimizasyon metriği geri çağırma, kabul edilebilirlik hedefi ise hassasiyet olabilir. Diğer bir deyişle, hassasiyetin belirli bir değerde veya bu değerin üzerinde kalmasını (gerçek sahtekarlık işlemlerini tanımlama) isterken geri çağırmaya (sahtekarlığı çoğu zaman doğru şekilde tanımlama) öncelik veririz.

Model metrikleri ile işletme metrikleri arasındaki bağlantı

Temel olarak, tahmin kalitesi işletme metriğinizle nedensel olarak bağlantılı olan bir model geliştirmeye çalışıyorsunuz. Mükemmel model metrikleri, iş metriklerinin iyileştiği anlamına gelmez. Ekibiniz etkileyici metriklere sahip bir model geliştirebilir ancak modelin tahminleri iş metriğini iyileştiremeyebilir.

Modelinizin tahmin kalitesinden memnun olduğunuzda modelin metriklerinin işletme metriğini nasıl etkilediğini belirlemeye çalışın. Genellikle ekipler modeli kullanıcıların% 1'inde dağıtır ve ardından işletme metriğini izler.

Örneğin, ekibinizin müşteri kaybını tahmin ederek geliri artırmaya yönelik bir model geliştirdiğini varsayalım. Teorik olarak, bir müşterinin platformdan ayrılma olasılığını tahmin edebiliyorsanız müşteriyi kalmaya teşvik edebilirsiniz.

Ekibiniz% 95 tahmin kalitesine sahip bir model oluşturur ve bunu küçük bir kullanıcı örneği üzerinde test eder. Ancak gelir artmaz. Müşteri kaybı aslında artar. Olası nedenlerden bazıları şunlardır:

  • Tahminler, işlem yapılabilmesi için yeterince erken gerçekleşmiyor. Model, müşteri kaybını yalnızca yedi günlük bir zaman aralığında tahmin edebilir. Bu süre, müşterileri platformda tutmak için teşvikler sunmak açısından yeterli değildir.

  • Eksik özellikler. Müşteri kaybına neden olan başka faktörler de olabilir ancak bunlar eğitim veri kümesinde yer almamış olabilir.

  • Eşik yeterince yüksek değil. Modelin faydalı olması için tahmin kalitesinin% 97 veya daha yüksek olması gerekebilir.

Bu basit örnekte iki nokta vurgulanmaktadır:

  • Modelin metrikleri ile işletme metrikleri arasındaki bağlantıyı kanıtlamak (ve anlamak) için erken aşamada kullanıcı testi yapmak önemlidir.
  • Mükemmel model metrikleri, işletme metriklerinin iyileşmesini garanti etmez.

Üretken yapay zeka

Üretken yapay zeka çıkışını değerlendirmek kendine özgü zorluklar içerir. Çoğu durumda (ör. açık uçlu veya yaratıcı çıktı), geleneksel makine öğrenimi çıktılarını değerlendirmekten daha zordur.

Büyük dil modelleri (LLM), çeşitli metrikler kullanılarak ölçülebilir ve değerlendirilebilir. Modelinizi hangi metriklere göre değerlendireceğiniz, kullanım alanınıza bağlıdır.

Unutmayın

Modelin başarısını işletmenin başarısıyla karıştırmayın. Başka bir deyişle, olağanüstü metriklere sahip bir model, iş başarısını garanti etmez.

Birçok yetenekli mühendis, etkileyici metriklere sahip modeller oluşturabilir. Genellikle yeterince iyi bir model eğitmek sorun değildir. Bunun nedeni, modelin iş metriğini iyileştirmemesidir. İşletme metrikleri ile model metrikleri arasındaki uyumsuzluk, bir makine öğrenimi projesinin başarısız olmasına neden olabilir.

Anlayıp anlamadığınızı kontrol etme

Net bir iş sorununuz ve müşteri desteği temsilcisi olarak LLM kullanmaya yönelik iyi tanımlanmış bir çözümünüz var. Çözümün başarılı olup olmadığını ölçme konusunda nasıl düşünmelisiniz?
İnsan müdahalesi gerektiren çözülmüş destek kayıtlarının sayısı% 72'den %50'ye düşer.
Doğru. Bu, izleyebileceğiniz ölçülebilir bir iş metriğidir.
LLM'nin değerlendirme metrikleri sürekli olarak yüksek olmalıdır.
İyi model metrikleri, işletme metriklerinizin iyileşeceğini garanti etmez.
İlk kullanıcı testlerinden gelen geri bildirimler oldukça olumlu.
İlk kullanıcı geri bildirimleri genellikle niceliksel olmaktan çok nitelikseldir. Başarıyı ölçmek için ölçülebilir bir işletme metriği belirlemeniz gerekir.