3. Modül: Cevap

1. Temel çıkarımları tanımlama

Veri kartınıza eklemek istediğiniz bir dizi soruya karar verdiniz. Bu soruların okuyucularınız için önemli olduğunu düşünüyorsunuz. Ancak bu soruları yanıtlayıp buna Veri Kartı demek yeterli değildir. Son veri kartınızın okuyucu deneyiminiz için optimize edildiğinden emin olmak için dikkatli bir şekilde düşünmeniz gerekir.

Kullanıcılar veri kartlarını okurken aşağıdaki gibi çok spesifik kararlar vermek ister:

  • Bu veri kümesi kullanım alanım için uygun mu?
  • Bu veri kümesini başkalarının kullanmasına izin verebilir miyim?
  • Bu veri kümesini modellerime risk eklemeden nasıl güvenli bir şekilde kullanabilirim?

Okuyucular doğru bilgilere verimli bir şekilde erişebiliyorsa kendi bağlamlarında veri kümeleriyle ilgili kararlar alma konusunda oldukça başarılıdır. Bilginin önemi veya faydası, okuyucunun vermesi gereken kararın türüne ve okuyucunun geçmişine bağlıdır. Örneğin, bir veri kümesinin kullanılıp kullanılmayacağına karar verirken uyumluluk görevlisi, veri kümesiyle ilişkili lisanslara bakabilir ancak mühendis, teknik yığını inceler. Her iki okuyucu da aynı soruları soruyor ancak farklı cevaplar bekliyor.

Veri kartları, okuyucuların güvenle karar verebilmesi için veri kümenizi kapsamlı bir şekilde açıklamalıdır. Bu kapsamlı açıklamalar, okuyucuların veri kartınızdan ne elde etmesini istediğinize karar vermenize ve veri kartında hangi türde doğru, sağlam ve düzenli bilgilerin belgeleneceğini belirlemenize yardımcı olur. Elbette, okuyucularınızın Veri Kartınızla ilgili olarak vermesi gereken tüm olası kararları belirlemek mümkün değildir.

2. Veri kartınızı planlama

  • Veri kartı okuyucularınızın vermesi gereken kararları ve veri kartınızın ne kadar ayrıntı içermesi gerektiğini belirlemek için aşağıdaki tablodaki her kategoriyle ilgili soruyu yanıtlayın:

Okuyucular

Kararlar

Hedefler

Alaka düzeyi

Nuance

Birincil kitle kimdir?

Veri kümesiyle ilgili hangi kararları verecekler?

Veri kartından ne istiyorlar?

Hedeflerine ulaşmak için Veri Kartı'ndan hangi içeriklere ihtiyaç duyuyorlar?

Okuyucu hakkında bildiklerinize göre içeriğiniz ne kadar ayrıntılı veya incelikli olmalı?

Örnek: Üretim yazılım mühendisleri

Örnek: Üretimde olan bir makine öğrenimi (ML) modelini test etmek için veri kümesini kullanmalı mıyım?

Örnek: Veri kümesiyle ilgili genel bilgi ver. Nasıl uygulandığını anlat.

Örnek: Amaçlanan ve uygun olmayan kullanımlar, geçmişteki kullanım ve geçmiş modellerdeki sonuçlar.

Örnek: Çok ince ayrıntılı. Üretim sistemlerine entegrasyon amacıyla teknik kullanım ve kullanılabilirlik vurgulanır.

Tablonuzu kullanarak veri kartınızı değerlendirebilir ve yüksek öncelikli okuyucularınızın veri kartınızı faydalı bulmasını sağlayabilirsiniz. Veri kartınızı değerlendirmek için birçok yaklaşım olsa da önerdiğimiz bir yaklaşım kullanılabilirlik düzeyini derecelendirmeyi içerir.

Kesin tanımlar değişebilse de aşağıdaki önem derecesi ölçeği, önceliklendirme dikkate alınmadan bir şeyin ne kadar bozuk olduğu ve sorunun etkisi hakkında bir derecelendirme sağlar. Bu bağlamda, ele alınmadığı takdirde okuyucunun veri kartına duyduğu güveni ve veri kartının kullanışlılığını etkileyebilecek olan veri kartınızın kullanılabilirliğinden bahsediyoruz.

  • Veri kartınızın durumunun, tablonuzdaki her kitle grubu için ne kadar faydalı olduğunu değerlendirmek üzere aşağıdaki önem derecesi ölçeğindeki soruları yanıtlayın:

İhlal

Önem Düzeyi

Düzelt

Hangi yanıtlar okuyucu için faydalı değildir?

Bu sorunun ne kadar acil olarak düzeltilmesi gerektiğini 1 ile 5 arasında nasıl değerlendirirsiniz? (Geçerli olan onay kutusunu işaretleyin):

  • ☐ 1 = Felaket Bu sorunu, veri kartı yayınlanmadan önce düzeltin.
  • ☐ 2 = Büyük sorun. Düzeltilmesi önemlidir ve yüksek öncelik verilir.
  • ☐ 3 = Küçük sorun. Düşük öncelik verilir.
  • ☐ 4 = Yalnızca kozmetik sorun. Zamanınız varsa düzeltin.
  • ☐ 5 = Bu bir sorun değil.

Çözüm nedir?

3. Yeterli miktarı hedefleme

İlk veri kartınızı oluşturduğunuzda genellikle aşağıdaki iki durumdan biri yaşanır:

  • Çok fazla bilgi, okuyucuları bunaltır.
  • Çok az bilgi, okuyucuların kafasını karıştırır.

Veri kartının içerik üreticisi olarak, karttaki bilgileri düzenlemeniz ve önceliklendirmeniz gerekir. İyi bir şeffaflık yapıtı, okuyucuların net bir anlayış kazanması için yeterli bağlam sağlar. Aksi takdirde, bir sonraki adım hakkında bilgi verilir.

Veri kümesinin anlaşılmasını ve kullanılmasını kolaylaştıran bilgiler sağlamak istiyorsunuz. Bazen veri kümenizin karmaşıklığı artar. Bu durum, veri kartınızda özetlemeniz gereken bilgi ve açıklamaların yoğunluğunu etkiler.

Okuyucularınızın uzmanlık seviyesi ne olursa olsun herkes bilgi bombardımanına maruz kalabilir. Bu nedenle, aşağıdakiler de dahil olmak üzere doğru bilgileri sunmanız önemlidir:

  • Sağlamanız gereken bilgi türü.
  • Ne kadar bilgi sunmanız gerektiği
  • İçindeki ayrıntılar

Yanıtlarınız, her şeyi ayrıntılı olarak anlatmadan özetlemeye çalışmalı ve okuyucuların veri kümeniz hakkında bilgi edinmesi için gereken bağlamı yansıtmalıdır.

Sezgisel yöntemler (Heuristics)

Veri kartınızı okuma deneyiminin genel puanını belirlemek için kullanabileceğiniz bir dizi sezgisel yöntem oluşturduk. Bu sezgisel yöntemleri, veri kartlarının başarılı olması ve uygulamada uygun şekilde benimsenmesi için karşılaması gereken hedefler olarak görüyoruz. Aşağıdaki tabloda bu hedefler ve açıklamaları yer almaktadır:

Amaç

Açıklama

Tutarlı

İddiaların kullanım bağlamında kolayca yorumlanıp doğrulanabilmesi için Veri Kartları, veri biçimi veya alan fark etmeksizin birbirleriyle karşılaştırılabilir olmalıdır. Tek kullanımlık veri kartlarının dağıtımı nispeten kolay olsa da ekiplerin ve kuruluşların, kullanımı ölçeklendirirken karşılaştırılabilirliği koruması gerektiğini görüyoruz.

Kapsamlı

Veri kartı, veri kümesinin yaşam döngüsündeki son adım olarak oluşturulmak yerine veri kümesiyle eşzamanlı olarak kolayca oluşturulabilmelidir. Ayrıca, bir veri kartındaki alanları doldurma sorumluluğu dağıtılmalı ve en uygun kişiye atanmalıdır. Bu, veri kartının ötesine geçen ve veri kümesinin yaşam döngüsünde oluşturulan çeşitli raporlara uygulanan standartlaştırılmış yöntemler gerektirir.

Anlaşılır ve kısa

Okuyucuların yeterlilik düzeyleri farklıdır ve bu durum, veri kartını yorumlamalarını etkiler. Paydaş yeterliliğinin farklı olduğu senaryolarda, veri kümesinin en güçlü zihinsel modeline sahip kişiler fiili karar vericiler haline gelir. Son olarak, daha acil veya zorlu görevler, kararlara geleneksel olmayan paydaşların katılımını azaltabilir. Bu görevler "uzmanlara" bırakılır. Bu durum, alt ve yan paydaşların ihtiyaçlarını yansıtan önemli bakış açılarının atlanmasına neden olabilir. Veri kartı, en az yeterliliğe sahip okuyucuya verimli bir şekilde bilgi vermelidir. Ayrıca, daha fazla yeterliliğe sahip okuyucuların gerektiğinde daha fazla bilgi bulmasını sağlamalıdır. İçerik ve tasarım, okuyucuyu bunaltmadan değerlendirme sürecini ilerletmeli ve karar verme için veri kümesinin ortak bir zihinsel modeline yönelik paydaş işbirliğini teşvik etmelidir.

4. Sezgisel yöntemlerinizi puanlama

  • Veri kartınızdaki yanıtlara göz atmak için her bir sezgisel yöntemi puanlamak üzere oluşturduğumuz aşağıdaki puan kartını kullanın. Sonunda, Veri Kartınızın genel puanını toplayarak ilerlemenizi takip edebilirsiniz. Ayrıca, her bir sezgisel yöntemi iyileştirmek için gereken ek bağlamı ve işlem öğelerini yakalamak üzere yorumlar da ekleyebilirsiniz.

Sezgisel (Heuristic)

Ölçütler

Yorumlar

Puan

Aşağıdaki sezgisel yöntemlere göre tamamladığınız veri kartına puan verin.

Sezgisel yöntem için ölçütler

Veri kartının iyileştirilebileceği alanlara özellikle dikkat edin.

Yalnızca sayılar, kendi puanınız (0-10)

Anlaşılır
Şeffaflık öğenizin tasarımı ve içeriği etkili, alakalı ve uzman olan ya da olmayan çoğu temsilci tarafından kolayca anlaşılabilir.

  • Etkili: Temsilcilerin çoğu, veri kümesi veya modelle ilgili makul sorulara uygun yanıtlar alabilir.
  • Alakalı: Açıklamalar, görselleştirmeler ve analiz sonuçları, aracıların çoğu için alakalı ve uygulanabilir.
  • Anlaşılır: Bilgiler, uzman ve uzman olmayan temsilciler tarafından kolayca anlaşılabilir.

.

.

Kapsamlı
Veri kartı, okuyucuların veri kümesinin veya modelin ne hakkında olduğunu, nasıl oluşturulduğunu ve kullanmadan önce bilinmesi gereken önemli noktaları anlamasını kolaylaştırır.

  • Amaçlı: Veri kümesi için bağlam oluşturan ve tüm paydaşlar için yararlı olan bilgiler okunabilir.
  • Tamamlandı: Bilgiler tutarlı ve eksiksiz olup bir veri kümesinin yaşam döngüsündeki tüm aşamaları uygun şekilde açıklamaktadır.
  • Ayrıntılı: Özetler, genel okuyucular için okunabilir ve ileri düzey okuyucular için daha ayrıntılı veya spesifik ek bilgilere bağlantı verir.

.

.

Tutarlı
Veri Kartı, platform ve sektör kurallarına uyar, kendi içinde ve diğer benzer şeffaflık kartlarında tutarlılığı korur.

  • Tanıdık: Bölümler, okuyucuların bilgileri nerede bulacağını anlayabileceği mantıksal bir sırayla düzenlenir.
  • Standartlaştırılmış: Sektör standardı terimler kullanılır ve alakalı yerlerde sapmalar veya özelleştirmeler açıklanır.
  • Net: Aynı terim, her kullanıldığında aynı kavramı ifade eder.

.

.

Kısa ve öz
Karttaki tasarım ve içerik, büyük ve karmaşık bilgileri anlamlı, kolay anlaşılır ve göreceli olarak önemli parçalara ayırarak hem yeni başlayanların hem de deneyimli okuyucuların ihtiyaçlarını karşılar.

  • Anlaşılır: Anahtar kelimelerin, anahtar/değer çiftlerinin ve görsel özetlerin göreceli anlamı ve önemi kolayca anlaşılabilir.
  • Bir bakışta anlaşılabilir: Okuyucuların hedeflerine ulaşmak için veri kümesini kullanıp kullanamayacağı ve kullanacaksa nasıl kullanacağı bir bakışta anlaşılabilir.
  • Bağlamsal: Veri kümesinin doğası ve nüansı göz ardı edilmeden anlaşılması için arka plan bilgisi ve bağlamı özetlenir veya soyutlanır.

.

.

Toplam puan = (Toplam puan/120)

.

.

/120

5. Düşünceli analiz

Verilerin, belirli bir amaç için yapılandırılmış şekilde toplanan kişiler, kültürler veya işletmeler hakkındaki bilgiler olduğunu biliyoruz. Ancak tekrar tekrar belirtildiği gibi, bunların hepsi nüanslıdır ve farklı derecelerdeki çeşitli boyutlarla iç içe geçmiştir. Bu sayede, veri kümenizde gerçekleştirdiğiniz analiz, veri kümesinin kendisiyle ilgili düşünceye bir pencere açar ve karmaşıklıklarını anlamanıza yardımcı olur.

Örneğin, insanların kesişimsel analizi, bir veri kümesindeki insan faktörlerinin kombinasyonlarını inceleyerek olası orantısız sonuçları (ör. bir veri kümesi üzerinde eğitilmiş bir modelin bir alt grup için diğerlerinden daha iyi performans göstermesi) belirleyebilir. Ayrıştırılmış analiz, veri kümesini farklı faktörlere göre ayırarak okuyucuların sonuçları tahmin edebilmesi için genellikle daha büyük ve birleştirilmiş verilerle maskelenen alt gruplar veya marjinalize edilmiş popülasyonlarla ilgili önemli kalıpları ortaya çıkarır.

Bu bağlamda, kesişimsellik ve ayrıştırılmış analizlerin (IDA), bir veri kümesinde net ilişkiler kurarak farklı koşullar altında olası sonuçları bir veri kartında iletmenin etkili yolları olduğunu düşünüyoruz. IDA, okuyuculara veri kümenizdeki temsil hakkında önemli ipuçları sunabilir. Örneğin, etiketlerin hassas öğelerle nasıl ilişkilendirildiği, veri kümenizdeki boşluklar (ör. veri kümesinde yalnızca gündüz çekilmiş fotoğrafların olması) ve değişkenler arasındaki ilişki (bu ilişki, yapay zeka modellerinin sahte korelasyonlar öğrenmesine veya proxy'leri seçmesine neden olabilir) gibi. Bu analizler, etkilenen kullanıcıların veri kümenizi kullanan bir ürün veya hizmetle ilgili deneyimini yansıtan gerçek dünya koşullarında yapıldığında daha da faydalı olur.

Örneğin, bir veri kartında IDA sonuçlarının sunulması, okuyucuların makine öğrenimi modellerinin veri kümenizdeki alt kümelerde (dilimler olarak da bilinir) nasıl performans gösterdiği konusunda proaktif bir şekilde sezgi geliştirmesine yardımcı olur. Bu durum, veri kümesi oluşturucuların veri kümesinin analizinde ve veri kartındaki sunumunda daha dikkatli olmasını gerektirse de sonuçta paydaşlar için daha iyi ürün sonuçları elde edilmesini sağlayabilir.

IDA, okuyucuların veri kümenizi modellerinde nasıl kullanacaklarını daha iyi anlamalarına yardımcı olabilir. Sorun yaşıyorsanız analizlerinizi şekillendirmenize yardımcı olması için uzmanlarla, ürün ekipleriyle ve deneyimli kişilerle birlikte çalışın. IDA genellikle okuyuculara açıklanması gereken veya okuyucuların bunları uygun şekilde yorumlayabilmesi için ek destek gerektiren bağlamlara dayanır.

6. Verilerinizi analiz edin

Veri kümenizi analiz etmek için aşağıdaki adımları uygulayın:

  1. Analizinize başlamadan önce keşfedin. TensorFlow Data Validation (TFDV) veya Learning Interpretability Tool (LIT) gibi bir araçla veri kümenizdeki çarpıklıklar ve dengesizlikler hakkında sezgisel bilgi edinin. Analiz tasarımınızı belirlemek için sonuçlardan yararlanın.
  2. Analizinizi dikkatli bir şekilde tasarlayın. Analiz sonuçları; değerlendirmenizin hedeflerinden, analizi gerçekleştirmek için uzmanlığa ve kaynaklara erişimden, analizi ne zaman ve nerede gerçekleştirdiğinizden ve analizin yapıldığı yapay zeka modellerinin bağlamlarından büyük ölçüde etkilenir.
  3. Kullanım amacınızla ilgili faktörlerle başlayın. İlgi alanları grupları oluştururken ve bu grupları genişletirken, amaçlanan kullanım alanlarınızı en çok etkileyebilecek demografik, sosyokültürel, davranışsal ve morfolojik faktörleri göz önünde bulundurun.
  4. Yorum yapmayın, bildirin. Adalet analizlerini etkileyen faktörlerin ve varsayımların, nicel olarak ölçülmesi zor olan, tarihsel ve kültürel olarak belirli sosyal yapılarda bulunduğunu unutmayın. Okuyucuyu şaşırtabilecek yorumlar eklememeye dikkat edin. Bunun yerine, okuyucuların sonuçları kendi bağlamlarında kalibre etmelerine yardımcı olabilecek analizleri yeniden üretmenin yollarını sunun.
  5. Geleceği planlayın. Veri kümenizdeki temsile bakarak, değerleri farklı senaryolarda sabit tutarak veya analizinizi veri kümenizle alakalı ek faktörlerin bir dizi değeriyle birleştirerek gelecekte görünebilecek ek faktörleri hesaba katın.
  6. Yeniden üretilemeyen sonuçlar için daha fazla bağlam bilgisi sağlayın. Metrikler sonraki aşamadaki paydaşlar tarafından yeniden üretilemiyorsa analizle ilgili yeterli bağlam bilgisi sağlayın. Okuyucu, veri kümesinin avantajlarını ve dezavantajlarını değerlendirmek için bu bilgileri kullanabilir. Bu da veri kümesine duyulan güveni artırabilir.

7. Tebrikler

Tebrikler! Veri kartınızda doğru yanıtları sağlamanın birkaç yolu vardır. Artık bunları denetlemeye hazırsınız.