1. Bilgi edinme
Paydaşlarınızın tipolojisini keşfederken, benzersiz bilgi ihtiyaçlarını belirlerken ve sorularınızı çerçevelemek için farklı ayrıntı düzeyleri uygularken temalar doğal olarak ortaya çıkar. Soru temanızı sıralayıp yapılandırmanıza yardımcı olmak için, şeffaflık dokümanları oluşturmak üzere sağlam, kasıtlı ve tekrarlanabilir bir yaklaşım sunan bilgi edinme çerçevesi oluşturduk.
Bilgi edinme, genellikle uzmanlardan oluşan bir kaynaktan alınan bilgilerin çıkarılması, yapılandırılması ve düzenlenmesidir. Bu bilgiler, örneğin üzerinde çalıştığınız üründe veya teknolojide kullanılabilir.
Çerçevemizin adı OFTEn'dir. Bu çerçeve, konuların bir veri kartının tüm bölümlerinde nasıl yayıldığını sistematik olarak değerlendirmeye yönelik kavramsal bir araçtır. Bu değerlendirmeyi, ayrıntılı tümevarım ve tümdengelim veri kümesi şeffaflığı incelemeleri yaparak oluşturduk.
OFTEn
OFTEn, veri kümesi yaşam döngüsündeki genel aşamaların kısaltmasıdır: Orijinler, Factuals, Transformations, Experience ve n = 1 (Örnekler).
Origins
Kökenler aşaması, son sonucu belirleyen çeşitli planlama faaliyetlerini (ör. gereksinimlerin tanımı, toplama veya kaynak bulma yöntemleri, tasarım ve politika kararları) içerir.
Kaynak türü sorulardan ortaya çıkan temalar şunlardır:
- Yazarlar ve sahipler
- Motivasyonlar
- Kullanım amaçları
- Toplama yöntemleri
- Lisanslar
- Sürümler
- Kaynaklar
- Errata
- Hesap veren taraflar
Factuals
Gerçekler aşaması, veri kümesini açıklayan istatistiksel ve diğer gerçek özelliklerin yanı sıra orijinal plandaki sapmaları ve ön hazırlık analizlerini temsil eder.
Gerçeklere dayalı sorulardan ortaya çıkan temalar şunlardır:
- Örnek sayısı
- Özellik sayısı
- Etiket sayısı
- Etiket kaynağı
- Veri kaynağı
- Alt grupların dökümü
- Özelliklerin şekli
- Özelliklerin açıklaması
- Eksik veya yinelenenler
- Dahil etme ölçütü
Dönüşümler
Dönüşümler aşamasında etiketleme, açıklama veya doğrulama görevlerinin özetleri yer alır. Veri kümesine bağlı olarak, burada hakemler arası karar verme süreçleri ortaya çıkabilir. Ayrıca, gizlilik, güvenlik veya kimliği tanımlayabilecek bilgiler (PII) ile ilgili işlemleri gerçekleştirmek için yapılan özellik mühendisliği ve değişiklikler de dönüşüm olarak kabul edilir.
Dönüşüm türü soruları içeren temalar şunlardır:
- Puan veya ek açıklama
- Filtreleme
- İşleniyor
- Doğrulama
- İstatistiksel özellikler
- Yapay özellikler
- Kimliği tanımlayabilecek bilgilerin işlenmesi
- Hassas değişkenler
- Adalet üzerindeki etkisi
- Çarpıtmalar veya yanlılıklar
Deneyim
Deneyim aşamasında, veriler belirli görevler için kullanılır, erişim eğitimi alınır, göreve uygun değişiklikler yapılır, sonuçlar elde edilir ve benzer veri kümeleriyle karşılaştırılır, beklenen veya beklenmeyen davranışlar not edilir.
Deneyim türü soruları açıklayan temalar şunlardır:
- Amaçlanan performans
- Yanlışlıkla yapılan uygulama
- Beklenmeyen performans
- Uyarılar
- Analizler
- Deneyimler
- Hikayeler
- Kullan
- Kullanım alanı değerlendirmesi
n = 1 (Örnekler)
n = 1 (Örnekler) aşamasında dağıtım veri noktalarının ayrıntıları, belirli özelliklere sahip önemli veri noktalarının gösterilmesi ve uygun olduğu durumlarda sonuçların bu veri noktaları üzerinde modellenmesi yer alır.
Örnek türü soruların gösterdiği temalar şunlardır:
- Tipik örneklere ve aykırı değerlere ilişkin örnekler veya bağlantılar.
- Yanlış pozitif veya yanlış negatif sonuç veren örnekler.
- Boş veya sıfır özellik değerlerinin nasıl işlendiğini gösteren örnekler.
Örnek
Örneğin, aşağıdaki soru grubu OFTEn ile düzenlenmiştir:
Kim | Ne? | Zaman | Konum | Neden? | Nasıl? | |
Kökenler | Veri kümesini kim yayınlıyor? Veri kümesi sahiplerinden farklı mı? | Bu veri kümesi için çalışan veri etiketleyiciler, sağlayıcılar ve uzmanlar için teşvikler nelerdir? | Bu veri kümesi ne zaman oluşturuldu? Kullanıma sunuldu mu? | Fon nereden geldi? | Bu veri kümesi neden oluşturuldu? Önceki süreç nasıldı? | Yöntemlere nasıl karar verildi ve kaç taraf yer aldı? |
Gerçek Değerler | Veriler kimlerle ilgili? Etiketleyiciler, verilerdeki kişileri temsil ediyor mu? | Verilerdeki hangi alt gruplar makine öğrenimindeki sonuçları etkileyebilir? | Veriler hangi dönemi temsil ediyor? Verilerin süresi dolduğunda veya veriler anormal şekilde tükendiğinde | Veri kümesine nereden erişilebilir? Veriler nerede toplandı veya oluşturuldu? | Bildirilen metrikler neden seçildi? Neden belirli etiketler seçildi? | Veri kümesinde kaç benzersiz etiket var? Bunlar nasıl oluşturuldu? |
Dönüşümler | Bu veri kümesinde kimliği tanımlayabilecek bilgiler nasıl işlendi? Bu veri kümesindeki sonuçlar, kişileri tanımlamak için kullanılabilir mi? | Bu veri kümesini temizlemek veya doğrulamak için hangi yöntemler kullanıldı? | Özellikler ne zaman ve nasıl tasarlanmalıdır? Bunların güncellenmesi gerekiyor mu? | Konum özellikleri diğer hassas özelliklerle ilişkili mi? | Seçilen dönüşümler neden veri kümesine uygulandı? | Verilerdeki önyargılar veya kimliği tanımlayabilecek bilgiler nasıl ele alınır? |
Deneyim | Bu veri kümesini kimler ve hangi görevler için kullanabilir? Eğitim gerekli mi? | Veri kümesi kullanılırken hangi yöntemler, sonuçlar veya hatalar keşfedildi? | Bu veri kümesi hangi durumlarda ve ne zaman kullanılmamalıdır? | Bu veri kümesine dünyanın hangi bölgelerinden erişilebilir? Nerede kullanıldı? | Veri kümesinin beklenen temsili neden gözlemlenen temsilden farklı? | Dünyanın farklı yerlerinde veriler ne kadar pahalı? |
n = 1 (Örnekler) | Veri noktası tipik mi yoksa atipik mi? Modeller burada nasıl davranıyor? | Veri noktasının boyutu nedir? Bir veri noktasına müdahale etmek için izin, redaksiyon ve geri çekme süreci nasıldır? | Bir veri noktasındaki sonuç ne zaman değişir? Karşı olgusal örnekler gösterilsin mi? | Veri noktasına hangi faktörler dahil edilir? Tahminlerde bir sorun olursa hangi riskler ortaya çıkar? | Bu resim veri noktası neden belirli bir şekilde kırpılıyor? Neden belirli kategoriler bu veri noktasında doldurulmuyor? | Bu veri noktası gerçek dünyadaki bir girişle nasıl ilişkilidir? Sonuç, gerçek dünyadaki bir çıkışla nasıl ilişkilidir? |
Temelinde net bir OFTEn yapısı olan veri kartlarının kolayca genişletilip güncellenebildiğini gördük. OFTEn ile veri kartları zaman içinde büyüyerek genellikle dokümanlardan hariç tutulan konuları (ör. alt düzeydeki temsilcilerden gelen geri bildirimler, sürümler arasındaki önemli farklılıklar ve yapımcılar ya da temsilciler tarafından yapılan geçici denetimler veya soruşturmalar) içerebilir.
Özet
Aşağıdaki tabloda OFTEn çerçevesi özetlenmekte ve bir veri kümesinin yaşam döngüsündeki genel aşamalar açıklanmaktadır:
Sahne | Açıklama |
Kökenler | Veri kümesi oluşturma kararlarının alındığı, veri kümesinin yaşam döngüsünün ilk aşamaları. |
Gerçek Değerler | Gerçek veri toplama süreçleri ve ham çıktılar. |
Dönüşümler | Ham veriler; filtreleme, doğrulama, ayrıştırma, biçimlendirme ve temizleme gibi işlemlerle kullanılabilir bir biçime dönüştürülür. |
Deneyim | Veri kümesi test edilmiş, karşılaştırma ölçütü olarak kullanılmış veya pratikte (deneysel, üretim veya araştırma) dağıtılmıştır. |
n = 1 (Örnekler) | Veri kümesinden alınan, normal veri noktalarını ve aykırı değerleri temsil eden gerçek örnekler (veya kısa açıklamalar). |
Veri kartı oluştururken OFTEn'i kullanmanın iki yolu vardır:
- OFTEn, tümevarım yöntemiyle karar verme açısından kritik olan veri kümeleri ve ilgili modeller hakkında sorular oluşturmak için aracıların faaliyetlerini destekler. Birçok temsilci, OFTEn yapısıyla sorular üzerinde beyin fırtınası yaptığında hedefli karar verme için gerekli bilgilerin ortaya çıktığını görüyoruz.
- OFTEn, veri kümesini bir veri kartının doğru şekilde temsil edip etmediğini değerlendirmek için tümdengelimli olarak kullanılabilir. Bu da doküman ve veri kümesi üzerinde şekillendirici etkilere yol açar. Örneğin, erken aşamadaki veri kümeleri daha çok Kaynaklar ve Gerçekler'e yönelikken olgun veri kümelerinin Deneyim'e yönelik olması beklenir.
OFTEn ile beyin fırtınası yapabilir ve sorularınızın veri kümenizin yaşam döngüsünü ne kadar iyi kapsadığını kontrol edebilirsiniz. Bu sayede içeriğinizin kapsamlı ve düzenli olmasını sağlayabilirsiniz. Bu özellik, oluşturduğunuz soru türlerindeki tekrarları bulmanıza yardımcı olmanın yanı sıra yol boyunca karşılaşabileceğiniz boşlukları da ele alır.
2. OFTEn ile soru oluşturma
- Önceki modülde formüle ettiğiniz bazı paydaş ve temsilci bilgi yolculuklarını (AIJ) düşünün, ardından düşüncelerinizi yapılandırmanıza yardımcı olması için aşağıdaki istemleri kullanın.
- Sorularınızdan bazıları OFTEn kategorilerinden birine uyuyorsa bunları bu şekilde etiketleyin.
- Sorularınız OFTEn kategorilerinden birine girmiyorsa önceki modülden bir temsilcinizi seçin ve ardından temsilci için OFTEn kategorisi başına en az bir soru oluşturun.
- OFTEn kategorinizin derinliğini artırmak için 5N1K (kim, ne, nerede, ne zaman, neden ve nasıl) sorularına dayalı ek sorular oluşturun.
- Gerekirse bu adımları bir sonraki temsilci için tekrarlayın.
3. Boyutlar
OFTEn'i anladığınıza ve veri kartınıza ekleyeceğiniz soruları oluşturduğunuza göre artık veri kartınızda ilk geçişi yaparak sorularınızla ilgili analizleri ortaya çıkarabilirsiniz. Bunu yapmak için, okuyucuların yaptığı farklı yargı türlerinin üst düzey açıklamaları olan boyutları kullanıma sunuyoruz. Bu boyutlar, Veri Kartı'nın kullanışlılığı ve okunabilirliği hakkında yönlendirici bilgiler sağlar. Diğer bir deyişle, veri kartınız okuyucuların veri kümeniz hakkında bilinçli bir sonuca ulaşmasına yardımcı oluyor mu?
Hesap verebilir (Accountable)
Sorumlu bir veri kartı, veri kümesi ve kullanımıyla ilgili yeterli sahiplenme, yansıtma, muhakeme ve sistematik karar alma becerisi gösteren kişiler tarafından sahiplenilir ve yönetilir.
Örnek alanlar | Örnek sorular |
Yazarlık, sorumluluk, bakım, amaçlar | [Perspective] olarak, veri kümesi yayıncıları, veri kümesinin erişim kısıtlamaları ve politikaları, veri kümesini oluşturmayla ilgili açıklamalar ve gerekçeler hakkında bilgi edinmek istiyorum. |
Fayda veya kullanım
Faydalı bir veri kartı, okuyucuların bilgi ihtiyaçlarını karşılayan ayrıntılar sunar. Bu sayede, veri kümesinin görevleri ve hedefleri için uygunluğunu belirleyen sorumlu bir karar alma süreci oluşturulur.
Örnek alanlar | Örnek sorular |
Üreticinin ihtiyaçları,temsilcinin ihtiyaçları, kullanıcının ihtiyaçları, toplumsal ihtiyaçlar | [Bakış açısı] olarak, şunları bilmek istiyorum: |
Kalite
Yüksek kaliteli bir veri kartı, veri kümesinin titizliğini, bütünlüğünü ve eksiksizliğini özetler. Bu bilgiler genellikle farklı geçmişlere sahip okuyucular için erişilebilir ve anlaşılır bir şekilde iletilir.
Örnek alanlar | Örnek sorular |
Geçerlilik,güvenilirlik, bütünlük, tekrarlanabilirlik | [Bakış açısı] olarak, ... |
Kullanımın etkisi veya sonuçları
Veri kümesi kullanımının etkisini yeterince ayrıntılı bir şekilde açıklayan bir veri kartı, veri kümesini kullanırken ve yönetirken sonuçlarla ilgili beklentileri belirler ve okuyucuların hedeflerini olumsuz etkileyebilecek birinci veya ikinci derece sonuçları kabul eder.
Örnek alanlar | Örnek sorular |
Etkililik, alaka düzeyi, grup yararı,sapmaların etkileri | [Bakış açısı] olarak, şunları bilmek istiyorum: |
Riskler ve öneriler
İyi öneriler sunan bir Veri Kartı, okuyucuları kaynağın, temsiliyetin, kullanımın veya kullanım bağlamının neden olduğu bilinen ve olası riskler ile sınırlamalar konusunda bilgilendirir ve okuyucuların sorumlu seçimler yapmasına yardımcı olacak yeterli bilgi ve alternatifler sunar.
Örnek alanlar | Örnek sorular |
Risk büyüklüğü, azaltma önlemleri, öneriler, gruba zarar | [Bakış açısı] olarak şunu bilmek istiyorum: |
Özet
Boyutlar sayesinde, soru grubunuzu değerlendirerek hedefleriniz ve istenen sonuçlarla uyumlu olduğundan emin olabilirsiniz. Veri kartınızdaki bir soruyu henüz tam olarak yanıtlamamış olsanız bile, veri kümesi dokümantasyonu sürecine çok fazla girmeden önce hataları yakalamanız en iyisidir.
Aşağıdaki tabloda beş boyut özetlenmektedir:
Sahne | Açıklama |
Hesap Verebilirlik | Veri kümesine duyulan güvenle ilgili olarak farklı paydaşların yansıtıcı, makul ve sistematik kararlarını ifade eden açıklamalar. |
Faydalı Model | Okuyucuların sorumlu karar verme süreci ihtiyaçlarını karşılayan ayrıntılar sunar ve hedefleriyle ilgili olarak kullanım alanlarının uygunluğunu belirler. |
Kalite | Veri kümesinin titizliğini, bütünlüğünü ve eksiksizliğini birçok okuyucunun anlayabileceği şekilde özetler. |
Etki ve sonuçlar | Okuyucuların veri kümesini kullanıp yönetirken istedikleri sonuçlara ulaşmalarına yardımcı olan ve hedeflerini olumsuz etkileyebilecek sonuçları kabul eden bilgiler |
Riskler ve öneriler | Okuyucuları, veri kümesiyle ilişkili ve temsilden, kullanımdan veya kullanım bağlamından kaynaklanan bilinen ve olası riskler konusunda bilgilendirir. |
Bu farklı boyut türleriyle, Veri Kartınızı tamamlamaya başlamadan önce bile içerik kalitesi, okunabilirlik ve kullanışlılık hakkında analizler elde edebilirsiniz. Daha sağlam ve ayrıntılı bir veri kartı şablonu oluşturmanıza yardımcı olacak işlem öğelerini belirlemenize yardımcı olur.
4. Sorularınızı boyutlarla değerlendirme
- Tek bir boyutla başlayın, ardından soru grubunuzun karmaşıklığına göre bilinçli bir sonuca ulaşmak için ne kadar akıcılık ve uzmanlık gerektiğini belirleyin.
- Boyutun soru grubunuz tarafından ne kadar iyi desteklendiğine dair bir gerekçe ve akıl yürütme sunun.
- Soru grubunuzdan bir veya iki örnek soruyla gerekçenizi destekleyen kanıtlar sunun.
- Boyutunuz istenmeyen bir boyuta benziyorsa eksiklikleri gidermek veya iyileştirmek için yapılması gereken adımları not edin. Paydaşlardan oluşan bir ekiple çalışıyorsanız bazı paydaşlar belirli soruları yanıtlamada daha iyi olabilir. Bu durumda sorumluluğu onlara atayın.
- Sonraki boyut için bu adımları tekrarlayın.
Aşağıda, boyut değerlendirmenizi yakalamak için kullanabileceğiniz örnek bir şablon verilmiştir:
Bu değerlendirme süreci, oluşturduğunuz soru sayısına ve veri kartınız için dikkate almanız gereken paydaşların çeşitliliğine bağlı olarak 15 dakika ile bir saat arasında sürebilir.
5. Tebrikler
Tebrikler! Veri kartınız için oluşturduğunuz soruları inceleyebilirsiniz. Artık bu soruları yanıtlayabilirsiniz.