1. Akuisisi pengetahuan
Tema akan muncul secara alami saat Anda menjelajahi tipologi pemangku kepentingan, mencatat kebutuhan informasi unik mereka, dan menerapkan berbagai tingkat perincian untuk menyusun pertanyaan. Untuk membantu Anda mengurutkan dan menyusun tema pertanyaan, kami membuat framework perolehan pengetahuan yang memberi Anda pendekatan yang kuat, disengaja, dan dapat diulang untuk menghasilkan dokumentasi transparansi.
Akuisisi pengetahuan adalah ekstraksi, penataan, dan pengorganisasian pengetahuan dari satu sumber—biasanya pakar manusia—sehingga dapat digunakan dalam, misalnya, produk atau teknologi yang Anda kerjakan.
Framework kami disebut OFTEn, alat konseptual untuk mempertimbangkan secara sistematis bagaimana topik disebarkan di semua bagian Kartu Data. Kami membuatnya melalui penyelidikan mendetail tentang transparansi set data secara induktif dan deduktif.
OFTEn
OFTEn adalah singkatan untuk tahapan umum dalam siklus proses set data: Originasi, Faktual, Transformasi, Experience, dan n = 1 (Sampel).
Origins
Tahap Asal mencakup berbagai aktivitas perencanaan yang menentukan hasil akhir, seperti definisi persyaratan, metode pengumpulan atau sumber, serta keputusan desain dan kebijakan.
Tema yang muncul dari pertanyaan jenis asal meliputi:
- Penulis dan pemilik
- Motivasi
- Aplikasi yang dimaksudkan
- Metode pengumpulan
- Lisensi
- Versi
- Sumber
- Errata
- Pihak yang bertanggung jawab
Faktual
Tahap Fakta mewakili atribut statistik dan faktual lainnya yang mendeskripsikan set data, penyimpangan dari rencana awal, dan analisis pra-penataan data.
Tema yang muncul dari pertanyaan jenis faktual meliputi:
- Jumlah instance
- Jumlah fitur
- Jumlah label
- Sumber label
- Sumber data
- Detail subgrup
- Bentuk fitur
- Deskripsi fitur
- Tidak ada atau duplikat
- Kriteria penyertaan
Transformations
Tahap Transformasi mencakup ringkasan tugas pemberian label, anotasi, atau validasi. Bergantung pada set data, proses ajudikasi antar-penilai mungkin muncul di sini. Selain itu, rekayasa fitur dan modifikasi yang dilakukan untuk menangani privasi, keamanan, atau informasi identitas pribadi (PII) dihitung sebagai transformasi.
Tema yang mencakup pertanyaan jenis transformasi meliputi:
- Rating atau anotasi
- Pemfilteran
- Memproses
- Validasi
- Properti statistik
- Fitur sintetis
- Menangani PII
- Variabel sensitif
- Dampak terhadap keadilan
- Ketidakakuratan atau bias
Pengalaman
Tahap Pengalaman melibatkan penggunaan data untuk tugas tertentu, mengikuti pelatihan akses, melakukan modifikasi agar sesuai dengan tugas, mendapatkan hasil dan membandingkannya dengan set data serupa lainnya, serta mencatat perilaku yang diharapkan atau tidak terduga.
Tema yang menggambarkan pertanyaan jenis pengalaman mencakup:
- Performa yang diharapkan
- Aplikasi yang tidak diinginkan
- Performa yang tidak terduga
- Peringatan
- Insight
- Pengalaman
- Cerita
- Gunakan
- Evaluasi kasus penggunaan
n = 1 (Sampel)
Tahap n = 1 (Sampel) melibatkan seluk-beluk titik data distribusi, demonstrasi titik data penting dengan atribut tertentu, dan jika berlaku, pemodelan hasil pada titik data tersebut.
Tema yang ditunjukkan oleh pertanyaan jenis sampel meliputi:
- Contoh atau link ke contoh umum dan pencilan.
- Contoh yang menghasilkan positif palsu atau negatif palsu.
- Contoh yang menunjukkan penanganan nilai fitur nol atau null.
Contoh
Sebagai contoh, kumpulan pertanyaan berikut disusun dengan OFTEn:
Siapa | Apa | Kapan | Di mana | Mengapa | Bagaimana | |
Asal | Siapa yang memublikasikan set data? Apakah berbeda dengan pemilik set data? | Apa insentif bagi pelabel, penyedia, dan pakar data yang dipekerjakan untuk set data ini? | Kapan set data ini dibuat? Diluncurkan? | Dari mana pendanaan berasal? | Mengapa set data ini dibuat? Bagaimana proses sebelumnya? | Bagaimana metode diputuskan dan berapa banyak pihak yang terlibat? |
Faktual | Siapa yang datanya dikumpulkan? Apakah pemberi label mewakili orang-orang dalam data? | Apa saja subgrup dalam data yang dapat memengaruhi hasil dalam machine learning? | Kapan jangka waktu yang diwakili oleh data? Saat data berakhir atau berjalan tidak normal? | Di mana {i>dataset<i} dapat diakses? Di mana data dikumpulkan atau dibuat? | Mengapa metrik yang dilaporkan dipilih? Mengapa label tertentu dipilih? | Berapa banyak label unik yang ada dalam set data? Bagaimana cara membuatnya? |
Transformasi | Bagaimana PII ditangani dalam set data ini? Dapatkah hasil dari set data ini digunakan untuk mengidentifikasi individu? | Metode apa yang digunakan untuk membersihkan atau memverifikasi set data ini? | Kapan dan bagaimana fitur harus direkayasa? Apakah ini perlu diperbarui? | Apakah fitur lokasi berkorelasi dengan fitur sensitif lainnya? | Mengapa transformasi yang dipilih diterapkan ke set data? | Bagaimana cara menangani bias atau PII dalam data? |
Pengalaman | Siapa yang dapat menggunakan set data ini, dan untuk tugas apa? Apakah ada pelatihan yang diperlukan? | Apa saja metode, hasil, atau error yang ditemukan saat set data digunakan? | Dalam keadaan apa dan kapan set data ini tidak boleh digunakan? | Di mana di dunia ini set data dapat diakses? Di mana fitur ini telah digunakan? | Mengapa representasi set data yang diharapkan berbeda dengan representasi yang diamati? | Seberapa mahal data di berbagai belahan dunia? |
n = 1 (Sampel) | Apakah titik data tersebut umum atau tidak umum? Bagaimana perilaku model di sini? | Berapa ukuran titik datanya? Bagaimana proses pemberian izin, penyensoran, dan pembatalan izin untuk melakukan intervensi pada titik data? | Kapan hasil pada titik data berubah? Menunjukkan contoh melalui kontra-faktual? | Faktor apa yang ada dalam titik data? Apa risiko yang terlibat jika prediksi salah? | Mengapa titik data gambar ini dipangkas dengan cara tertentu? Mengapa kategori tertentu tidak diisi dalam titik data ini? | Bagaimana kaitan titik data ini dengan input dunia nyata? Bagaimana kaitan hasilnya dengan output dunia nyata? |
Kami mendapati bahwa Kartu Data dengan struktur OFTEn pokok yang jelas mudah diperluas dan diperbarui. Dengan OFTEn, Kartu Data dapat berkembang seiring waktu untuk menyertakan topik yang biasanya tidak disertakan dalam dokumentasi, seperti masukan dari agen hilir, perbedaan penting di berbagai versi, dan audit atau penyelidikan ad hoc dari produser atau agen.
Ringkasan
Tabel berikut merangkum framework OFTEn dan menjelaskan tahapan umum dalam siklus proses set data:
Tahap | Deskripsi |
Asal | Tahap awal siklus proses set data saat keputusan untuk membuat set data dibuat. |
Faktual | Proses pengumpulan data dan output mentah yang sebenarnya. |
Transformasi | Data mentah diubah menjadi bentuk yang dapat digunakan melalui operasi seperti pemfilteran, validasi, penguraian, pemformatan, dan pembersihan. |
Pengalaman | Set data diuji, diukur, atau di-deploy dalam praktik (eksperimental, produksi, atau riset). |
n = 1 (Sampel) | Contoh sebenarnya dari set data—atau sketsa—yang merepresentasikan titik data normal dan pencilan. |
Ada dua cara yang dapat Anda gunakan untuk OFTEn saat membuat Kartu Data:
- Secara induktif, OFTEn mendukung aktivitas dengan agen untuk merumuskan pertanyaan tentang set data dan model terkait yang penting untuk pengambilan keputusan. Kami mendapati bahwa saat banyak agen berkumpul untuk mendiskusikan pertanyaan dengan struktur OFTEn, hal itu akan mengungkapkan informasi yang diperlukan untuk pengambilan keputusan yang tepat.
- Secara deduktif, OFTEn dapat digunakan untuk menilai apakah Kartu Data secara akurat merepresentasikan set data, yang menghasilkan efek formatif pada dokumentasi dan set data. Misalnya, set data tahap awal lebih cenderung mengarah ke Asal dan Fakta, sedangkan set data yang matang diharapkan lebih cenderung mengarah ke Pengalaman.
Dengan OFTEn, Anda dapat berdiskusi dan memeriksa seberapa baik pertanyaan Anda mencakup siklus proses set data, yang memastikan bahwa konten Anda pada akhirnya akan komprehensif dan efisien. Fitur ini tidak hanya membantu Anda menemukan redundansi dalam jenis pertanyaan yang Anda buat, tetapi juga mengatasi kesenjangan yang mungkin Anda temukan dalam prosesnya.
2. Susun pertanyaan dengan OFTEn
- Pikirkan beberapa perjalanan informasi agen (AIJ) dan pemangku kepentingan yang Anda rumuskan dalam modul sebelumnya, lalu gunakan perintah berikut untuk membantu menyusun pemikiran Anda.
- Jika beberapa pertanyaan Anda sudah termasuk dalam salah satu kategori OFTEn, beri label yang sesuai.
- Jika pertanyaan Anda tidak termasuk dalam salah satu kategori OFTEn, pilih salah satu agen Anda dari modul sebelumnya, lalu buat setidaknya satu pertanyaan per kategori OFTEn untuk agen tersebut.
- Buat pertanyaan tambahan berdasarkan lima W (siapa, apa, di mana, kapan, dan mengapa) dan satu H (bagaimana) untuk memperluas kedalaman kategori OFTEn Anda.
- Jika berlaku, ulangi langkah-langkah ini untuk agen berikutnya.
3. Dimensi
Setelah memahami OFTEn dan membuat pertanyaan untuk disertakan dalam Kartu Data, Anda siap menemukan insight tentang pertanyaan Anda dengan melakukan tinjauan pertama Kartu Data. Untuk melakukannya, kami memperkenalkan dimensi, yang merupakan deskripsi tingkat tinggi dari berbagai jenis penilaian yang dibuat pembaca, yang memberikan insight terarah tentang kegunaan dan keterbacaan Kartu Data. Dengan kata lain, dapatkah Kartu Data Anda membantu pembaca sampai pada kesimpulan yang tepat tentang set data Anda?
Bertanggung jawab
Kartu Data yang akuntabel dimiliki dan dikelola oleh orang-orang yang menunjukkan kepemilikan, refleksi, penalaran, dan pengambilan keputusan sistematis yang memadai terkait set data dan penggunaannya.
Contoh area | Contoh pertanyaan |
Kepengarangan, tanggung jawab, pemeliharaan, maksud | Sebagai [perspektif], saya ingin mengetahui... |
Kegunaan atau penggunaan
Kartu Data yang berguna memberikan detail yang memenuhi kebutuhan informasi pembaca, yang mengarah pada proses pengambilan keputusan yang bertanggung jawab yang menetapkan kesesuaian set data untuk tugas dan tujuan mereka.
Contoh area | Contoh pertanyaan |
Kebutuhan produsen,kebutuhan agen, kebutuhan pengguna, kebutuhan masyarakat | Sebagai [perspektif], saya ingin mengetahui... |
Kualitas
Kartu Data berkualitas tinggi merangkum ketelitian, integritas, dan kelengkapan set data, yang sering kali dikomunikasikan dengan cara yang mudah diakses dan dipahami oleh pembaca dari berbagai latar belakang.
Contoh area | Contoh pertanyaan |
Validitas,keandalan, integritas, reproduksibilitas | Sebagai [perspektif], saya ingin mengetahui... |
Dampak atau konsekuensi penggunaan
Kartu Data yang menjelaskan secara memadai dampak penggunaan set data menetapkan ekspektasi hasil saat menggunakan dan mengelola set data, serta mengakui konsekuensi tingkat pertama atau kedua yang dapat berdampak negatif pada sasaran pembaca.
Contoh area | Contoh pertanyaan |
Khasiat, relevansi, manfaat kelompok,implikasi penyimpangan | Sebagai [perspektif], saya ingin mengetahui... |
Risiko dan rekomendasi
Kartu Data yang menawarkan rekomendasi yang baik membuat pembaca menyadari risiko dan batasan yang diketahui dan potensial yang berasal dari asal-usul, representasi, penggunaan, atau konteks penggunaan, serta memberikan informasi dan alternatif yang cukup untuk membantu pembaca membuat pilihan yang bertanggung jawab.
Contoh area | Contoh pertanyaan |
Besarnya risiko, mitigasi, rekomendasi, bahaya bagi kelompok | Sebagai [perspektif], saya ingin mengetahui... |
Ringkasan
Dengan dimensi, Anda dapat mengevaluasi kumpulan pertanyaan untuk memastikan pertanyaan tersebut selaras dengan sasaran dan hasil yang diinginkan. Meskipun Anda belum menjawab pertanyaan di Kartu Data, sebaiknya perbaiki kesalahan sebelum Anda terlalu jauh dalam proses dokumentasi set data.
Tabel berikut merangkum kelima dimensi tersebut:
Tahap | Deskripsi |
Akuntabilitas | Pernyataan yang mengekspresikan keputusan reflektif, wajar, dan sistematis dari berbagai pemangku kepentingan terkait kepercayaan terhadap set data. |
Aplikasi Utilitas | Memberikan detail yang memenuhi kebutuhan proses pengambilan keputusan yang bertanggung jawab bagi pembaca dan menetapkan kesesuaian kasus penggunaan yang berkaitan dengan tujuan mereka. |
Kualitas | Merangkum ketelitian, integritas, dan kelengkapan set data yang dikomunikasikan dengan cara yang dapat diakses oleh banyak pembaca. |
Dampak dan konsekuensi | Informasi yang membantu pembaca mencapai hasil yang diinginkan saat mereka menggunakan dan mengelola set data, serta mengakui konsekuensi yang dapat berdampak negatif pada tujuan mereka. |
Risiko dan rekomendasi | Membuat pembaca menyadari risiko yang diketahui dan potensial yang terkait dengan set data yang berasal dari representasi, penggunaan, atau konteks penggunaan. |
Dengan berbagai jenis dimensi ini, Anda dapat menemukan insight tentang kualitas konten, keterbacaan, dan kegunaan Kartu Data Anda bahkan sebelum Anda mulai melengkapinya. Laporan ini membantu Anda mengidentifikasi item tindakan yang berkontribusi pada template Kartu Data yang lebih stabil dan lebih baik.
4. Mengevaluasi pertanyaan Anda dengan dimensi
- Mulailah dengan satu dimensi, lalu tentukan seberapa banyak kefasihan dan keahlian yang diperlukan untuk mencapai kesimpulan yang tepat berdasarkan kompleksitas kumpulan pertanyaan Anda.
- Berikan alasan dan pertimbangan seberapa baik dimensi tersebut saat ini didukung oleh kumpulan pertanyaan Anda.
- Berikan bukti yang mendukung alasan Anda melalui satu atau dua contoh pertanyaan dari kumpulan pertanyaan Anda.
- Jika dimensi Anda tampak tidak diinginkan, catat langkah-langkah yang harus dilakukan untuk memperbaiki atau mengatasi kekurangan. Jika Anda bekerja dengan tim pemangku kepentingan, tetapkan tanggung jawab jika beberapa pemangku kepentingan lebih siap menjawab pertanyaan tertentu.
- Ulangi langkah-langkah ini untuk dimensi berikutnya.
Berikut adalah contoh template yang dapat Anda gunakan untuk merekam evaluasi dimensi:
Proses evaluasi ini dapat berlangsung dari 15 menit hingga satu jam, bergantung pada jumlah pertanyaan yang Anda buat dan berbagai pemangku kepentingan yang perlu Anda pertimbangkan untuk Kartu Data Anda.
5. Selamat
Selamat! Anda memiliki cara untuk memeriksa pertanyaan yang Anda buat untuk Kartu Data. Sekarang Anda siap menjawabnya.