Modul 3: Menjawab

1. Menentukan poin-poin penting

Anda telah memutuskan serangkaian pertanyaan yang ingin disertakan dalam Kartu Data—pertanyaan yang menurut Anda penting bagi pembaca. Namun, ini tidak sesederhana menjawab pertanyaan-pertanyaan ini dan menyebutnya Kartu Data. Anda perlu mempertimbangkan dengan cermat untuk memastikan Kartu Data akhir Anda dioptimalkan untuk pengalaman pembaca.

Saat membaca Kartu Data, orang ingin membuat keputusan yang sangat spesifik, seperti berikut:

  • Apakah set data ini cocok untuk kasus penggunaan saya?
  • Dapatkah saya mengizinkan orang lain menggunakan set data ini?
  • Bagaimana cara menggunakan set data ini dengan aman tanpa menambah risiko pada model saya?

Jika pembaca dapat mengakses informasi yang tepat secara efisien, mereka akan sangat mahir dalam membuat keputusan terkait set data dalam konteksnya. Penting atau tidaknya informasi bergantung pada jenis keputusan yang harus dibuat pembaca dan latar belakang pembaca. Misalnya, saat memutuskan apakah akan menggunakan set data, petugas kepatuhan mungkin melihat lisensi yang terkait dengannya, tetapi seorang engineer melihat stack teknologi. Kedua pembaca mengajukan pertanyaan yang sama, tetapi mengharapkan jawaban yang berbeda.

Kartu Data harus menjelaskan set data Anda secara komprehensif sehingga pembaca dapat membuat keputusan dengan percaya diri. Deskripsi komprehensif ini membantu Anda memutuskan apa yang ingin Anda sampaikan kepada pembaca melalui Kartu Data, dan menentukan jenis informasi yang akurat, kuat, dan teratur untuk didokumentasikan di dalamnya. Tentu saja, tantangannya adalah tidak mungkin untuk menentukan semua kemungkinan keputusan yang perlu dibuat oleh pembaca Kartu Data Anda.

2. Merencanakan Kartu Data Anda

  • Untuk menentukan keputusan yang perlu dibuat oleh pembaca Kartu Data Anda dan seberapa banyak detail yang harus disertakan dalam Kartu Data Anda, jawab pertanyaan untuk setiap kategori dalam tabel berikut:

Pembaca

Keputusan

Sasaran

Relevansi

Nuansa

Siapa audiens utamanya?

Keputusan apa yang akan mereka buat tentang set data?

Apa yang mereka inginkan dari Kartu Data?

Konten spesifik apa yang mereka butuhkan dari Kartu Data untuk mencapai sasaran mereka?

Mengingat apa yang Anda ketahui tentang pembaca, seberapa detail atau bernuansakah konten Anda?

Contoh: Software engineer produksi

Contoh: Haruskah saya menggunakan set data untuk menguji model machine learning (ML) yang sedang dalam produksi?

Contoh: Berikan ringkasan set data. Beri tahu saya cara penerapannya.

Contoh: Penggunaan yang dimaksudkan dan tidak sesuai, penggunaan sebelumnya, dan hasil pada model sebelumnya.

Contoh: Sangat bernuansa. Penekanan pada penggunaan dan kegunaan teknis untuk tujuan integrasi ke dalam sistem produksi.

Anda dapat menggunakan tabel untuk mengevaluasi Kartu Data dan memastikan pembaca yang menjadi prioritas tinggi menganggap Kartu Data Anda bermanfaat. Meskipun ada banyak pendekatan untuk mengevaluasi Kartu Data Anda, salah satu pendekatan yang kami rekomendasikan adalah menilai tingkat keparahan kegunaan.

Meskipun definisi yang tepat dapat bervariasi, skala tingkat keparahan berikut memberikan rating seberapa parah kerusakan sesuatu dan dampak masalah tanpa memperhatikan prioritas. Dalam konteks ini, kami merujuk pada kegunaan Kartu Data Anda, yang jika tidak ditangani, dapat memengaruhi kepercayaan pembaca terhadap Kartu Data dan kegunaannya.

  • Untuk mengevaluasi seberapa berguna status Kartu Data Anda bagi setiap grup audiens dalam tabel Anda sebelumnya, jawab pertanyaan dalam skala tingkat keparahan berikut:

Pelanggaran

Keparahan

Perbaikan

Jawaban apa yang tidak berguna bagi pembaca?

Seberapa mendesak masalah ini harus diperbaiki dalam skala 1 hingga 5? (Centang kotak yang sesuai):

  • ☐ 1 = Bencana. Perbaiki hal ini sebelum Kartu Data dirilis.
  • ☐ 2 = Masalah besar. Penting untuk diperbaiki dan diberi prioritas tinggi.
  • ☐ 3 = Masalah kecil. Diberi prioritas rendah.
  • ☐ 4 = Hanya masalah tampilan. Perbaiki jika waktu memungkinkan.
  • ☐ 5 = Ini bukan masalah.

Apa solusinya?

3. Bertujuan untuk mendapatkan cukup banyak

Sering kali, salah satu dari dua hal berikut cenderung terjadi saat Anda membuat Kartu Data pertama:

  • Informasi yang terlalu banyak akan membuat pembaca kewalahan.
  • Informasi yang terlalu sedikit membingungkan pembaca.

Sebagai pembuat Kartu Data, Anda perlu menyeleksi dan memprioritaskan informasi di dalamnya. Artefak transparansi yang baik memberikan konteks yang cukup bagi pembaca untuk mendapatkan pemahaman yang jelas. Jika tidak, mereka akan mengetahui langkah selanjutnya.

Anda ingin memberikan informasi yang membuat set data mudah dipahami dan digunakan. Terkadang, kompleksitas set data Anda meningkat, yang memengaruhi kepadatan informasi dan penjelasan yang perlu Anda ringkas dalam Kartu Data.

Terlepas dari tingkat keahlian pembaca, siapa pun dapat mengalami kelebihan informasi, jadi penting untuk menyajikan informasi yang benar, yang mencakup hal berikut:

  • Jenis informasi yang harus Anda berikan.
  • Seberapa banyak informasi yang dapat Anda berikan.
  • Detail di dalamnya.

Jawaban Anda harus berupaya sebaik mungkin untuk merangkum semuanya tanpa menjelaskan setiap detail, dan mencerminkan konteks yang diperlukan agar pembaca mendapatkan insight tentang set data Anda.

Heuristik

Kami membuat serangkaian heuristik yang dapat Anda gunakan untuk menilai pengalaman keseluruhan membaca Kartu Data Anda. Kami melihat heuristik ini sebagai tujuan yang harus dipenuhi Kartu Data agar berhasil dan diadopsi dengan tepat dalam praktik dan skala. Tabel berikut berisi tujuan ini dan deskripsinya:

Tujuan

Deskripsi

Konsisten

Kartu Data harus dapat dibandingkan satu sama lain, terlepas dari modalitas atau domain data, sehingga klaim mudah diinterpretasikan dan divalidasi dalam konteks penggunaan. Meskipun deployment Kartu Data sekali pakai relatif mudah, kami mendapati bahwa tim dan organisasi perlu mempertahankan kemampuan perbandingan saat mereka meningkatkan adopsi.

Komprehensif

Daripada dibuat sebagai langkah terakhir dalam siklus proses set data, Kartu Data harus mudah dibuat secara bersamaan dengan set data. Selain itu, tanggung jawab untuk mengisi kolom dalam Kartu Data harus didistribusikan dan ditetapkan kepada individu yang paling sesuai. Hal ini memerlukan metode standar yang melampaui Kartu Data, dan berlaku untuk berbagai laporan yang dihasilkan dalam siklus proses set data.

Dapat dipahami dan ringkas

Pembaca memiliki tingkat kemahiran yang berbeda-beda, yang memengaruhi interpretasi mereka terhadap Kartu Data. Dalam skenario ketika kemahiran pemangku kepentingan berbeda, individu dengan model mental terkuat dari set data menjadi pengambil keputusan de facto. Terakhir, tugas yang lebih mendesak atau sulit dapat mengurangi partisipasi pemangku kepentingan non-tradisional dalam pengambilan keputusan, yang diserahkan kepada "pakar". Hal ini berisiko menghilangkan perspektif penting yang mencerminkan kebutuhan kontekstual para pemangku kepentingan di hilir dan samping. Kartu Data harus berkomunikasi secara efisien kepada pembaca dengan kemahiran paling rendah, dan memungkinkan pembaca dengan kemahiran yang lebih tinggi untuk menemukan informasi lebih lanjut sesuai kebutuhan. Konten dan desain harus memajukan proses pertimbangan pembaca tanpa membuatnya kewalahan, dan mendorong kerja sama pemangku kepentingan menuju model mental bersama dari set data untuk pengambilan keputusan.

4. Beri skor pada heuristik Anda

  • Untuk meninjau jawaban Kartu Data Anda, gunakan kartu skor berikut yang kami buat untuk memberi skor pada setiap heuristik. Pada akhirnya, Anda dapat menghitung skor keseluruhan Kartu Data, yang membantu Anda tetap berada di jalur yang benar. Anda juga dapat menyertakan komentar untuk mendapatkan konteks tambahan dan item tindakan yang diperlukan untuk meningkatkan kualitas setiap heuristik.

Heuristik

Kriteria

Komentar

Skor

Beri skor sendiri kartu data yang telah Anda selesaikan berdasarkan heuristik berikut.

Kriteria untuk heuristik

Perhatikan secara khusus area tempat kartu data dapat ditingkatkan.

Hanya angka, skor sendiri (0-10)

Dapat Dipahami (Intelligible)
Desain dan konten artefak transparansi Anda efektif, relevan, dan mudah dipahami oleh sebagian besar agen ahli dan non-ahli.

  • Efektif: Sebagian besar agen dapat memperoleh jawaban yang sesuai untuk pertanyaan yang wajar tentang set data atau model.
  • Relevan: Penjelasan, visualisasi, dan hasil analisis yang disertakan relevan dan dapat ditindaklanjuti oleh sebagian besar agen.
  • Dapat dipahami: Informasi dapat dengan mudah dipahami oleh agen ahli dan non-ahli.

.

.

Komprehensif
Kartu Data memudahkan pembaca memahami tentang apa yang dimaksud dengan set data atau model, bagaimana set data atau model tersebut dibuat, dan apa yang penting untuk diketahui sebelum menggunakannya.

  • Bertujuan: Informasi yang menetapkan konteks untuk set data dan bermanfaat bagi semua pemangku kepentingan dapat dibaca.
  • Lengkap: Informasi koheren dan lengkap, yang menjelaskan semua tahap dalam siklus proses set data dengan tepat.
  • Mendalam: Ringkasan dapat dibaca oleh pembaca umum, dan ditautkan ke informasi tambahan yang lebih mendalam atau spesifik untuk pembaca tingkat lanjut.

.

.

Konsisten
Kartu Data mengikuti konvensi platform dan industri, serta menjaga konsistensi dalam dirinya sendiri dan di seluruh kartu transparansi serupa lainnya.

  • Dapat dikenali: Bagian-bagian disusun dalam urutan logis sehingga pembaca dapat mengenali tempat untuk menemukan informasi.
  • Standar: Menggunakan istilah standar industri, dan menjelaskan penyimpangan atau penyesuaian jika relevan.
  • Jelas: Istilah yang sama berarti konsep yang sama setiap kali digunakan.

.

.

Ringkas
Desain dan konten dalam kartu mengurangi informasi yang luas dan kompleks menjadi bagian-bagian penting yang mudah dipahami dan relatif penting yang memenuhi kebutuhan pembaca pemula dan berpengalaman.

  • Dapat dipahami: Makna dan tingkat kepentingan relatif dari kata kunci, key-value pair, dan ringkasan visual mudah dipahami.
  • Dapat dilihat sekilas: Jika dan bagaimana pembaca dapat menggunakan set data untuk mencapai sasaran mereka terlihat jelas sekilas.
  • Kontekstual: Pengetahuan dan konteks latar belakang disaring atau diabstraksi untuk dipahami tanpa mengorbankan sifat dan nuansa set data.

.

.

Total skor = (Total poin/120)

.

.

/120

5. Analisis yang cermat

Kami tahu bahwa data adalah informasi tentang orang, budaya, atau bisnis yang telah dikumpulkan secara terstruktur untuk tujuan tertentu. Namun, seperti yang dinyatakan berulang kali, semuanya bernuansa, terjalin oleh beberapa dimensi dengan berbagai tingkat. Dengan demikian, analisis yang Anda lakukan pada set data akan memberikan gambaran tentang pemikiran yang telah dimasukkan ke dalam set data itu sendiri, yang membantu memahami kerumitannya.

Misalnya, analisis interseksional terhadap orang dapat mengeksplorasi kombinasi faktor manusia dalam set data untuk mengidentifikasi potensi hasil yang tidak proporsional, seperti saat model yang dilatih pada set data berperforma lebih baik untuk subgrup tertentu daripada yang lain. Analisis yang tidak digabungkan mengelompokkan set data berdasarkan berbagai faktor untuk mengungkap pola penting bagi subgrup atau populasi yang terpinggirkan yang biasanya disamarkan oleh data gabungan yang lebih besar sehingga pembaca dapat mengantisipasi hasilnya.

Dengan demikian, kami menemukan bahwa analisis interseksionalitas dan terpilah (IDA) adalah cara yang efektif untuk mengomunikasikan berbagai hasil yang mungkin terjadi dalam berbagai keadaan di Kartu Data melalui pembentukan hubungan yang jelas dalam set data. IDA dapat menawarkan petunjuk penting kepada pembaca tentang representasi dalam set data Anda, seperti bagaimana label berkorelasi dengan entitas sensitif; kesenjangan dalam set data Anda, seperti bagaimana set data hanya memiliki foto yang diambil pada siang hari; dan hubungan antar-variabel yang selanjutnya dapat menyebabkan model AI mempelajari korelasi palsu atau memilih proksi. Analisis ini menjadi lebih berguna jika ditempatkan dalam keadaan dunia nyata yang mencerminkan pengalaman yang mungkin dialami pengguna yang terpengaruh dengan produk atau layanan yang menggunakan set data Anda.

Misalnya, presentasi hasil IDA dalam Kartu Data membantu pembaca secara proaktif membangun intuisi tentang performa model ML mereka pada subset—juga dikenal sebagai irisan—dalam set data Anda. Meskipun hal ini mengharuskan pembuat set data lebih cermat dalam analisis set data dan presentasinya di Kartu Data, pada akhirnya hal ini dapat menghasilkan hasil produk yang lebih baik bagi pemangku kepentingan.

IDA dapat membantu pembaca lebih memahami cara menggunakan set data Anda dalam model mereka. Jika Anda mengalami kesulitan, bekerjasamalah dengan pakar, tim produk, dan individu yang memiliki pengalaman langsung untuk membantu menyusun analisis Anda. IDA sering kali berakar pada konteks yang perlu dijelaskan kepada pembaca atau memerlukan dukungan tambahan agar pembaca dapat menafsirkannya dengan tepat.

6. Analisis data Anda

Untuk menganalisis set data, ikuti langkah-langkah berikut:

  1. Jelajahi sebelum Anda memulai analisis. Kembangkan intuisi untuk mengetahui kemiringan dan ketidakseimbangan dalam set data Anda dengan alat, seperti TensorFlow Data Validation (TFDV), atau Learning Interpretability Tool (LIT). Gunakan hasilnya untuk menentukan desain analisis Anda.
  2. Rancang analisis Anda dengan cermat. Hasil analisis sangat dipengaruhi oleh tujuan evaluasi Anda, akses ke keahlian dan sumber daya untuk melakukan analisis, kapan dan di mana Anda melakukan analisis, serta konteks model AI tempat analisis dilakukan.
  3. Mulailah dengan faktor-faktor yang relevan dengan penggunaan yang Anda inginkan. Sesuaikan faktor demografi, sosiokultural, perilaku, dan morfologi yang paling memengaruhi kasus penggunaan yang Anda inginkan saat membuat grup minat, lalu perluas dari sana.
  4. Laporkan; jangan berkomentar. Perhatikan bahwa faktor dan asumsi yang memengaruhi analisis keadilan ada dalam konstruksi sosial yang spesifik secara historis dan kultural yang sulit diukur. Berhati-hatilah saat menambahkan komentar yang dapat membingungkan pembaca. Sebagai gantinya, berikan cara untuk mereproduksi analisis yang dapat membantu pembaca mengalibrasi hasil dalam konteks mereka sendiri.
  5. Rencanakan masa depan. Perhitungkan faktor tambahan yang mungkin muncul di masa mendatang dengan melihat representasi dalam set data Anda, menjaga nilai tetap konstan di berbagai skenario, atau menggabungkan analisis Anda dengan berbagai nilai faktor tambahan yang relevan dengan set data Anda.
  6. Berikan lebih banyak konteks untuk hasil yang tidak dapat direproduksi. Jika metrik tidak dapat direproduksi oleh pemangku kepentingan di hilir, berikan konteks yang cukup seputar analisis. Jika pembaca dapat menggunakan informasi ini untuk mempertimbangkan pro dan kontra set data, hal ini dapat membangun kepercayaan pada set data.

7. Selamat

Selamat! Anda memiliki beberapa cara untuk memberikan jawaban yang tepat di Kartu Data Anda. Sekarang Anda siap mengauditnya.