1. Tipologi pemangku kepentingan
Sebelum Anda memulai upaya transparansi dokumentasi set data dan membuat Kartu Data, Anda harus mengidentifikasi dan mengundang pemangku kepentingan dari seluruh siklus proses set data. Hal ini mempermudah pembuatan Kartu Data karena Anda akan dilengkapi dengan semua yang diperlukan untuk membuat pertimbangan yang lebih kuat saat membuat konten.
Untuk membantu Anda menjelajahi dan memahami cara pemangku kepentingan lintas fungsi berinteraksi dalam proses siklus proses set data, kami membuat tipologi yang memungkinkan Anda menemukan asumsi yang sering dibuat tentang setiap pemangku kepentingan. Tipologi kami dibagi menjadi tiga kelompok pemangku kepentingan yang terlibat dalam siklus proses set data: produsen, agen, dan pengguna.
Tipologi ini merepresentasikan kelanjutan kebutuhan dan ekspektasi yang terus berubah dari set data dan dokumentasinya. Tidak ada solusi yang cocok untuk semua orang.
Produser
Produsen adalah pembuat set data dan dokumentasi, serta bertanggung jawab atas pengumpulan, kepemilikan, peluncuran, dan pemeliharaan set data.
Pada intinya, Anda dapat menganggap produsen sebagai pihak yang bertanggung jawab atas produksi dan publikasi set data, serta peluncuran, penggunaan, dan/atau keberhasilan.
Produsen juga bisa berupa individu atau grup yang direkrut untuk mengumpulkan atau memberi label pada data, dan memberikan saran tentang metode atau interpretasi di berbagai titik selama siklus proses data.
Bergantung pada konteksnya, produsen juga dapat mewakili anggota tim, partner, klien, atau platform hosting data saat ini dan mendatang—semuanya bertanggung jawab atas pemeliharaan atau perawatan, deployment, dan pemantauan set data.
Agen
Agen adalah pemangku kepentingan yang membaca dokumentasi set data atau Kartu Data dan dokumentasi terkait model machine learning (ML) lainnya, serta memiliki kemampuan untuk menggunakan atau menentukan cara mereka atau orang lain dapat menggunakan set data atau sistem AI yang dijelaskan.
Bergantung pada domainnya, agen dapat memiliki peran operasional atau peninjau, seperti peneliti dalam lingkungan akademis yang ingin mengukur penggunaan set data yang tepat atau ilmuwan data dalam tim produk yang ingin menentukan kesesuaian keseluruhan set data yang terkait dengan integrasi produk.
Perbedaan ini penting karena peninjau mencakup pemangku kepentingan yang mungkin tidak pernah menggunakan set data secara langsung, tetapi tetap berinteraksi dengan Kartu Data, seperti konsultan industri, jurnalis investigasi, perwakilan komunitas, dan entitas hukum. Agen mungkin memiliki atau tidak memiliki keahlian teknis untuk memahami informasi yang disajikan dalam dokumentasi set data umum, tetapi sering kali memiliki akses ke keahlian sesuai kebutuhan.
Pengguna
Pengguna adalah individu dan perwakilan yang berinteraksi dengan produk yang mengandalkan model yang dilatih pada set data.
Pengguna mungkin memberikan izin untuk menyediakan data mereka sebagai bagian dari pengalaman produk, tetapi mereka biasanya memerlukan serangkaian penjelasan dan kontrol yang sangat berbeda yang didasarkan pada pengalaman produk, bahkan dalam hal set data.
Ringkasan
Tabel berikut meringkas kelompok pemangku kepentingan berdasarkan deskripsi, tanggung jawab, contoh, dan tugas umumnya:
Grup pemangku kepentingan | Deskripsi | Tanggung Jawab | Contoh | Tugas umum |
Produser | Membuat set data dan/atau dokumentasi. | Merancang, membuat, menguji kualitas, mendokumentasikan, meluncurkan, mengadopsi, memelihara, dan memperbarui set data. | Peneliti, data scientist dan analis, software engineer, serta manajer produk dan program | Penggunaan, pengungkapan, kesiapan untuk masa depan, keadilan dan keamanan, serta peningkatan kualitas set data |
Agen | Mengevaluasi dan menggunakan set data untuk pekerjaan, produk, organisasi, atau komunitas mereka. | Menggunakan Kartu Data, tetapi mungkin tidak berinteraksi dengan set data itu sendiri. | ML atau engineer produk, peneliti, vendor pihak ketiga, pakar materi, industri, konsultan, pakar kebijakan, penyedia layanan data, serta pimpinan atau manajemen | Mengelola kompleksitas, bertanggung jawab, membuat kompromi, men-deploy ke produksi, mengarsipkan |
Pengguna | Berinteraksi dengan produk, perangkat, dan aplikasi yang dibuat oleh agen yang menggunakan set data produsen. | Mungkin berkontribusi data mereka melalui produk, dan memberikan sinyal yang berguna bagi produsen dan agen. | Kontributor data, pengguna produk, dan perwakilan kelompok pengguna | Menggunakan produk, memahami data dan privasi, memberikan masukan, dan menyampaikan keluhan |
2. Memetakan pemangku kepentingan
Setelah Anda memahami beberapa tipologi kami, Anda dapat meninjau siklus proses set data untuk mengidentifikasi pemangku kepentingan melalui aktivitas pemetaan dasar ini. Saat Anda melakukan aktivitas, perhatikan siapa yang mungkin berinteraksi dengan set data atau dokumentasinya. Selain itu, pertimbangkan bagaimana pemangku kepentingan dapat berkontribusi pada Kartu Data.
Untuk memetakan pemangku kepentingan Anda, ikuti langkah-langkah berikut:
- Cantumkan produser yang akan membuat Kartu Data.
- Mencantumkan agen yang akan membaca dan menggunakan Kartu Data.
- Cantumkan pengguna yang akan menggunakan atau terpengaruh oleh set data yang dijelaskan dalam Kartu Data.
- Gunakan template berikut untuk membuat peta pemangku kepentingan Anda, peran mereka dalam pembuatan Kartu Data, dan tujuan Kartu Data mereka. Peta ini memberi Anda intuisi tentang kebutuhan hilir dokumentasi set data, dan kemampuan untuk menetapkan prioritas dan tanggung jawab di seluruh proses dokumentasi set data.
3. Perjalanan informasi agen (AIJ)
Setelah memetakan pemangku kepentingan, Anda dapat menentukan apa yang penting untuk disampaikan kepada agen—pemangku kepentingan utama Anda—dalam Kartu Data agar Anda dapat menyiapkan mereka untuk meraih kesuksesan.
Biasanya, pengalaman yang dimiliki seseorang saat berinteraksi dengan teknologi disebut perjalanan pengguna. Namun, kita berbicara tentang agen yang perlu mendapatkan informasi yang cukup tentang set data untuk membuat keputusan yang tepat, jadi kita menyebut pengalaman ini sebagai Perjalanan informasi agen (AIJ).
Tujuan AIJ adalah untuk memahami hal-hal berikut:
- Tugas yang mungkin memerlukan set data oleh agen.
- Informasi yang dibutuhkan agen untuk menyelesaikan tugasnya.
- Proses saat agen menyimpulkan informasi.
AIJ mencakup hal berikut:
Contoh
Misalnya, salah satu agen Anda adalah ilmuwan data. AIJ untuk data scientist dapat terlihat seperti berikut:
Sebagai ilmuwan data, saya ingin mengetahui struktur set data, jadi saya bertanya...
... apa format datanya?
... apa modalitas set data?
... berapa banyak fitur yang ada dalam set data?
... berapa banyak fitur yang direkayasa?
... fitur mana yang berkorelasi kuat?
... jika ada dependensi dalam struktur?
Berikut contoh lain untuk agen yang mungkin bekerja di kebijakan produk dan menetapkan pedoman terkait produksi dan pengembangan produk:
Sebagai asisten kebijakan, saya ingin mengetahui bagaimana data dapat disalahgunakan, jadi saya bertanya...
... apa tujuan penggunaan set data tersebut?
... aplikasi apa yang memicu pembuatan set data?
... apa saja aplikasi yang diketahui berbahaya atau berisiko dari set data ini?
... apa risiko bagi grup tertentu?
... bagaimana dampak penggunaan yang dimaksudkan dari set data ini terhadap konstituen?
... bagaimana cara meminta ganti rugi?
4. Menulis AIJ Anda
- Tulis beberapa AIJ berdasarkan perintah berikut:
- Perhatikan bagaimana Anda tidak hanya memikirkan pemangku kepentingan, tetapi juga beberapa pertanyaan awal yang menurut Anda ingin mereka ketahui jawabannya dari membaca Kartu Data Anda. Artinya, Anda selangkah lebih dekat dengan kumpulan akhir pertanyaan yang harus disertakan dalam Kartu Data.
5. Optik
Anda mungkin telah melihat penggunaan istilah perspektif, lensa, dan cakupan untuk menyusun AIJ. Meskipun istilah ini telah ditentukan sebelumnya, istilah ini sebenarnya merupakan bagian dari metafora panduan yang kami sebut optik. Kami membuatnya untuk membantu Anda memikirkan cara agen Anda dapat memahami set data Anda.
Cakupan
Dalam optik, cakupan menggunakan lensa dan cermin untuk melihat, mengamati, memperbesar, memantulkan, dan bahkan menguji materi. Dalam konteks set data, ini adalah metafora yang bagus karena Anda memfokuskan dan menyusun pertanyaan untuk mengungkap aspek yang jelas, tidak jelas, terlihat, dan tidak terlihat.
Kami menyebutnya sebagai cakupan, cara untuk mengajukan serangkaian pertanyaan secara berurutan untuk memahami set data. Dengan menumpuk cakupan dengan perincian yang berbeda, Anda dapat membuat konten yang membantu agen Anda memahami kumpulan data secara kohesif melalui laporan transparansi.
Tabel berikut berisi tiga jenis cakupan dalam framework kami, beserta deskripsi, contoh, dan tujuan masing-masing cakupan:
Cakupan | Deskripsi | Contoh | Tujuan |
Teleskopik | Pertanyaan tentang atribut yang umumnya ditemukan di beberapa set data. Mereka menandai karakteristik. | Apakah set data ini berisi Informasi Identitas Pribadi (PII)? | Perkenalkan dan tetapkan konteks untuk informasi tambahan yang membantu agen Anda menavigasi Kartu Data atau artefak transparansi Anda. |
Periskopik | Pertanyaan tentang atribut yang khusus untuk set data produsen. Mereka menjelaskan pengamatan. | Berapa banyak fitur yang berisi PII? | Umumnya disediakan untuk penyediaan informasi operasional, seperti bentuk dan ukuran set data, atau informasi fungsional, seperti sumber atau maksud. |
Mikroskopis | Pertanyaan tentang aspek tidak dapat diamati dari set data, seperti keputusan, proses, dan dampak. Mereka menuntut penjelasan. | Bagaimana PII dianonimkan dalam set data ini? | Mendapatkan penjelasan mendetail tentang keputusan atau meringkas dokumen proses yang lebih panjang yang mengatur respons terhadap pertanyaan periskopik dan teleskopik yang sesuai. |
Anda harus mempertimbangkan ketiga jenis cakupan ini selama proses pembuatan Kartu Data. Kartu Data yang hanya berisi teleskop hanya menjelaskan informasi yang jelas tentang set data Anda dan tidak menambahkan nilai yang berbeda. Kartu Data yang hanya berisi periskop dapat menjadi terlalu teknis tanpa detail tentang konteks, relevansi, atau kepentingannya. Kartu Data yang hanya berisi mikroskop dapat menyebabkan agen mudah tersesat dalam detail dan kehilangan gambaran besarnya.
Itulah sebabnya kami mendapati bahwa interpretasi Kartu Data sangat dipengaruhi oleh ada atau tidaknya tingkat cakupan ini. Pertanyaan ini memungkinkan agen dan produsen menilai risiko, merencanakan mitigasi, dan, jika relevan, mengidentifikasi peluang untuk pembuatan set data yang lebih baik. Bersama-sama, teleskop, periskop, dan mikroskop memberikan detail yang berguna sehingga banyak pemangku kepentingan dapat menjelajahi Kartu Data Anda tanpa merasa bingung dan tersesat.
Contoh
Di bagian Perjalanan informasi agen (AIJ), Anda melihat beberapa contoh AIJ, termasuk salah satunya untuk ilmuwan data. Jika Anda melihat contoh tersebut dengan cermat, Anda mungkin menemukan bahwa Anda dapat mengelompokkan beberapa pertanyaan tersebut berdasarkan cakupan, termasuk pertanyaan berikut:
Sebagai ilmuwan data, saya ingin mengetahui struktur set data, jadi saya bertanya...
Teleskopik
... apa format datanya?
... apa modalitas set data?
Periskopik
... berapa banyak fitur yang ada dalam set data?
... berapa banyak fitur yang direkayasa?
Mikroskopis
... fitur mana yang berkorelasi kuat?
... jika ada dependensi dalam struktur?
Kemungkinan besar Anda sudah memikirkan beberapa pertanyaan teleskopik, periskopik, dan mikroskopik dengan mempertimbangkan agen Anda.
6. Menyusun ulang AIJ dengan cakupan
- Untuk menyusun ulang AIJ dengan cakupan, gunakan perintah contoh berikut:
7. Selamat
Selamat! Anda mulai membuat Kartu Data. Sekarang Anda siap mengevaluasi pertanyaan Anda.