Moduł 3. Odpowiedź

1. Określanie najważniejszych informacji

Wybrano zestaw pytań, które mają się znaleźć na karcie danych, ponieważ uważasz, że są one ważne dla czytelników. Nie wystarczy jednak odpowiedzieć na te pytania i nazwać to kartą danych. Aby mieć pewność, że ostateczna karta danych jest zoptymalizowana pod kątem wygody czytelnika, musisz dokładnie przemyśleć jej zawartość.

Gdy użytkownicy czytają karty danych, chcą podejmować bardzo konkretne decyzje, np.:

  • Czy ten zbiór danych jest odpowiedni do mojego przypadku użycia?
  • Czy mogę udostępniać ten zbiór danych innym osobom?
  • Jak mogę bezpiecznie korzystać z tego zbioru danych, nie zwiększając ryzyka związanego z moimi modelami?

Jeśli czytelnicy mają łatwy dostęp do odpowiednich informacji, potrafią podejmować decyzje dotyczące zbiorów danych w odpowiednim kontekście. Znaczenie lub przydatność informacji zależy od rodzaju decyzji, którą musi podjąć czytelnik, oraz od jego doświadczenia. Na przykład, gdy pracownik ds. zgodności z przepisami decyduje, czy użyć zbioru danych, może sprawdzić powiązane z nim licencje, a inżynier może sprawdzić stos technologiczny. Obie osoby zadają te same pytania, ale oczekują różnych odpowiedzi.

Karty danych powinny zawierać wyczerpujący opis zbioru danych, aby czytelnicy mogli podejmować decyzje z pewnością. Te obszerne opisy pomogą Ci zdecydować, co chcesz przekazać czytelnikom za pomocą karty danych, oraz określić, jakie dokładne, rzetelne i uporządkowane informacje należy w niej udokumentować. Oczywiście problem polega na tym, że nie można określić wszystkich możliwych decyzji, które muszą podjąć czytelnicy Twojej karty danych.

2. Zaplanuj kartę danych

  • Aby określić, jakie decyzje muszą podejmować osoby czytające kartę danych i jak szczegółowa powinna być ta karta, odpowiedz na pytanie w przypadku każdej kategorii w tabeli poniżej:

Czytniki

Decyzje

Cele

Trafność

Nuance

Kim są główni odbiorcy?

Jakie decyzje podejmą w sprawie zbioru danych?

Czego oczekują od karty danych?

Jakie konkretne treści z karty danych są potrzebne, aby osiągnąć cele?

Jak szczegółowe lub zniuansowane muszą być Twoje treści, biorąc pod uwagę, co wiesz o czytelniku?

Przykład: inżynierowie oprogramowania produkcyjnego

Przykład: czy mogę użyć zbioru danych do testowania modelu uczenia maszynowego, który jest w produkcji?

Przykład: Przygotuj podsumowanie zbioru danych. Opisz, jak to jest wdrożone.

Przykład: zamierzone i nieodpowiednie zastosowania, wcześniejsze użycie i wyniki w przypadku poprzednich modeli.

Przykład: Bardzo subtelne. Nacisk na zastosowanie techniczne i użyteczność na potrzeby integracji z systemami produkcyjnymi.

Możesz użyć tabeli, aby ocenić kartę danych i upewnić się, że jest ona przydatna dla czytelników, którzy są dla Ciebie najważniejsi. Istnieje wiele sposobów oceny karty danych. Jednym z nich jest określenie stopnia trudności korzystania z niej.

Dokładne definicje mogą się różnić, ale poniższa skala ważności określa, jak bardzo coś jest uszkodzone i jaki jest wpływ problemu, bez względu na priorytetyzację. W tym kontekście odnosimy się do użyteczności karty danych, która, jeśli nie zostanie poprawiona, może wpłynąć na zaufanie czytelnika do karty danych i jej przydatność.

  • Aby ocenić, jak przydatny jest stan karty danych dla każdej grupy odbiorców w tabeli, odpowiedz na pytania, korzystając z tej skali ważności:

Naruszenie

Waga

Rozwiąż

Jakie odpowiedzi nie są przydatne dla czytelnika?

Jak pilnie należy rozwiązać ten problem w skali od 1 do 5? (Zaznacz odpowiednie pole wyboru):

  • ☐ 1 = Katastrofalny. Rozwiąż ten problem przed opublikowaniem karty danych.
  • ☐ 2 = Poważny problem. Ważne do naprawienia i traktowane priorytetowo.
  • ☐ 3 = Drobny problem. mają niski priorytet,
  • ☐ 4 = Tylko problem kosmetyczny. Jeśli masz czas, napraw problem.
  • ☐ 5 = To nie jest problem.

Jakie jest rozwiązanie?

3. Dążenie do osiągnięcia wystarczającego poziomu

Zwykle po utworzeniu pierwszej karty danych zdarza się jedna z tych 2 rzeczy:

  • Zbyt duża ilość informacji przytłacza czytelników.
  • Zbyt mała ilość informacji wprowadza czytelników w błąd.

Jako twórca karty danych musisz wybierać i ustalać priorytety informacji, które się na niej znajdują. Dobry artefakt przejrzystości zapewnia czytelnikom wystarczający kontekst, aby mogli go zrozumieć. Jeśli nie, podpowie, co zrobić dalej.

Chcesz podać informacje, które ułatwią zrozumienie i korzystanie ze zbioru danych. Czasami złożoność zbioru danych wzrasta, co wpływa na gęstość informacji i wyjaśnień, które musisz podsumować na karcie danych.

Niezależnie od poziomu wiedzy czytelników każdy może doświadczyć przeciążenia informacjami, dlatego ważne jest, aby przedstawiać prawidłowe informacje, które obejmują:

  • Rodzaj informacji, które należy podać.
  • ile informacji możesz zaoferować.
  • szczegóły w nim zawarte,

Odpowiedzi powinny zawierać podsumowanie wszystkich informacji bez szczegółowego opisywania wszystkiego. Muszą też odzwierciedlać kontekst potrzebny czytelnikom do uzyskania wglądu w zbiór danych.

Heurystyka

Utworzyliśmy zestaw heurystyk, których możesz użyć do oceny ogólnego wrażenia z czytania karty danych. Te heurystyki traktujemy jako cele, które muszą być spełnione przez karty danych, aby były skuteczne i odpowiednio wdrażane w praktyce na dużą skalę. W tabeli poniżej znajdziesz te cele i ich opisy:

Cel

Opis

Spójność

Karty danych muszą być porównywalne ze sobą niezależnie od rodzaju danych czy domeny, aby można było łatwo interpretować i weryfikować twierdzenia w kontekście ich użycia. Wdrażanie jednorazowych kart danych jest stosunkowo łatwe, ale zespoły i organizacje muszą zachować porównywalność, gdy zwiększają skalę wdrożenia.

Obszerne

Karta danych nie powinna być tworzona jako ostatni etap cyklu życia zbioru danych, ale powinna być łatwa do utworzenia równolegle ze zbiorem danych. Ponadto odpowiedzialność za wypełnianie pól w karcie danych powinna być rozdzielona i przypisana do najbardziej odpowiednich osób. Wymaga to standardowych metod, które wykraczają poza kartę danych i mają zastosowanie do różnych raportów generowanych w cyklu życia zbioru danych.

zrozumiałe i zwięzłe;

Odbiorcy mają różny poziom wiedzy, co wpływa na ich interpretację karty danych. W sytuacjach, w których poziom wiedzy zainteresowanych stron jest różny, osoby z najlepszym modelem mentalnym zbioru danych stają się de facto osobami podejmującymi decyzje. W przypadku zadań pilniejszych lub trudniejszych może się zmniejszyć udział w podejmowaniu decyzji osób, które nie są tradycyjnymi interesariuszami. Decyzje te są pozostawiane „ekspertom”. Może to spowodować pominięcie kluczowych perspektyw odzwierciedlających potrzeby podmiotów z dalszych etapów łańcucha wartości i podmiotów powiązanych. Karta danych powinna skutecznie przekazywać informacje czytelnikowi o najniższych kompetencjach, a czytelnikom o większych kompetencjach umożliwiać znajdowanie dodatkowych informacji w razie potrzeby. Treści i projekt powinny ułatwiać czytelnikowi proces rozważania, nie przytłaczając go, oraz zachęcać zainteresowane strony do współpracy w celu stworzenia wspólnego modelu mentalnego zbioru danych na potrzeby podejmowania decyzji.

4. Ocena heurystyk

  • Aby sprawdzić odpowiedzi na pytania dotyczące karty danych, skorzystaj z tej karty wyników, którą utworzyliśmy, aby ocenić każdą heurystykę. Na koniec możesz zsumować ogólny wynik karty danych, co pomoże Ci śledzić postępy. Możesz też dodawać komentarze, aby uwzględnić dodatkowy kontekst i działania potrzebne do ulepszenia każdej heurystyki.

Heurystyka

Kryteria

komentarzami.

Wynik

Oceń samodzielnie wypełnioną kartę danych na podstawie tych heurystyk.

Kryteria heurystyki

Zwróć szczególną uwagę na obszary, w których można ulepszyć kartę danych.

Tylko liczby, ocena własna (0–10)

Zrozumiały
 Projekt i treść dokumentu dotyczącego przejrzystości są skuteczne, trafne i łatwe do zrozumienia dla większości agentów, zarówno tych doświadczonych, jak i początkujących.

  • Skuteczność: większość agentów może uzyskać odpowiednie odpowiedzi na rozsądne pytania dotyczące zbioru danych lub modelu.
  • Trafność: wyjaśnienia, wizualizacje i wyniki analiz są trafne i przydatne dla większości agentów.
  • Zrozumiałe: informacje są łatwe do zrozumienia zarówno dla doświadczonych, jak i mniej doświadczonych agentów.

.

.

Kompleksowa
Karta danych ułatwia czytelnikom zrozumienie, czego dotyczy zbiór danych lub model, jak powstał i co warto wiedzieć przed jego użyciem.

  • Celowe: informacje, które określają kontekst zbioru danych i są przydatne dla wszystkich zainteresowanych stron, są czytelne.
  • Kompletne: informacje są spójne i kompletne, odpowiednio opisują wszystkie etapy cyklu życia zbioru danych.
  • Szczegółowe: podsumowania są czytelne dla ogółu odbiorców i zawierają linki do dodatkowych informacji dla bardziej zaawansowanych czytelników.

.

.

Spójność
 Karta danych jest zgodna z konwencjami platformy i branży oraz zachowuje spójność w ramach samej siebie i innych podobnych kart przejrzystości.

  • Rozpoznawalność: sekcje są uporządkowane w logiczny sposób, dzięki czemu czytelnicy mogą łatwo znaleźć potrzebne informacje.
  • Ujednolicone: używa standardowych terminów branżowych i w razie potrzeby opisuje odchylenia lub dostosowania.
  • Jasne: ten sam termin oznacza to samo pojęcie za każdym razem, gdy jest używany.

.

.

Zwięzłość
 Projekt i treść karty ograniczają obszerne i złożone informacje do istotnych, łatwych do przyswojenia fragmentów o względnym znaczeniu, które zaspokajają potrzeby zarówno początkujących, jak i doświadczonych czytelników.

  • Łatwe do zrozumienia: względne znaczenie i waga słów kluczowych, par klucz-wartość i podsumowań wizualnych są łatwe do zrozumienia.
  • Łatwość przeglądania: czytelnik od razu wie, czy i jak może wykorzystać zbiór danych do osiągnięcia swoich celów.
  • Kontekstowe: wiedza i kontekst są streszczane lub abstrahowane, aby umożliwić zrozumienie bez utraty charakteru i niuansów zbioru danych.

.

.

Łączny wynik = (Suma punktów/120)

.

.

/120

5. Przemyślana analiza

Wiemy, że dane to informacje o osobach, kulturach lub firmach, które zostały zebrane w uporządkowany sposób w określonym celu. Jak jednak wielokrotnie wspominaliśmy, wszystkie te kwestie są złożone i powiązane ze sobą w różnym stopniu. Dzięki temu analiza przeprowadzana na zbiorze danych pozwala poznać sposób myślenia, który doprowadził do jego powstania, co pomaga zrozumieć jego zawiłości.

Na przykład analiza przekrojowa danych o ludziach może badać kombinacje czynników ludzkich w zbiorze danych, aby wykrywać potencjalne nieproporcjonalne wyniki, np. gdy model wytrenowany na zbiorze danych działa lepiej w przypadku jednej podgrupy niż innych. Analiza rozdzielona dzieli zbiór danych na podstawie różnych czynników, aby ujawnić ważne wzorce dla podgrup lub zmarginalizowanych populacji, które są zwykle maskowane przez większe, zagregowane dane, dzięki czemu czytelnicy mogą przewidywać wyniki.

Uważamy, że intersekcjonalność i analizy z podziałem na grupy (IDA) to skuteczne sposoby na przedstawienie w karcie danych szeregu prawdopodobnych wyników w różnych okolicznościach poprzez ustalenie jasnych relacji w zbiorze danych. IDA może dostarczać czytelnikom istotnych wskazówek dotyczących reprezentacji w zbiorze danych, np. jak etykiety są powiązane z podmiotami wrażliwymi, jakie są luki w zbiorze danych, np. że zawiera on tylko zdjęcia zrobione w ciągu dnia, oraz jakie są relacje między zmiennymi, które mogą powodować, że modele AI uczą się fałszywych korelacji lub wybierają zmienne zastępcze. Analizy te stają się jeszcze bardziej przydatne, gdy są przeprowadzane w rzeczywistych warunkach, które odzwierciedlają doświadczenia użytkowników, na których mogły mieć wpływ produkty lub usługi korzystające z Twojego zbioru danych.

Na przykład prezentacja wyników IDA na karcie danych pomaga czytelnikom proaktywnie budować intuicję dotyczącą tego, jak model ML działa na podzbiorach – zwanych też wycinkami – w zbiorze danych. Wymaga to od twórców zbiorów danych większej staranności w analizowaniu zbioru danych i jego prezentowaniu w karcie danych, ale ostatecznie może przynieść lepsze wyniki dla zainteresowanych stron.

IDA może pomóc czytelnikom lepiej zrozumieć, jak używać Twojego zbioru danych w modelach. Jeśli masz problemy, poproś o pomoc ekspertów, zespoły ds. produktów i osoby, które mają doświadczenie w danej kwestii. IDA często opiera się na kontekstach, które wymagają wyjaśnienia lub dodatkowego wsparcia, aby czytelnicy mogli je odpowiednio zinterpretować.

6. Analizowanie danych

Aby przeanalizować zbiór danych, wykonaj te czynności:

  1. Zanim rozpoczniesz analizę, zapoznaj się z danymi. Wykorzystaj narzędzie takie jak TensorFlow Data Validation (TFDV) lub Learning Interpretability Tool (LIT), aby poznać odchylenia i nierównowagi w zbiorze danych. Wykorzystaj wyniki do zaprojektowania analizy.
  2. Starannie zaplanuj analizę. Wyniki analizy są w dużym stopniu uzależnione od celów oceny, dostępu do wiedzy specjalistycznej i zasobów potrzebnych do przeprowadzenia analizy, czasu i miejsca jej przeprowadzenia oraz kontekstu modeli AI, w których jest ona przeprowadzana.
  3. Zacznij od czynników istotnych z punktu widzenia zamierzonego zastosowania. Tworząc grupy zainteresowań, uwzględniaj czynniki demograficzne, społeczno-kulturowe, behawioralne i morfologiczne, które mogą mieć największy wpływ na zamierzone przypadki użycia, a następnie rozszerzaj te grupy.
  4. Zgłaszaj, nie komentuj. Pamiętaj, że czynniki i założenia, które wpływają na analizy sprawiedliwości, występują w konstruktach społecznych, które są specyficzne pod względem historycznym i kulturowym i trudno je zmierzyć. Uważaj, aby nie dodawać komentarzy, które mogą wprowadzić czytelnika w błąd. Zamiast tego podaj sposoby odtworzenia analiz, które pomogą czytelnikom dostosować wyniki do własnego kontekstu.
  5. Zaplanuj przyszłość. Uwzględnij dodatkowe czynniki, które mogą pojawić się w przyszłości, analizując ich reprezentację w zbiorze danych, utrzymując stałe wartości w różnych scenariuszach lub łącząc analizę z zakresem wartości dodatkowych czynników istotnych dla zbioru danych.
  6. Podaj więcej informacji o wynikach, których nie można odtworzyć. Jeśli dane nie mogą być odtworzone przez zainteresowane strony, podaj wystarczający kontekst analizy. Jeśli czytelnik może wykorzystać te informacje do rozważenia zalet i wad zbioru danych, może to zwiększyć zaufanie do niego.

7. Gratulacje

Gratulacje! Na karcie danych możesz podać prawidłowe odpowiedzi na kilka sposobów. Teraz możesz je sprawdzić.