Moduł 2. Sprawdzanie

1. Pozyskiwanie wiedzy

Tematy pojawiają się naturalnie podczas eksplorowania typologii zainteresowanych stron, określania ich unikalnych potrzeb informacyjnych i stosowania różnych poziomów szczegółowości w formułowaniu pytań. Aby pomóc Ci uporządkować i ustrukturyzować tematy pytań, stworzyliśmy ramy zdobywania wiedzy, które zapewniają solidne, przemyślane i powtarzalne podejście do tworzenia dokumentacji dotyczącej przejrzystości.

Pozyskiwanie wiedzy to wyodrębnianie, strukturyzowanie i organizowanie wiedzy z jednego źródła – zwykle od ekspertów – tak aby można było jej używać np. w produkcie lub technologii, nad którymi pracujesz.

Nasze ramy to OFTEn, czyli narzędzie koncepcyjne do systematycznego rozważania, jak tematy rozprzestrzeniają się we wszystkich częściach karty danych. Stworzyliśmy ją na podstawie szczegółowych badań przejrzystości zbiorów danych metodą indukcyjną i dedukcyjną.

OFTEn

OFTEn to skrót od ogólnych etapów cyklu życia zbioru danych: Origins (Pochodzenie), Factuals (Fakty), Transformations (Przekształcenia), Experience (Doświadczenie) i n = 1 (Próbki).

Origins

Etap początkowy obejmuje różne działania planistyczne, które decydują o ostatecznym wyniku, takie jak określenie wymagań, metody zbierania lub pozyskiwania danych oraz decyzje dotyczące projektu i zasad.

Tematy, które pojawiają się w pytaniach dotyczących pochodzenia, to:

  • Autorzy i właściciele
  • Powody
  • Przeznaczenie
  • Metody zbierania danych
  • Licencje
  • Wersje
  • Źródła
  • Errata
  • Podmioty odpowiedzialne

Factuals

Etap Factuals (Fakty) obejmuje statystyczne i inne atrybuty opisujące zbiór danych, odchylenia od pierwotnego planu oraz wszelkie analizy przed przekształceniem danych.

Tematy, które pojawiają się w pytaniach opartych na faktach, to:

  • Liczba instancji
  • Liczba funkcji
  • Liczba etykiet
  • Źródło etykiet
  • Źródło danych
  • Podział na podgrupy
  • Kształt funkcji
  • Opis funkcji
  • Brakujące lub zduplikowane
  • Kryterium uwzględnienia

Przekształcenia

Etap Transformacje zawiera podsumowania zadań oznaczania etykietami, dodawania adnotacji lub weryfikacji. W zależności od zbioru danych mogą tu wystąpić procesy rozstrzygania sporów między oceniającymi. Za przekształcenia uznaje się też inżynierię cech i modyfikacje wprowadzone w celu zapewnienia prywatności, bezpieczeństwa lub ochrony informacji umożliwiających identyfikację.

Tematy, które obejmują pytania dotyczące transformacji, to:

  • Ocena lub adnotacja
  • Filtrowanie
  • Przetwarzam
  • Weryfikacja
  • Właściwości statystyczne
  • Cechy syntetyczne
  • Postępowanie z informacjami umożliwiającymi identyfikację
  • Zmienne wrażliwe
  • Wpływ na sprawiedliwość
  • Przekłamania lub odchylenia

Doświadczenie

Etap eksperymentowania obejmuje wykorzystanie danych do konkretnych zadań, przejście szkolenia dotyczącego dostępu, wprowadzenie zmian dostosowanych do zadania, uzyskanie wyników i porównanie ich z innymi podobnymi zbiorami danych oraz odnotowanie wszelkich oczekiwanych i nieoczekiwanych zachowań.

Tematy, które ilustrują pytania dotyczące doświadczeń, to m.in.:

  • Zamierzona wydajność
  • Niezamierzona aplikacja
  • Nieoczekiwane działanie
  • Zastrzeżenia
  • Statystyki
  • Atrakcje
  • Relacje
  • Użyj
  • Ocena przypadków użycia

n = 1 (próbki)

Etap n = 1 (próbki) obejmuje szczegółowe informacje o punktach danych dotyczących rozkładu, prezentację istotnych punktów danych z określonymi atrybutami oraz, w stosownych przypadkach, modelowanie wyników na ich podstawie.

Przykładowe pytania dotyczą m.in. tych tematów:

  • Przykłady lub linki do typowych przykładów i wartości odstających.
  • Przykłady, które dają fałszywie pozytywne lub fałszywie negatywne wyniki.
  • Przykłady pokazujące obsługę wartości cech null lub zero.

Przykład

Na przykład ten zestaw pytań został ułożony za pomocą OFTEn:

Kto

Co

Kiedy

Gdzie

Dlaczego

Jak

Źródła

Kto publikuje zbiór danych? Czy różnią się od właścicieli zbiorów danych?

Jakie są zachęty dla osób oznaczających dane, dostawców i ekspertów zatrudnionych do tworzenia tego zbioru danych?

Kiedy utworzono ten zbiór danych? Uruchomiono?

Skąd pochodziły środki?

Dlaczego utworzono ten zbiór danych? Jak wyglądał poprzedni proces?

Jakie metody zostały wybrane i ile stron brało udział w procesie?

Factuals

Kogo dotyczą dane? Czy osoby oznaczające etykietami reprezentują osoby, których dane są wykorzystywane?

Jakie podgrupy w danych mogą wpływać na wyniki uczenia maszynowego?

Jakiego okresu dotyczą dane? Gdy dane wygasną lub będą działać nieprawidłowo.

Gdzie można uzyskać dostęp do zbioru danych? Gdzie dane zostały zebrane lub utworzone?

Dlaczego wybrano te dane? Dlaczego wybrano te konkretne etykiety?

Ile unikalnych etykiet znajduje się w zbiorze danych? Jak zostały wygenerowane?

Transformacje

Jak w tym zbiorze danych traktowane są informacje umożliwiające identyfikację? Czy wyniki z tego zbioru danych mogą być używane do identyfikowania osób?

Jakie metody zostały użyte do oczyszczenia lub zweryfikowania tego zbioru danych?

Kiedy i jak należy tworzyć funkcje? Czy te informacje wymagają aktualizacji?

Czy funkcje lokalizacji są powiązane z innymi funkcjami związanymi z informacjami wrażliwymi?

Dlaczego wybrane przekształcenia zostały zastosowane do zbioru danych?

Jak w danych traktowane są odchylenia lub informacje umożliwiające identyfikację?

Doświadczenie

Kto może korzystać z tego zbioru danych i do jakich zadań? Czy wymagane są jakieś szkolenia?

Jakie metody, wyniki lub błędy zostały odkryte podczas korzystania ze zbioru danych?

W jakich okolicznościach i kiedy nie należy używać tego zbioru danych?

Gdzie na świecie jest dostępny ten zbiór danych? Gdzie jest używana?

Dlaczego oczekiwana reprezentacja zbioru danych różni się od obserwowanej?

Ile kosztują dane w różnych częściach świata?

n = 1 (próbki)

Czy punkt danych jest typowy czy nietypowy? Jak zachowują się modele w tym przypadku?

Jaki jest rozmiar punktu danych? Jak wygląda proces uzyskiwania zgody, redagowania i wycofywania danych, aby interweniować w przypadku punktu danych?

Kiedy zmienia się wynik dotyczący punktu danych? Czy przykłady powinny być przedstawiane za pomocą kontrfaktycznych wyjaśnień?

Jakie czynniki są uwzględniane w punkcie danych? Jakie ryzyko wiąże się z nieprawidłowymi prognozami?

Dlaczego ten punkt danych obrazu jest przycięty w określony sposób? Dlaczego w tym punkcie danych nie ma niektórych kategorii?

Jak ten punkt danych odnosi się do danych wejściowych w rzeczywistym świecie? Jak wynik odnosi się do danych wyjściowych w rzeczywistym świecie?

Odkryliśmy, że karty danych o wyraźnej strukturze OFTEn można łatwo rozbudowywać i aktualizować. Dzięki OFTEn karty danych mogą z czasem obejmować tematy, które są zwykle wykluczane z dokumentacji, takie jak opinie od agentów niższego szczebla, istotne różnice między wersjami oraz doraźne audyty lub dochodzenia prowadzone przez producentów lub agentów.

Podsumowanie

W tabeli poniżej podsumowaliśmy ramy OFTEn i opisaliśmy ogólne etapy cyklu życia zbioru danych:

Etap

Opis

Źródła

Wczesne etapy cyklu życia zbioru danych, gdy podejmowane są decyzje o jego utworzeniu.

Factuals

Rzeczywiste procesy zbierania danych i surowe dane wyjściowe.

Transformacje

Dane surowe są przekształcane w użyteczną formę za pomocą operacji takich jak filtrowanie, weryfikacja, analizowanie, formatowanie i czyszczenie.

Doświadczenie

Zbiór danych jest testowany, oceniany lub wdrażany w praktyce (w ramach eksperymentu, w wersji produkcyjnej lub w celach badawczych).

n = 1 (próbki)

Rzeczywiste próbki ze zbioru danych (lub winiety) reprezentujące normalne punkty danych i wartości odstające.

Podczas tworzenia karty danych możesz używać wskaźnika OFTEn na 2 sposoby:

  • OFTEn wspiera działania z agentami, aby formułować pytania dotyczące zbiorów danych i powiązanych modeli, które są kluczowe w procesie podejmowania decyzji. Okazuje się, że gdy wielu agentów wspólnie opracowuje pytania oparte na strukturze OFTEn, ujawniają się informacje niezbędne do podejmowania ukierunkowanych decyzji.
  • Metoda OFTEn może być używana do oceny, czy karta danych dokładnie przedstawia zbiór danych, co ma wpływ na dokumentację i zbiór danych. Na przykład zbiory danych na wczesnym etapie są bardziej ukierunkowane na treści oryginalne i rzeczowe, a zbiory danych na późniejszym etapie powinny być bardziej ukierunkowane na treści związane z doświadczeniami.

Dzięki OFTEn możesz przeprowadzać burzę mózgów i sprawdzać, czy Twoje pytania obejmują cały cykl życia zbioru danych. Dzięki temu Twoje treści będą kompleksowe i uporządkowane. Pomaga nie tylko wykrywać nadmiarowość w rodzajach tworzonych pytań, ale też wypełniać wszelkie luki, które możesz napotkać.

2. Formułuj pytania za pomocą akronimu OFTEn

  1. Zastanów się nad niektórymi ścieżkami informacji o interesariuszach i agentach (AIJ), które zostały opracowane w poprzednim module, a następnie skorzystaj z tych promptów, aby uporządkować swoje przemyślenia.

9bd35227601ae104.png

  1. Jeśli niektóre z Twoich pytań pasują do jednej z kategorii OFTEn, oznacz je odpowiednio.
  2. Jeśli Twoje pytania nie pasują do żadnej z kategorii OFTEn, wybierz jednego z agentów z poprzedniego modułu, a następnie utwórz dla niego co najmniej 1 pytanie w każdej kategorii OFTEn.
  3. Utwórz dodatkowe pytania na podstawie 5 W (kto, co, gdzie, kiedy i dlaczego) i 1 H (jak), aby zwiększyć zakres kategorii OFTEn.
  4. W razie potrzeby powtórz te czynności w przypadku kolejnego agenta.

3. Wymiary

Teraz, gdy rozumiesz OFTEn i masz już pytania, które chcesz umieścić na karcie danych, możesz odkryć statystyki dotyczące tych pytań, przeprowadzając pierwszą analizę karty danych. Wprowadzamy w tym celu wymiary, czyli ogólne opisy różnych rodzajów ocen, jakich dokonują czytelnicy. Dostarczają one wskazówek dotyczących przydatności i czytelności karty danych. Innymi słowy, czy karta danych może pomóc czytelnikom w wyciągnięciu przemyślanych wniosków na temat Twojego zbioru danych?

Accountable

Karta danych, za którą ktoś odpowiada, jest własnością osób, które wykazują odpowiednie zaangażowanie, refleksję, rozumowanie i systematyczne podejmowanie decyzji dotyczących zbioru danych i jego wykorzystania, i jest przez nie utrzymywana.

Przykładowe obszary

Przykładowe pytania

Autorstwo, odpowiedzialność, utrzymanie, intencje

Jako [perspektywa] chcę wiedzieć...

...o wydawcach zbioru danych.

...o ograniczeniach dostępu i zasadach dotyczących zbioru danych.

...o wyjaśnieniach i motywach utworzenia zbioru danych.

Użyteczność

Przydatna karta danych zawiera szczegóły, które zaspokajają potrzeby informacyjne czytelników, co prowadzi do odpowiedzialnego procesu podejmowania decyzji, który określa przydatność zbioru danych do ich zadań i celów.

Przykładowe obszary

Przykładowe pytania

Potrzeby producenta,potrzeby agenta, potrzeby użytkownika, potrzeby społeczne

Jako [perspektywa] chcę poznać...

...definicje i wyjaśnienia terminów technicznych używanych w dokumentacji (dane, wyniki, terminy branżowe, akronimy).

...oczekiwania dotyczące używania zbioru danych z innymi zbiorami danych lub tabelami (inżynieria cech, łączenie, próbkowanie i analiza porównawcza).

...przeznaczenie zbioru danych.

Jakość

Wysokiej jakości karta danych podsumowuje rzetelność, integralność i kompletność zbioru danych, często w sposób przystępny i zrozumiały dla czytelników o różnym pochodzeniu.

Przykładowe obszary

Przykładowe pytania

Ważność,wiarygodność, integralność, powtarzalność

Jako [perspektywa] chcę wiedzieć…

…czy w zbiorze danych występują znane wzorce (korelacje, odchylenia lub przekrzywienia).

…jakie procesy weryfikacji zbioru danych zostały zastosowane, jakie są ich wyjaśnienia i wyniki.

…jakie środki ochrony prywatności i bezpieczeństwa zostały zastosowane w zbiorze danych.

Wpływ lub konsekwencje korzystania

Karta danych, która w odpowiedni sposób opisuje wpływ korzystania ze zbioru danych, określa oczekiwania dotyczące wyników używania zbioru danych i zarządzania nim oraz uwzględnia wszelkie konsekwencje pierwszego lub drugiego rzędu, które mogą negatywnie wpłynąć na cele czytelników.

Przykładowe obszary

Przykładowe pytania

Skuteczność, trafność, korzyści dla grupy,konsekwencje odchyleń

Jako [perspektywa] chcę wiedzieć…

…jakie było dotychczasowe wykorzystanie zbioru danych i jakie były związane z nim wyniki (np. wytrenowane modele).

…jakie zasady są powiązane ze zbiorem danych (np. licencjonowanie).

…czy w zbiorze danych występują jakieś znane wzorce (korelacje, odchylenia lub przekrzywienia).

Ryzyko i rekomendacje

Karta danych, która zawiera dobre rekomendacje, uświadamia czytelnikom znane i potencjalne zagrożenia oraz ograniczenia wynikające z pochodzenia, reprezentacji, wykorzystania lub kontekstu użycia danych, a także dostarcza wystarczających informacji i alternatyw, aby pomóc czytelnikom w odpowiedzialnym podejmowaniu decyzji.

Przykładowe obszary

Przykładowe pytania

Wielkość ryzyka, środki zaradcze, rekomendacje, szkody dla grup

Jako [perspektywa] chcę wiedzieć…

…jakie jest bezpieczeństwo (ryzyko, ograniczenia i kompromisy) korzystania z zbioru danych.

…jakie jest przedstawienie osób w zbiorze danych pod względem społeczno-kulturowym, geograficznym lub ekonomicznym.

…czy w zbiorze danych lub jego dokumentacji brakuje atrybutów.

Podsumowanie

Dzięki wymiarom możesz ocenić zestaw pytań, aby upewnić się, że są one zgodne z Twoimi celami i pożądanymi wynikami. Nawet jeśli nie masz jeszcze odpowiedzi na pytanie w karcie danych, warto wychwycić błędy, zanim zagłębisz się w proces dokumentowania zbioru danych.

W tabeli poniżej znajdziesz podsumowanie 5 wymiarów:

Etap

Opis

Odpowiedzialność

Oświadczenia, które odzwierciedlają przemyślane, rozsądne i systematyczne decyzje różnych zainteresowanych stron dotyczące zaufania do zbioru danych.

Wzór użytkowy

Zawiera szczegółowe informacje, które zaspokajają potrzeby czytelników w zakresie odpowiedzialnego podejmowania decyzji, oraz określa przydatność przypadków użycia w odniesieniu do ich celów.

Jakość

Podsumowuje rzetelność, integralność i kompletność zbioru danych w sposób zrozumiały dla wielu czytelników.

Wpływ i konsekwencje

Informacje, które pomagają czytelnikom osiągnąć pożądane rezultaty podczas korzystania z zbioru danych i zarządzania nim, oraz informacje o konsekwencjach, które mogą negatywnie wpłynąć na ich cele.

Zagrożenia i rekomendacje

Informuje czytelników o znanych i potencjalnych zagrożeniach związanych ze zbiorem danych, które wynikają z jego reprezentacji, wykorzystania lub kontekstu użycia.

Dzięki tym różnym typom wymiarów możesz uzyskać statystyki dotyczące jakości, czytelności i użyteczności karty danych jeszcze przed jej wypełnieniem. Pomagają one określić działania, które przyczyniają się do stworzenia bardziej niezawodnego i dopracowanego szablonu karty danych.

4. Ocena pytań za pomocą wymiarów

  1. Zacznij od jednego wymiaru, a potem określ, jak duża jest potrzebna biegłość i wiedza, aby na podstawie złożoności zestawu pytań wyciągnąć wnioski.
  2. Podaj uzasadnienie, dlaczego ten wymiar jest obecnie dobrze obsługiwany przez Twój zestaw pytań.
  3. Przedstaw dowody potwierdzające Twoje uzasadnienie, podając 1–2 przykładowe pytania z Twojego zestawu.
  4. Jeśli wymiar wydaje się nieodpowiedni, zanotuj czynności, które należy wykonać, aby go ulepszyć lub wyeliminować jego wady. Jeśli pracujesz z zespołem interesariuszy, przypisz im odpowiednie obowiązki, aby niektórzy z nich mogli lepiej odpowiadać na określone pytania.
  5. Powtórz te czynności w przypadku kolejnego wymiaru.

Oto przykładowy szablon, którego możesz użyć do oceny wymiarów:

3f33557b62abe5ce.png

Proces oceny może potrwać od 15 minut do godziny, w zależności od liczby utworzonych pytań i różnorodności zainteresowanych stron, które musisz uwzględnić na karcie danych.

5. Gratulacje

Gratulacje! Możesz sprawdzić pytania utworzone na potrzeby karty danych. Teraz możesz na nie odpowiedzieć.