1. Pozyskiwanie wiedzy
Tematy pojawiają się naturalnie podczas eksplorowania typologii zainteresowanych stron, określania ich unikalnych potrzeb informacyjnych i stosowania różnych poziomów szczegółowości w formułowaniu pytań. Aby pomóc Ci uporządkować i ustrukturyzować tematy pytań, stworzyliśmy ramy zdobywania wiedzy, które zapewniają solidne, przemyślane i powtarzalne podejście do tworzenia dokumentacji dotyczącej przejrzystości.
Pozyskiwanie wiedzy to wyodrębnianie, strukturyzowanie i organizowanie wiedzy z jednego źródła – zwykle od ekspertów – tak aby można było jej używać np. w produkcie lub technologii, nad którymi pracujesz.
Nasze ramy to OFTEn, czyli narzędzie koncepcyjne do systematycznego rozważania, jak tematy rozprzestrzeniają się we wszystkich częściach karty danych. Stworzyliśmy ją na podstawie szczegółowych badań przejrzystości zbiorów danych metodą indukcyjną i dedukcyjną.
OFTEn
OFTEn to skrót od ogólnych etapów cyklu życia zbioru danych: Origins (Pochodzenie), Factuals (Fakty), Transformations (Przekształcenia), Experience (Doświadczenie) i n = 1 (Próbki).
Origins
Etap początkowy obejmuje różne działania planistyczne, które decydują o ostatecznym wyniku, takie jak określenie wymagań, metody zbierania lub pozyskiwania danych oraz decyzje dotyczące projektu i zasad.
Tematy, które pojawiają się w pytaniach dotyczących pochodzenia, to:
- Autorzy i właściciele
- Powody
- Przeznaczenie
- Metody zbierania danych
- Licencje
- Wersje
- Źródła
- Errata
- Podmioty odpowiedzialne
Factuals
Etap Factuals (Fakty) obejmuje statystyczne i inne atrybuty opisujące zbiór danych, odchylenia od pierwotnego planu oraz wszelkie analizy przed przekształceniem danych.
Tematy, które pojawiają się w pytaniach opartych na faktach, to:
- Liczba instancji
- Liczba funkcji
- Liczba etykiet
- Źródło etykiet
- Źródło danych
- Podział na podgrupy
- Kształt funkcji
- Opis funkcji
- Brakujące lub zduplikowane
- Kryterium uwzględnienia
Przekształcenia
Etap Transformacje zawiera podsumowania zadań oznaczania etykietami, dodawania adnotacji lub weryfikacji. W zależności od zbioru danych mogą tu wystąpić procesy rozstrzygania sporów między oceniającymi. Za przekształcenia uznaje się też inżynierię cech i modyfikacje wprowadzone w celu zapewnienia prywatności, bezpieczeństwa lub ochrony informacji umożliwiających identyfikację.
Tematy, które obejmują pytania dotyczące transformacji, to:
- Ocena lub adnotacja
- Filtrowanie
- Przetwarzam
- Weryfikacja
- Właściwości statystyczne
- Cechy syntetyczne
- Postępowanie z informacjami umożliwiającymi identyfikację
- Zmienne wrażliwe
- Wpływ na sprawiedliwość
- Przekłamania lub odchylenia
Doświadczenie
Etap eksperymentowania obejmuje wykorzystanie danych do konkretnych zadań, przejście szkolenia dotyczącego dostępu, wprowadzenie zmian dostosowanych do zadania, uzyskanie wyników i porównanie ich z innymi podobnymi zbiorami danych oraz odnotowanie wszelkich oczekiwanych i nieoczekiwanych zachowań.
Tematy, które ilustrują pytania dotyczące doświadczeń, to m.in.:
- Zamierzona wydajność
- Niezamierzona aplikacja
- Nieoczekiwane działanie
- Zastrzeżenia
- Statystyki
- Atrakcje
- Relacje
- Użyj
- Ocena przypadków użycia
n = 1 (próbki)
Etap n = 1 (próbki) obejmuje szczegółowe informacje o punktach danych dotyczących rozkładu, prezentację istotnych punktów danych z określonymi atrybutami oraz, w stosownych przypadkach, modelowanie wyników na ich podstawie.
Przykładowe pytania dotyczą m.in. tych tematów:
- Przykłady lub linki do typowych przykładów i wartości odstających.
- Przykłady, które dają fałszywie pozytywne lub fałszywie negatywne wyniki.
- Przykłady pokazujące obsługę wartości cech null lub zero.
Przykład
Na przykład ten zestaw pytań został ułożony za pomocą OFTEn:
Kto | Co | Kiedy | Gdzie | Dlaczego | Jak | |
Źródła | Kto publikuje zbiór danych? Czy różnią się od właścicieli zbiorów danych? | Jakie są zachęty dla osób oznaczających dane, dostawców i ekspertów zatrudnionych do tworzenia tego zbioru danych? | Kiedy utworzono ten zbiór danych? Uruchomiono? | Skąd pochodziły środki? | Dlaczego utworzono ten zbiór danych? Jak wyglądał poprzedni proces? | Jakie metody zostały wybrane i ile stron brało udział w procesie? |
Factuals | Kogo dotyczą dane? Czy osoby oznaczające etykietami reprezentują osoby, których dane są wykorzystywane? | Jakie podgrupy w danych mogą wpływać na wyniki uczenia maszynowego? | Jakiego okresu dotyczą dane? Gdy dane wygasną lub będą działać nieprawidłowo. | Gdzie można uzyskać dostęp do zbioru danych? Gdzie dane zostały zebrane lub utworzone? | Dlaczego wybrano te dane? Dlaczego wybrano te konkretne etykiety? | Ile unikalnych etykiet znajduje się w zbiorze danych? Jak zostały wygenerowane? |
Transformacje | Jak w tym zbiorze danych traktowane są informacje umożliwiające identyfikację? Czy wyniki z tego zbioru danych mogą być używane do identyfikowania osób? | Jakie metody zostały użyte do oczyszczenia lub zweryfikowania tego zbioru danych? | Kiedy i jak należy tworzyć funkcje? Czy te informacje wymagają aktualizacji? | Czy funkcje lokalizacji są powiązane z innymi funkcjami związanymi z informacjami wrażliwymi? | Dlaczego wybrane przekształcenia zostały zastosowane do zbioru danych? | Jak w danych traktowane są odchylenia lub informacje umożliwiające identyfikację? |
Doświadczenie | Kto może korzystać z tego zbioru danych i do jakich zadań? Czy wymagane są jakieś szkolenia? | Jakie metody, wyniki lub błędy zostały odkryte podczas korzystania ze zbioru danych? | W jakich okolicznościach i kiedy nie należy używać tego zbioru danych? | Gdzie na świecie jest dostępny ten zbiór danych? Gdzie jest używana? | Dlaczego oczekiwana reprezentacja zbioru danych różni się od obserwowanej? | Ile kosztują dane w różnych częściach świata? |
n = 1 (próbki) | Czy punkt danych jest typowy czy nietypowy? Jak zachowują się modele w tym przypadku? | Jaki jest rozmiar punktu danych? Jak wygląda proces uzyskiwania zgody, redagowania i wycofywania danych, aby interweniować w przypadku punktu danych? | Kiedy zmienia się wynik dotyczący punktu danych? Czy przykłady powinny być przedstawiane za pomocą kontrfaktycznych wyjaśnień? | Jakie czynniki są uwzględniane w punkcie danych? Jakie ryzyko wiąże się z nieprawidłowymi prognozami? | Dlaczego ten punkt danych obrazu jest przycięty w określony sposób? Dlaczego w tym punkcie danych nie ma niektórych kategorii? | Jak ten punkt danych odnosi się do danych wejściowych w rzeczywistym świecie? Jak wynik odnosi się do danych wyjściowych w rzeczywistym świecie? |
Odkryliśmy, że karty danych o wyraźnej strukturze OFTEn można łatwo rozbudowywać i aktualizować. Dzięki OFTEn karty danych mogą z czasem obejmować tematy, które są zwykle wykluczane z dokumentacji, takie jak opinie od agentów niższego szczebla, istotne różnice między wersjami oraz doraźne audyty lub dochodzenia prowadzone przez producentów lub agentów.
Podsumowanie
W tabeli poniżej podsumowaliśmy ramy OFTEn i opisaliśmy ogólne etapy cyklu życia zbioru danych:
Etap | Opis |
Źródła | Wczesne etapy cyklu życia zbioru danych, gdy podejmowane są decyzje o jego utworzeniu. |
Factuals | Rzeczywiste procesy zbierania danych i surowe dane wyjściowe. |
Transformacje | Dane surowe są przekształcane w użyteczną formę za pomocą operacji takich jak filtrowanie, weryfikacja, analizowanie, formatowanie i czyszczenie. |
Doświadczenie | Zbiór danych jest testowany, oceniany lub wdrażany w praktyce (w ramach eksperymentu, w wersji produkcyjnej lub w celach badawczych). |
n = 1 (próbki) | Rzeczywiste próbki ze zbioru danych (lub winiety) reprezentujące normalne punkty danych i wartości odstające. |
Podczas tworzenia karty danych możesz używać wskaźnika OFTEn na 2 sposoby:
- OFTEn wspiera działania z agentami, aby formułować pytania dotyczące zbiorów danych i powiązanych modeli, które są kluczowe w procesie podejmowania decyzji. Okazuje się, że gdy wielu agentów wspólnie opracowuje pytania oparte na strukturze OFTEn, ujawniają się informacje niezbędne do podejmowania ukierunkowanych decyzji.
- Metoda OFTEn może być używana do oceny, czy karta danych dokładnie przedstawia zbiór danych, co ma wpływ na dokumentację i zbiór danych. Na przykład zbiory danych na wczesnym etapie są bardziej ukierunkowane na treści oryginalne i rzeczowe, a zbiory danych na późniejszym etapie powinny być bardziej ukierunkowane na treści związane z doświadczeniami.
Dzięki OFTEn możesz przeprowadzać burzę mózgów i sprawdzać, czy Twoje pytania obejmują cały cykl życia zbioru danych. Dzięki temu Twoje treści będą kompleksowe i uporządkowane. Pomaga nie tylko wykrywać nadmiarowość w rodzajach tworzonych pytań, ale też wypełniać wszelkie luki, które możesz napotkać.
2. Formułuj pytania za pomocą akronimu OFTEn
- Zastanów się nad niektórymi ścieżkami informacji o interesariuszach i agentach (AIJ), które zostały opracowane w poprzednim module, a następnie skorzystaj z tych promptów, aby uporządkować swoje przemyślenia.
- Jeśli niektóre z Twoich pytań pasują do jednej z kategorii OFTEn, oznacz je odpowiednio.
- Jeśli Twoje pytania nie pasują do żadnej z kategorii OFTEn, wybierz jednego z agentów z poprzedniego modułu, a następnie utwórz dla niego co najmniej 1 pytanie w każdej kategorii OFTEn.
- Utwórz dodatkowe pytania na podstawie 5 W (kto, co, gdzie, kiedy i dlaczego) i 1 H (jak), aby zwiększyć zakres kategorii OFTEn.
- W razie potrzeby powtórz te czynności w przypadku kolejnego agenta.
3. Wymiary
Teraz, gdy rozumiesz OFTEn i masz już pytania, które chcesz umieścić na karcie danych, możesz odkryć statystyki dotyczące tych pytań, przeprowadzając pierwszą analizę karty danych. Wprowadzamy w tym celu wymiary, czyli ogólne opisy różnych rodzajów ocen, jakich dokonują czytelnicy. Dostarczają one wskazówek dotyczących przydatności i czytelności karty danych. Innymi słowy, czy karta danych może pomóc czytelnikom w wyciągnięciu przemyślanych wniosków na temat Twojego zbioru danych?
Accountable
Karta danych, za którą ktoś odpowiada, jest własnością osób, które wykazują odpowiednie zaangażowanie, refleksję, rozumowanie i systematyczne podejmowanie decyzji dotyczących zbioru danych i jego wykorzystania, i jest przez nie utrzymywana.
Przykładowe obszary | Przykładowe pytania |
Autorstwo, odpowiedzialność, utrzymanie, intencje | Jako [perspektywa] chcę wiedzieć... |
Użyteczność
Przydatna karta danych zawiera szczegóły, które zaspokajają potrzeby informacyjne czytelników, co prowadzi do odpowiedzialnego procesu podejmowania decyzji, który określa przydatność zbioru danych do ich zadań i celów.
Przykładowe obszary | Przykładowe pytania |
Potrzeby producenta,potrzeby agenta, potrzeby użytkownika, potrzeby społeczne | Jako [perspektywa] chcę poznać... |
Jakość
Wysokiej jakości karta danych podsumowuje rzetelność, integralność i kompletność zbioru danych, często w sposób przystępny i zrozumiały dla czytelników o różnym pochodzeniu.
Przykładowe obszary | Przykładowe pytania |
Ważność,wiarygodność, integralność, powtarzalność | Jako [perspektywa] chcę wiedzieć… |
Wpływ lub konsekwencje korzystania
Karta danych, która w odpowiedni sposób opisuje wpływ korzystania ze zbioru danych, określa oczekiwania dotyczące wyników używania zbioru danych i zarządzania nim oraz uwzględnia wszelkie konsekwencje pierwszego lub drugiego rzędu, które mogą negatywnie wpłynąć na cele czytelników.
Przykładowe obszary | Przykładowe pytania |
Skuteczność, trafność, korzyści dla grupy,konsekwencje odchyleń | Jako [perspektywa] chcę wiedzieć… |
Ryzyko i rekomendacje
Karta danych, która zawiera dobre rekomendacje, uświadamia czytelnikom znane i potencjalne zagrożenia oraz ograniczenia wynikające z pochodzenia, reprezentacji, wykorzystania lub kontekstu użycia danych, a także dostarcza wystarczających informacji i alternatyw, aby pomóc czytelnikom w odpowiedzialnym podejmowaniu decyzji.
Przykładowe obszary | Przykładowe pytania |
Wielkość ryzyka, środki zaradcze, rekomendacje, szkody dla grup | Jako [perspektywa] chcę wiedzieć… |
Podsumowanie
Dzięki wymiarom możesz ocenić zestaw pytań, aby upewnić się, że są one zgodne z Twoimi celami i pożądanymi wynikami. Nawet jeśli nie masz jeszcze odpowiedzi na pytanie w karcie danych, warto wychwycić błędy, zanim zagłębisz się w proces dokumentowania zbioru danych.
W tabeli poniżej znajdziesz podsumowanie 5 wymiarów:
Etap | Opis |
Odpowiedzialność | Oświadczenia, które odzwierciedlają przemyślane, rozsądne i systematyczne decyzje różnych zainteresowanych stron dotyczące zaufania do zbioru danych. |
Wzór użytkowy | Zawiera szczegółowe informacje, które zaspokajają potrzeby czytelników w zakresie odpowiedzialnego podejmowania decyzji, oraz określa przydatność przypadków użycia w odniesieniu do ich celów. |
Jakość | Podsumowuje rzetelność, integralność i kompletność zbioru danych w sposób zrozumiały dla wielu czytelników. |
Wpływ i konsekwencje | Informacje, które pomagają czytelnikom osiągnąć pożądane rezultaty podczas korzystania z zbioru danych i zarządzania nim, oraz informacje o konsekwencjach, które mogą negatywnie wpłynąć na ich cele. |
Zagrożenia i rekomendacje | Informuje czytelników o znanych i potencjalnych zagrożeniach związanych ze zbiorem danych, które wynikają z jego reprezentacji, wykorzystania lub kontekstu użycia. |
Dzięki tym różnym typom wymiarów możesz uzyskać statystyki dotyczące jakości, czytelności i użyteczności karty danych jeszcze przed jej wypełnieniem. Pomagają one określić działania, które przyczyniają się do stworzenia bardziej niezawodnego i dopracowanego szablonu karty danych.
4. Ocena pytań za pomocą wymiarów
- Zacznij od jednego wymiaru, a potem określ, jak duża jest potrzebna biegłość i wiedza, aby na podstawie złożoności zestawu pytań wyciągnąć wnioski.
- Podaj uzasadnienie, dlaczego ten wymiar jest obecnie dobrze obsługiwany przez Twój zestaw pytań.
- Przedstaw dowody potwierdzające Twoje uzasadnienie, podając 1–2 przykładowe pytania z Twojego zestawu.
- Jeśli wymiar wydaje się nieodpowiedni, zanotuj czynności, które należy wykonać, aby go ulepszyć lub wyeliminować jego wady. Jeśli pracujesz z zespołem interesariuszy, przypisz im odpowiednie obowiązki, aby niektórzy z nich mogli lepiej odpowiadać na określone pytania.
- Powtórz te czynności w przypadku kolejnego wymiaru.
Oto przykładowy szablon, którego możesz użyć do oceny wymiarów:
Proces oceny może potrwać od 15 minut do godziny, w zależności od liczby utworzonych pytań i różnorodności zainteresowanych stron, które musisz uwzględnić na karcie danych.
5. Gratulacje
Gratulacje! Możesz sprawdzić pytania utworzone na potrzeby karty danych. Teraz możesz na nie odpowiedzieć.