Modul 3: Antwort

1. Wichtige Erkenntnisse definieren

Sie haben sich für eine Reihe von Fragen entschieden, die Sie in Ihre Datenkarte aufnehmen möchten. Diese Fragen sind Ihrer Meinung nach wichtig für Ihre Leser. Es ist jedoch nicht so einfach, diese Fragen zu beantworten und das Ergebnis als Data Card zu bezeichnen. Es ist wichtig, dass Sie sich genau überlegen, wie Sie Ihre endgültige Datenkarte optimieren, damit sie für Ihre Leser gut lesbar ist.

Wenn Nutzer Datenkarten lesen, möchten sie sehr spezifische Entscheidungen treffen, z. B.:

  • Ist dieses Dataset für meinen Anwendungsfall geeignet?
  • Darf ich anderen die Nutzung dieses Datasets erlauben?
  • Wie kann ich dieses Dataset sicher verwenden, ohne das Risiko für meine Modelle zu erhöhen?

Wenn Leser effizient auf die richtigen Informationen zugreifen können, sind sie sehr gut darin, datensatzbezogene Entscheidungen in ihrem Kontext zu treffen. Die Bedeutung oder Nützlichkeit von Informationen hängt von der Art der Entscheidung ab, die der Leser treffen muss, und vom Hintergrund des Lesers. Wenn ein Compliance-Beauftragter beispielsweise entscheidet, ob ein Datensatz verwendet werden soll, sieht er sich die zugehörigen Lizenzen an, während ein Entwickler den technischen Stack betrachtet. Beide Leser stellen dieselben Fragen, erwarten aber unterschiedliche Antworten.

Datenkarten sollten Ihren Datensatz umfassend beschreiben, damit Leser fundierte Entscheidungen treffen können. Diese umfassenden Beschreibungen helfen Ihnen, zu entscheiden, was Leser aus Ihrer Datenkarte erfahren sollen, und die Art der genauen, robusten und organisierten Informationen zu bestimmen, die darin dokumentiert werden sollen. Die Herausforderung besteht natürlich darin, dass es unmöglich ist, alle möglichen Entscheidungen zu ermitteln, die Leser Ihrer Datenkarte treffen müssen.

2. Datenkarte planen

  • Um zu ermitteln, welche Entscheidungen die Leser Ihrer Datenkarte treffen müssen und wie viele Details Ihre Datenkarte enthalten sollte, beantworten Sie die Frage für jede Kategorie in der folgenden Tabelle:

Leser

Entscheidungen

Zielvorhaben

Relevanz

Nuance

Wer ist die primäre Zielgruppe?

Welche Entscheidungen werden sie in Bezug auf den Datensatz treffen?

Was erwarten sie von der Datenkarte?

Welche spezifischen Inhalte benötigen sie von der Datenkarte, um ihre Ziele zu erreichen?

Wie detailliert oder nuanciert muss Ihr Inhalt sein, wenn Sie die Leser kennen?

Beispiel: Softwareentwickler für die Produktion

Beispiel: Sollte ich das Dataset verwenden, um ein ML-Modell zu testen, das in der Produktion eingesetzt wird?

Beispiel: Gib mir einen Überblick über das Dataset. Erkläre mir, wie es implementiert wird.

Beispiel: Verwendungszweck und ungeeignete Verwendungen, bisherige Verwendung und Ergebnisse bei früheren Modellen.

Beispiel: Sehr differenziert. Schwerpunkt auf der technischen Nutzung und Benutzerfreundlichkeit für die Integration in Produktionssysteme.

Sie können die Tabelle verwenden, um Ihre Datenkarte zu bewerten und dafür zu sorgen, dass Leser, die für Sie Priorität haben, sie nützlich finden. Es gibt viele Möglichkeiten, Ihre Datenübersicht zu bewerten. Wir empfehlen, die Schwere der Benutzerfreundlichkeit zu bewerten.

Die genauen Definitionen können variieren, aber die folgende Schweregradskala bietet eine Bewertung, wie stark etwas beeinträchtigt ist und welche Auswirkungen das Problem hat, unabhängig von der Priorisierung. In diesem Zusammenhang beziehen wir uns auf die Nutzerfreundlichkeit Ihrer Datenkarte. Wenn Sie die Probleme nicht beheben, kann dies das Vertrauen eines Lesers in die Datenkarte und ihre Nützlichkeit beeinträchtigen.

  • Um zu bewerten, wie nützlich der Status Ihrer Datenkarte für jede Zielgruppengruppe in der Tabelle von oben ist, beantworten Sie die Fragen in der folgenden Schweregradskala:

Verstoß

Schweregrad

Korrigieren

Welche Antworten sind für den Leser nicht hilfreich?

Wie dringend sollte das Problem auf einer Skala von 1 bis 5 behoben werden? Klicken Sie das zutreffende Kästchen an:

  • ☐ 1 = Katastrophal. Beheben Sie dieses Problem, bevor die Datenkarte veröffentlicht wird.
  • ☐ 2 = Großes Problem. Muss behoben werden und hat hohe Priorität.
  • ☐ 3 = Geringfügiges Problem. Geringe Priorität.
  • ☐ 4 = Nur kosmetisches Problem. Beheben Sie das Problem, wenn Sie Zeit haben.
  • ☐ 5 = Das ist kein Problem.

Was ist die Lösung?

3. Genau genug

In den meisten Fällen passiert beim Erstellen der ersten Datenkarte eines der folgenden beiden Dinge:

  • Zu viele Informationen überfordern die Leser.
  • Zu wenige Informationen können Leser verwirren.

Als Ersteller einer Datenkarte müssen Sie die Informationen darin kuratieren und priorisieren. Ein gutes Transparenzartefakt bietet genügend Kontext, damit die Leser ein klares Verständnis erhalten. Wenn nicht, wird ihnen mitgeteilt, was sie als Nächstes tun müssen.

Sie möchten Informationen bereitstellen, die das Dataset leicht verständlich und nutzbar machen. Manchmal nimmt die Komplexität Ihres Datasets zu. Das wirkt sich auf die Dichte der Informationen und Erklärungen aus, die Sie in Ihrer Datenübersicht zusammenfassen müssen.

Unabhängig vom Fachwissen Ihrer Leser kann es zu einer Informationsüberflutung kommen. Daher ist es wichtig, die richtigen Informationen zu präsentieren, darunter:

  • Welche Art von Informationen Sie angeben sollten.
  • Wie viele Informationen Sie anbieten können.
  • Die Details.

In Ihren Antworten sollten Sie alles so gut wie möglich zusammenfassen, ohne ins Detail zu gehen. Außerdem sollten Sie den Kontext berücksichtigen, den Leser benötigen, um Einblicke in Ihren Datensatz zu erhalten.

Heuristiken

Wir haben eine Reihe von Heuristiken erstellt, mit denen Sie die allgemeine Benutzerfreundlichkeit Ihrer Datenkarte bewerten können. Wir betrachten diese Heuristiken als Ziele, die Datenkarten erfüllen müssen, damit sie erfolgreich sind und in der Praxis und im großen Maßstab angemessen eingesetzt werden. In der folgenden Tabelle finden Sie diese Zielvorhaben und ihre Beschreibungen:

Ziel

Beschreibung

Gut

Datenkarten müssen unabhängig von Datenmodalität oder ‑domain vergleichbar sein, damit Behauptungen im Nutzungskontext leicht interpretiert und validiert werden können. Die Bereitstellung einmaliger Datenkarten ist relativ einfach. Wir haben jedoch festgestellt, dass Teams und Organisationen die Vergleichbarkeit beibehalten müssen, wenn sie die Einführung skalieren.

Umfassend

Die Datenkarte sollte nicht als letzter Schritt im Lebenszyklus eines Datasets erstellt werden, sondern gleichzeitig mit dem Dataset. Außerdem sollte die Verantwortung für das Ausfüllen von Feldern in einer Datenkarte verteilt und der am besten geeigneten Person zugewiesen werden. Dazu sind standardisierte Methoden erforderlich, die über die Datenübersicht hinausgehen und für die verschiedenen Berichte gelten, die im Lebenszyklus des Datasets generiert werden.

Verständlich und prägnant

Leser haben unterschiedliche Kenntnisse, was sich auf die Interpretation der Datenkarte auswirkt. In Szenarien, in denen sich die Kompetenzen der Stakeholder unterscheiden, werden Personen mit dem stärksten mentalen Modell des Datensatzes zu De-facto-Entscheidungsträgern. Schließlich können dringendere oder anspruchsvollere Aufgaben die Beteiligung nicht traditioneller Stakeholder an Entscheidungen verringern, die „dem Experten“ überlassen werden. Dadurch besteht das Risiko, dass wichtige Perspektiven, die die spezifischen Bedürfnisse von nachgelagerten und lateralen Stakeholdern widerspiegeln, nicht berücksichtigt werden. Eine Datenkarte sollte Informationen effizient für Leser mit geringen Kenntnissen vermitteln und es Lesern mit mehr Kenntnissen ermöglichen, bei Bedarf weitere Informationen zu finden. Inhalt und Design sollten den Entscheidungsprozess des Lesers voranbringen, ohne ihn zu überfordern, und die Zusammenarbeit der Stakeholder fördern, um ein gemeinsames mentales Modell des Datasets für die Entscheidungsfindung zu schaffen.

4. Heuristiken bewerten

  • Um die Antworten auf Ihre Datenkarte zu überprüfen, verwenden Sie die folgende Übersicht, die wir erstellt haben, um jede Heuristik zu bewerten. Am Ende können Sie die Gesamtpunktzahl Ihrer Datenkarte zusammenrechnen, damit Sie den Überblick behalten. Sie können auch Kommentare einfügen, um zusätzlichen Kontext und Aufgaben zu erfassen, die zur Verbesserung der einzelnen Heuristiken erforderlich sind.

Heuristik

Kriterien

Kommentare

Index

Bewerten Sie Ihre ausgefüllte Datenkarte anhand der folgenden Heuristiken selbst.

Kriterien für Heuristik

Achten Sie besonders auf Bereiche, in denen die Datenkarte verbessert werden kann.

Nur Zahlen, Selbsteinschätzung (0–10)

Verständlich
: Das Design und der Inhalt Ihres Transparenzartefakts sind effektiv, relevant und für die meisten Experten und nicht fachkundigen Nutzer leicht verständlich.

  • Effektiv:Die meisten Kundenservicemitarbeiter können geeignete Antworten auf angemessene Fragen zum Datensatz oder Modell erhalten.
  • Relevant:Die enthaltenen Erläuterungen, Visualisierungen und Analyseergebnisse sind für die meisten Kundenservicemitarbeiter relevant und umsetzbar.
  • Verständlich:Informationen können von Experten- und Nicht-Experten-Agents leicht verstanden werden.

.

.

Umfassend
: Mit der Datenübersicht können Leser leicht nachvollziehen, worum es bei dem Datensatz oder Modell geht, wie es entstanden ist und was vor der Verwendung wichtig ist.

  • Zweckorientiert:Informationen, die den Kontext für den Datensatz liefern und für alle Stakeholder hilfreich sind, sind lesbar.
  • Vollständig:Die Informationen sind kohärent und vollständig und beschreiben alle Phasen im Lebenszyklus eines Datasets angemessen.
  • Detailliert:Zusammenfassungen sind für allgemeine Leser lesbar und enthalten Links zu zusätzlichen Informationen für fortgeschrittene Leser.

.

.

Konsistent
: Die Datenkarte entspricht den Plattform- und Branchenkonventionen und ist in sich und im Vergleich zu anderen ähnlichen Transparenzkarten konsistent.

  • Wiedererkennbar:Die Abschnitte sind in einer logischen Reihenfolge angeordnet, sodass Leser wissen, wo sie Informationen finden.
  • Standardisiert : Es werden branchenübliche Begriffe verwendet und Abweichungen oder Anpassungen werden gegebenenfalls beschrieben.
  • Eindeutig:Derselbe Begriff steht jedes Mal für dasselbe Konzept.

.

.

Prägnant
: Das Design und der Inhalt der Karte reduzieren umfangreiche und komplexe Informationen auf sinnvolle, leicht verständliche Abschnitte von relativer Bedeutung, die auf die Bedürfnisse von Anfängern und erfahrenen Lesern eingehen.

  • Verständlich:Die relative Bedeutung und Wichtigkeit von Schlüsselwörtern, Schlüssel/Wert-Paaren und visuellen Zusammenfassungen ist leicht zu erfassen.
  • Auf einen Blick erfassbar:Leser können auf einen Blick erkennen, ob und wie sie das Dataset verwenden können, um ihre Ziele zu erreichen.
  • Kontextbezogen:Hintergrundwissen und Kontext werden so zusammengefasst oder abstrahiert, dass sie verständlich sind, ohne dass die Art und die Nuancen des Datensatzes verloren gehen.

.

.

Gesamtpunktzahl = (Gesamtpunkte/120)

.

.

/120

5. Durchdachte Analyse

Daten sind Informationen über Personen, Kulturen oder Unternehmen, die für einen bestimmten Zweck strukturiert erfasst wurden. Wie jedoch wiederholt erwähnt, sind sie alle nuanciert und durch mehrere Dimensionen mit unterschiedlichen Graden miteinander verknüpft. Die Analyse, die Sie für Ihr Dataset durchführen, gibt Aufschluss darüber, wie das Dataset selbst konzipiert wurde. So können Sie die Feinheiten besser nachvollziehen.

Bei einer intersektionalen Analyse von Personen können beispielsweise die Kombinationen von menschlichen Faktoren in einem Dataset untersucht werden, um potenzielle unverhältnismäßige Ergebnisse zu ermitteln, z. B. wenn ein Modell, das auf einem Dataset trainiert wurde, für eine Untergruppe besser funktioniert als für andere. Bei einer disaggregierten Analyse wird der Datensatz anhand verschiedener Faktoren aufgeschlüsselt, um wichtige Muster für Untergruppen oder marginalisierte Bevölkerungsgruppen aufzudecken, die normalerweise durch größere, aggregierte Daten verdeckt werden. So können Leser Ergebnisse antizipieren.

Wir haben festgestellt, dass Intersektionalität und disaggregierte Analysen (IDA) effektive Methoden sind, um eine Reihe plausibler Ergebnisse unter verschiedenen Umständen in einer Datenkarte zu kommunizieren, indem klare Beziehungen in einem Dataset hergestellt werden. Mit IDA können Leser wichtige Hinweise zur Darstellung in Ihrem Datensatz erhalten, z. B. wie Labels mit sensiblen Einheiten korrelieren, Lücken in Ihrem Datensatz, z. B. dass der Datensatz nur Fotos enthält, die tagsüber aufgenommen wurden, und die Beziehung zwischen Variablen, die dazu führen können, dass KI-Modelle falsche Korrelationen lernen oder Proxys verwenden. Diese Analysen werden noch nützlicher, wenn sie in realen Situationen durchgeführt werden, die die Erfahrungen widerspiegeln, die betroffene Nutzer mit einem Produkt oder einer Dienstleistung machen könnten, für die Ihr Datensatz verwendet wird.

Die Darstellung von IDA-Ergebnissen in einer Datenübersicht hilft Lesern beispielsweise, proaktiv ein Gefühl dafür zu entwickeln, wie ihr ML-Modell für Teilmengen (auch als Slices bezeichnet) in ihrem Dataset funktioniert. Das erfordert zwar, dass die Ersteller von Datasets bei der Analyse des Datasets und seiner Darstellung auf der Datenübersicht sorgfältiger vorgehen, kann aber letztendlich zu besseren Produktergebnissen für Stakeholder führen.

Mit IDA können Leser besser nachvollziehen, wie sie Ihr Dataset in ihren Modellen verwenden können. Wenn Sie Schwierigkeiten haben, sollten Sie mit Experten, Produktteams und Personen mit eigenen Erfahrungen zusammenarbeiten, um Ihre Analysen zu gestalten. IDA basiert oft auf Kontexten, die Lesern erklärt werden müssen oder zusätzliche Unterstützung erfordern, damit Leser sie richtig interpretieren können.

6. Daten analysieren

So analysieren Sie Ihr Dataset:

  1. Vor der Analyse Entwickeln Sie mit einem Tool wie TensorFlow Data Validation (TFDV) oder dem Learning Interpretability Tool (LIT) ein Gefühl für die Abweichungen und Ungleichgewichte in Ihrem Dataset. Nutzen Sie die Ergebnisse, um Ihr Analysedesign zu optimieren.
  2. Analyse sorgfältig planen Die Ergebnisse der Analyse werden stark von den Zielen Ihrer Bewertung, dem Zugang zu Fachwissen und Ressourcen zur Durchführung der Analyse, dem Zeitpunkt und Ort der Analyse sowie dem Kontext der KI-Modelle beeinflusst, in denen die Analyse durchgeführt wird.
  3. Beginnen Sie mit Faktoren, die für Ihre beabsichtigte Nutzung relevant sind. Berücksichtigen Sie demografische, soziokulturelle, verhaltensbezogene und morphologische Faktoren, die sich am stärksten auf Ihre beabsichtigten Anwendungsfälle auswirken können, wenn Sie Interessengruppen erstellen und dann erweitern.
  4. Melden, aber nicht kommentieren. Faktoren und Annahmen, die sich auf Fairnessanalysen auswirken, sind in historischen und kulturell spezifischen sozialen Konstrukten enthalten, die schwer zu quantifizieren sind. Achten Sie darauf, dass Sie keine Kommentare hinzufügen, die den Leser verwirren könnten. Stattdessen sollten Sie Möglichkeiten zur Reproduktion von Analysen anbieten, die Lesern helfen können, Ergebnisse in ihrem eigenen Kontext zu kalibrieren.
  5. Für die Zukunft planen: Berücksichtigen Sie zusätzliche Faktoren, die in Zukunft auftreten könnten, indem Sie sich die Darstellung in Ihrem Dataset ansehen, Werte in verschiedenen Szenarien konstant halten oder Ihre Analyse mit einer Reihe von Werten zusätzlicher Faktoren kombinieren, die für Ihr Dataset relevant sind.
  6. Mehr Kontext für nicht reproduzierbare Ergebnisse bereitstellen: Wenn Messwerte von nachgelagerten Stakeholdern nicht reproduziert werden können, sollten Sie genügend Kontext für die Analyse bereitstellen. Wenn ein Leser diese Informationen nutzen kann, um die Vor- und Nachteile des Datasets abzuwägen, kann dies das Vertrauen in das Dataset stärken.

7. Glückwunsch

Glückwunsch! Es gibt verschiedene Möglichkeiten, die richtigen Antworten in Ihrer Datenkarte anzugeben. Jetzt können Sie sie prüfen.