Modulo 3: risposta

1. Definizione dei concetti chiave

Hai scelto una serie di domande da includere nella scheda dei dati, domande che ritieni importanti per i tuoi lettori. Tuttavia, non è sufficiente rispondere a queste domande e chiamarla scheda dei dati. È necessario un esame attento per assicurarsi che la scheda dati finale sia ottimizzata per l'esperienza del lettore.

Quando le persone leggono le schede dei dati, vogliono prendere decisioni molto specifiche, ad esempio:

  • Questo set di dati è adatto al mio caso d'uso?
  • Posso consentire ad altri di utilizzare questo set di dati?
  • Come posso utilizzare in modo sicuro questo set di dati senza aumentare il rischio per i miei modelli?

Se i lettori possono accedere alle informazioni giuste in modo efficiente, sono incredibilmente bravi a prendere decisioni relative ai set di dati nei loro contesti. L'importanza o l'utilità delle informazioni dipende dal tipo di decisione che il lettore deve prendere e dal suo background. Ad esempio, quando decide se utilizzare un set di dati, un responsabile della conformità potrebbe esaminare le licenze associate, mentre un ingegnere esamina lo stack tecnico. Entrambi i lettori pongono le stesse domande, ma si aspettano risposte diverse.

Le schede dei dati devono descrivere in modo esaustivo il tuo set di dati, in modo che i lettori possano prendere decisioni in modo sicuro. Queste descrizioni complete ti aiutano a decidere cosa vuoi che i lettori ottengano dalla tua scheda dei dati e a determinare il tipo di informazioni accurate, solide e organizzate da documentare. Naturalmente, la sfida è che è impossibile determinare tutte le possibili decisioni che i lettori della tua scheda dati devono prendere.

2. Pianificare la scheda di dati

  • Per determinare le decisioni che i lettori della scheda dei dati devono prendere e il livello di dettaglio che la scheda dei dati deve includere, rispondi alla domanda per ogni categoria nella tabella seguente:

Lettori

Decisioni

Obiettivi

Pertinenza

Nuance

Chi è il pubblico principale?

Quali decisioni prenderanno in merito al set di dati?

Cosa vogliono dalla scheda dei dati?

Quali contenuti specifici deve estrarre dalla scheda dati per raggiungere i suoi obiettivi?

In base a ciò che sai del lettore, quanto devono essere dettagliati o sfumati i tuoi contenuti?

Esempio: ingegneri informatici di produzione

Esempio: devo utilizzare il set di dati per testare un modello di machine learning (ML) in produzione?

Esempio: dammi una panoramica del set di dati. Spiegami come viene implementato.

Esempio: usi previsti e non idonei, utilizzo passato e risultati sui modelli precedenti.

Esempio: Molto sfumato. Enfasi sull'uso tecnico e sull'usabilità ai fini dell'integrazione nei sistemi di produzione.

Puoi utilizzare la tabella per valutare la tua scheda dati e assicurarti che i lettori di alta priorità la trovino utile. Esistono molti approcci per valutare la scheda dati, ma uno che consigliamo prevede di valutare la gravità dell'usabilità.

Sebbene le definizioni precise possano variare, la seguente scala di gravità fornisce una valutazione del livello di malfunzionamento e dell'impatto del problema senza tenere conto della priorità. In questo contesto, ci riferiamo all'usabilità della scheda dei dati, che, se non affrontata, può influire sulla fiducia riposta da un lettore nella scheda dei dati e sulla sua utilità.

  • Per valutare l'utilità dello stato della scheda dati per ogni gruppo di pubblico nella tabella precedente, rispondi alle domande nella seguente scala di gravità:

Violazione

Gravità

Correggi

Quali risposte non sono utili per il lettore?

Con quale urgenza deve essere risolto questo problema su una scala da 1 a 5? (Seleziona la casella di controllo pertinente):

  • ☐ 1 = Catastrofico. Correggi questo problema prima del rilascio della scheda dati.
  • ☐ 2 = Problema grave. Importante da risolvere e a cui è stata assegnata una priorità elevata.
  • ☐ 3 = Problema di minore entità. Priorità bassa.
  • ☐ 4 = Solo problema estetico. Correggi se hai tempo.
  • ☐ 5 = Non è un problema.

Qual è la soluzione?

3. Puntare al minimo indispensabile

Il più delle volte, quando crei la prima scheda dati, si verifica una delle due situazioni seguenti:

  • Troppe informazioni confondono i lettori.
  • Troppe poche informazioni confondono i lettori.

In qualità di autore di una scheda dati, devi selezionare e dare la priorità alle informazioni contenute. Un buon artefatto di trasparenza fornisce un contesto sufficiente per consentire ai lettori di acquisire una comprensione chiara. In caso contrario, indica all'utente dove andare.

Vuoi fornire informazioni che rendano il set di dati facile da comprendere e utilizzare. A volte, la complessità del set di dati aumenta, il che influisce sulla densità di informazioni e spiegazioni che devi riassumere nella scheda dei dati.

Indipendentemente dal livello di competenza dei lettori, chiunque può essere sopraffatto dalle informazioni, quindi è importante presentare le informazioni corrette, che includono quanto segue:

  • Il tipo di informazioni che devi fornire.
  • Quante informazioni hai da offrire.
  • I dettagli.

Le risposte devono riassumere tutto senza entrare nei dettagli e riflettere il contesto necessario ai lettori per ottenere informazioni sul tuo set di dati.

Euristiche

Abbiamo creato un insieme di euristiche che puoi utilizzare per valutare l'esperienza complessiva di lettura della tua scheda dati. Consideriamo queste euristiche come obiettivi che le schede dei dati devono soddisfare per avere successo e per essere adottate in modo appropriato nella pratica e su larga scala. La tabella seguente contiene questi obiettivi e le relative descrizioni:

Obiettivo

Descrizione

Coerente

Le schede dei dati devono essere comparabili tra loro indipendentemente dalla modalità o dal dominio dei dati, in modo che le rivendicazioni siano facili da interpretare e convalidare nel contesto di utilizzo. Sebbene l'implementazione delle schede di dati una tantum sia relativamente semplice, abbiamo notato che i team e le organizzazioni devono preservare la comparabilità quando aumentano l'adozione.

Completo

Anziché essere creata come ultimo passaggio nel ciclo di vita di un set di dati, la scheda di dati deve essere creata contemporaneamente al set di dati. Inoltre, la responsabilità di compilare i campi di una scheda dati deve essere distribuita e assegnata alla persona più appropriata. Ciò richiede metodi standardizzati che vanno oltre la scheda Dati e si applicano ai vari report generati nel ciclo di vita del set di dati.

Intelligibile e conciso

I lettori hanno diversi livelli di competenza, il che influisce sulla loro interpretazione della scheda dei dati. Negli scenari in cui le competenze degli stakeholder sono diverse, le persone con il modello mentale più solido del set di dati diventano i responsabili delle decisioni di fatto. Infine, le attività più urgenti o impegnative possono ridurre la partecipazione di stakeholder non tradizionali alle decisioni, che vengono lasciate "all'esperto". In questo modo si rischia di omettere prospettive fondamentali che riflettono le esigenze specifiche degli stakeholder a valle e laterali. Una scheda dei dati deve comunicare in modo efficiente con il lettore con la minore competenza e consentire ai lettori con maggiore competenza di trovare ulteriori informazioni, se necessario. I contenuti e il design devono far progredire il processo di deliberazione del lettore senza sopraffarlo e incoraggiare la cooperazione degli stakeholder verso un modello mentale condiviso del set di dati per il processo decisionale.

4. Assegnare un punteggio alle euristiche

  • Per esaminare le risposte alla tua scheda dati, utilizza il seguente prospetto che abbiamo creato per assegnare un punteggio a ciascuna euristica. Alla fine, puoi calcolare il punteggio complessivo della tua scheda dati, che ti aiuta a rimanere in linea con i tuoi obiettivi. Puoi anche includere commenti per acquisire contesto e attività aggiuntivi necessari per migliorare ogni euristica.

Euristiche

Criteri

Commenti

Punteggio

Valuta autonomamente la scheda dei dati completata in base alle seguenti euristiche.

Criteri per l'euristica

Presta particolare attenzione alle aree in cui la scheda dati può essere migliorata.

Solo numeri, autovalutazione (0-10)

Intelligibile
Il design e i contenuti dell'artefatto di trasparenza sono efficaci, pertinenti e facili da comprendere per la maggior parte degli agenti esperti e non esperti.

  • Efficace:la maggior parte degli agenti può ottenere risposte appropriate a domande ragionevoli sul set di dati o sul modello.
  • Pertinenti:le spiegazioni, le visualizzazioni e i risultati delle analisi inclusi sono pertinenti e utili per la maggior parte degli agenti.
  • Comprensibile: le informazioni possono essere facilmente comprese dagli agenti esperti e non esperti.

.

.

Completa
La scheda dei dati consente ai lettori di comprendere facilmente l'argomento del set di dati o del modello, come è stato creato e cosa è importante sapere prima di utilizzarlo.

  • Significative:le informazioni che stabiliscono il contesto del set di dati e sono utili a tutte le parti interessate sono leggibili.
  • Completo:le informazioni sono coerenti e complete e descrivono in modo appropriato tutte le fasi del ciclo di vita di un set di dati.
  • Approfondimento:i riepiloghi sono leggibili per i lettori generici e rimandano a informazioni aggiuntive più dettagliate o specifiche per i lettori avanzati.

.

.

Coerente
La scheda dei dati segue le convenzioni della piattaforma e del settore e mantiene la coerenza al suo interno e con altre schede di trasparenza simili.

  • Riconoscibile:le sezioni sono organizzate in un ordine logico in modo che i lettori possano riconoscere dove trovare le informazioni.
  • Standardizzato : utilizza termini standard del settore e descrive deviazioni o personalizzazioni, se pertinenti.
  • Chiaro:lo stesso termine indica lo stesso concetto ogni volta che viene utilizzato.

.

.

Concisa
: il design e i contenuti della scheda riducono informazioni vaste e complesse in parti significative e digeribili di relativa importanza che soddisfano le esigenze di lettori principianti ed esperti.

  • Comprensibili:il significato e l'importanza relativi di parole chiave, coppie chiave-valore e riepiloghi visivi sono facili da comprendere.
  • A colpo d'occhio: è chiaro a colpo d'occhio se e come i lettori possono utilizzare il set di dati per raggiungere i propri obiettivi.
  • Contestuale:le conoscenze di base e il contesto vengono distillati o astratti per la comprensione senza sacrificare la natura e le sfumature del set di dati.

.

.

Punteggio totale = (Punti totali/120)

.

.

/120

5. Analisi ponderata

Sappiamo che i dati sono informazioni su persone, culture o attività acquisite in modo strutturato per uno scopo specifico. Tuttavia, come affermato più volte, sono tutti sfumati, intrecciati da diverse dimensioni con vari gradi. In questo modo, l'analisi che esegui sul set di dati offre una finestra sul pensiero che è stato inserito nel set di dati stesso, il che aiuta a comprendere le sue complessità.

Ad esempio, un'analisi intersezionale delle persone può esplorare le combinazioni di fattori umani all'interno di un set di dati per identificare potenziali risultati sproporzionati, ad esempio quando un modello addestrato su un set di dati ha un rendimento migliore per un sottogruppo rispetto ad altri. Un'analisi disaggregata suddivide il set di dati in base a diversi fattori per rivelare pattern importanti per sottogruppi o popolazioni emarginate che in genere sono mascherati da dati aggregati più grandi, in modo che i lettori possano prevedere i risultati.

In questo modo, scopriamo che l'intersezionalità e le analisi disaggregate (IDA) sono modi efficaci per comunicare una serie di risultati plausibili in diverse circostanze in una scheda dati attraverso la creazione di relazioni chiare in un set di dati. L'analisi dei dati interni può offrire ai lettori indizi fondamentali sulla rappresentazione nel tuo set di dati, ad esempio la correlazione tra le etichette e le entità sensibili, le lacune nel tuo set di dati, ad esempio il fatto che il set di dati contenga solo fotografie scattate durante il giorno, e la relazione tra le variabili che possono successivamente indurre i modelli di AI ad apprendere correlazioni spurie o a scegliere proxy. Queste analisi diventano ancora più utili quando vengono inserite in circostanze reali che riflettono l'esperienza che gli utenti interessati potrebbero avere con un prodotto o servizio che utilizza il tuo set di dati.

Ad esempio, la presentazione dei risultati dell'analisi differenziale intrinseca in una scheda dei dati aiuta i lettori a sviluppare in modo proattivo un'intuizione su come il modello ML funziona su sottoinsiemi, noti anche come sezioni, nel set di dati. Sebbene ciò richieda ai creatori di set di dati di essere più diligenti nelle loro analisi del set di dati e nella sua presentazione nella scheda dei dati, alla fine può portare a risultati migliori per gli stakeholder.

IDA può aiutare i lettori a capire meglio come utilizzare il tuo set di dati nei loro modelli. Se hai difficoltà, collabora con esperti, team di prodotto e persone con esperienza diretta per inquadrare le tue analisi. L'IDA è spesso radicata in contesti che devono essere spiegati ai lettori o richiedono un supporto aggiuntivo in modo che possano essere interpretati in modo appropriato.

6. Analizza i tuoi dati

Per analizzare il set di dati, segui questi passaggi:

  1. Esplora prima di iniziare l'analisi. Sviluppa un'intuizione per le distorsioni e gli squilibri nel tuo set di dati con uno strumento, come TensorFlow Data Validation (TFDV) o Learning Interpretability Tool (LIT). Utilizza i risultati per definire la progettazione dell'analisi.
  2. Progetta l'analisi con attenzione. I risultati dell'analisi sono fortemente influenzati dagli scopi della valutazione, dall'accesso a competenze e risorse per condurre l'analisi, da quando e dove viene condotta e dai contesti dei modelli di AI in cui viene condotta.
  3. Inizia con i fattori pertinenti all'uso previsto. Allinea i fattori demografici, socioculturali, comportamentali e morfologici che possono influire maggiormente sui casi d'uso previsti quando crei gruppi di interesse e poi espandili.
  4. Segnala, non commentare. Tieni presente che i fattori e i presupposti che influiscono sulle analisi di equità esistono in costrutti sociali storicamente e culturalmente specifici difficili da quantificare. Fai attenzione a non aggiungere commenti che potrebbero confondere il lettore. Fornisci invece modi per riprodurre le analisi che possono aiutare i lettori a calibrare i risultati nel proprio contesto.
  5. Pianifica il futuro. Tieni conto di fattori aggiuntivi che potrebbero comparire in futuro esaminando la rappresentazione nel set di dati, mantenendo costanti i valori in diversi scenari o combinando l'analisi con un intervallo di valori di fattori aggiuntivi pertinenti al set di dati.
  6. Fornisci maggiori informazioni sui risultati non riproducibili. Se le metriche non possono essere riprodotte dagli stakeholder downstream, fornisci un contesto sufficiente per l'analisi. Se un lettore può utilizzare queste informazioni per valutare i pro e i contro del set di dati, può creare fiducia nel set di dati.

7. Complimenti

Complimenti! Esistono diversi modi per fornire le risposte corrette nella scheda dati. Ora puoi eseguirne l'audit.