Modulo 2: ispezione

1. Acquisizione delle conoscenze

I temi emergono naturalmente mentre esplori la tipologia di stakeholder, acquisisci le loro esigenze informative uniche e applichi diverse granularità per formulare le domande. Per aiutarti a ordinare e strutturare il tema delle domande, abbiamo creato un framework di acquisizione delle conoscenze che ti fornisce un approccio solido, deliberato e ripetibile per produrre documentazione sulla trasparenza.

L'acquisizione di conoscenza è l'estrazione, la strutturazione e l'organizzazione della conoscenza da una fonte, di solito esperti umani, in modo che possa essere utilizzata, ad esempio, nel prodotto o nella tecnologia su cui lavori.

Il nostro framework si chiama OFTEn, uno strumento concettuale per l'esame sistematico di come gli argomenti si diffondono in tutte le parti di una scheda dati. L'abbiamo creato attraverso indagini dettagliate sulla trasparenza dei set di dati induttivi e deduttivi.

OFTEn

OFTEn è l'abbreviazione delle fasi generali del ciclo di vita del set di dati: Origini, Factuals, Trasformazioni, Experience e n = 1 (campioni).

Origins

La fase delle origini comprende le varie attività di pianificazione che determinano il risultato finale, come la definizione dei requisiti, i metodi di raccolta o di approvvigionamento e le decisioni relative alla progettazione e alle norme.

I temi che emergono dalle domande sul tipo di origine includono:

  • Autori e proprietari
  • Motivazioni
  • Applicazioni previste
  • Metodi di raccolta
  • Licenze
  • Versioni
  • Fonti
  • Errata
  • Parti responsabili

Factuals

La fase Fatti rappresenta gli attributi statistici e altri attributi fattuali che descrivono il set di dati, le deviazioni dal piano originale e qualsiasi analisi pre-wrangling.

I temi che emergono dalle domande di tipo fattuale includono quanto segue:

  • Numero di istanze
  • Numero di funzioni
  • Numero di etichette
  • Origine delle etichette
  • Origine dei dati
  • Suddivisione dei sottogruppi
  • Forma delle funzionalità
  • Descrizione delle funzionalità
  • Elementi mancanti o duplicati
  • Criterio di inclusione

Trasformazioni

La fase Trasformazioni include i riepiloghi delle attività di etichettatura, annotazione o convalida. A seconda del set di dati, potrebbero sorgere processi di aggiudicazione tra valutatori. Inoltre, l'ingegneria delle funzionalità e le modifiche apportate per gestire la privacy, la sicurezza o le informazioni che consentono l'identificazione personale (PII) vengono conteggiate come trasformazioni.

I temi che acquisiscono domande di tipo trasformativo includono quanto segue:

  • Valutazione o annotazione
  • Filtri
  • Elaborazione
  • Convalida
  • Proprietà statistiche
  • Funzionalità sintetiche
  • Gestione delle PII
  • Variabili sensibili
  • Impatto sull'equità
  • Distorsioni o pregiudizi

Esperienza

La fase di esperienza prevede l'utilizzo dei dati per attività specifiche, la formazione sull'accesso, l'apporto di modifiche per adattarsi all'attività, l'acquisizione dei risultati e il confronto con altri set di dati simili, nonché la registrazione di eventuali comportamenti previsti o imprevisti.

I temi che illustrano le domande sul tipo di esperienza includono quanto segue:

  • Prestazioni previste
  • Applicazione non intenzionale
  • Rendimento imprevisto
  • Avvertenze
  • Approfondimenti
  • Esperienze
  • Storie
  • Utilizza
  • Valutazione del caso d'uso

n = 1 (Samples)

La fase n = 1 (campioni) riguarda i dettagli dei punti dati di distribuzione, la dimostrazione di punti dati degni di nota con attributi specifici e, se applicabile, la modellazione dei risultati.

I temi dimostrati dalle domande di tipo campione includono quanto segue:

  • Esempi o link a esempi tipici e valori anomali.
  • Esempi che generano falsi positivi o falsi negativi.
  • Esempi che mostrano la gestione di valori delle caratteristiche null o pari a zero.

Esempio

Ad esempio, il seguente insieme di domande è stato organizzato con OFTEn:

Chi

Cosa

Quando

Dove

Perché

Come

Origini

Chi pubblica il set di dati? Sono diversi dai proprietari dei set di dati?

Quali sono gli incentivi per etichettatori, fornitori ed esperti di dati impiegati per questo set di dati?

Quando è stato creato questo set di dati? Lanciato?

Da dove provengono i finanziamenti?

Perché è stato creato questo set di dati? Qual era la procedura precedente?

Come sono stati decisi i metodi e quante parti sono state coinvolte?

Factuals

A chi si riferiscono i dati? Gli etichettatori sono rappresentativi delle persone nei dati?

Quali sono i sottogruppi nei dati che possono influire sui risultati nel machine learning?

A quale periodo di tempo si riferiscono i dati? Quando i dati scadono o vengono esauriti in modo anomalo?

Dove è possibile accedere al set di dati? Dove sono stati raccolti o creati i dati?

Perché sono state scelte le metriche segnalate? Perché sono state scelte etichette specifiche?

Quante etichette univoche esistono nel set di dati? Come sono stati generati?

Trasformazioni

Come sono state gestite le informazioni PII in questo set di dati? I risultati di questo set di dati possono essere utilizzati per identificare le persone?

Quali metodi sono stati utilizzati per pulire o verificare questo set di dati?

Quando e come devono essere progettate le funzionalità? Devono essere aggiornati?

Le funzionalità di localizzazione sono correlate ad altre funzionalità sensibili?

Perché le trasformazioni scelte sono state applicate al set di dati?

Come vengono gestiti i pregiudizi o le informazioni PII nei dati?

Esperienza

Chi può utilizzare questo set di dati e per quali attività? Sono previsti corsi di formazione obbligatori?

Quali sono stati i metodi, i risultati o gli errori scoperti durante l'utilizzo del set di dati?

In quali circostanze e quando non deve essere utilizzato questo set di dati?

In quale parte del mondo è accessibile questo set di dati? Dove è stato utilizzato?

Perché la rappresentazione prevista del set di dati è diversa da quella osservata?

Quanto costa il traffico dati in diverse parti del mondo?

n = 1 (campioni)

Il punto dati è tipico o atipico? Come si comportano i modelli qui?

Qual è la dimensione del punto dati? Qual è la procedura di consenso, oscuramento e ritiro per intervenire su un punto dati?

Quando cambia il risultato di un punto dati? Mostrare esempi attraverso scenari controfattuali?

Quali fattori sono integrati nel punto dati? Quali sono i rischi se le previsioni vanno male?

Perché questo punto dati dell'immagine viene ritagliato in un determinato modo? Perché alcune categorie non vengono compilate in questo punto dati?

In che modo questo punto dati si collega a un input reale? In che modo il risultato si collega a un output reale?

Abbiamo scoperto che le schede dati con una struttura OFTEn sottostante chiara sono facili da espandere e aggiornare. Con OFTEn, le schede dei dati possono crescere nel tempo fino a includere argomenti in genere esclusi dalla documentazione, come il feedback degli agenti downstream, differenze notevoli tra le versioni e audit o indagini ad hoc di produttori o agenti.

Riepilogo

La tabella seguente riassume il framework OFTEn e descrive le fasi generali del ciclo di vita di un set di dati:

Stage (Palco)

Descrizione

Origini

Le prime fasi del ciclo di vita di un set di dati, quando vengono prese le decisioni per creare un set di dati.

Factuals

Processi di raccolta dei dati effettivi e output non elaborati.

Trasformazioni

I dati non elaborati vengono trasformati in un formato utilizzabile tramite operazioni come filtraggio, convalida, analisi, formattazione e pulizia.

Esperienza

Il set di dati è testato, sottoposto a benchmark o implementato nella pratica (sperimentale, di produzione o di ricerca).

n = 1 (campioni)

Esempi reali del set di dati, o vignette, che rappresentano punti dati normali e outlier.

Esistono due modi per utilizzare OFTEn quando crei una scheda dati:

  • In modo induttivo, OFTEn supporta le attività con gli agenti per formulare domande su set di dati e modelli correlati che sono fondamentali per il processo decisionale. Abbiamo scoperto che quando molti agenti si riuniscono per fare brainstorming sulle domande con una struttura OFTEn, vengono rivelate informazioni necessarie per prendere decisioni mirate.
  • In modo deduttivo, OFTEn può essere utilizzato per valutare se una scheda dei dati rappresenta accuratamente il set di dati, il che ha effetti formativi sulla documentazione e sul set di dati. Ad esempio, i set di dati nella fase iniziale sono più orientati verso Origini e Fatti, mentre i set di dati maturi dovrebbero essere orientati verso Esperienza.

Con OFTEn, puoi fare brainstorming e verificare in che misura le tue domande coprono il ciclo di vita del tuo set di dati, il che garantisce che i tuoi contenuti saranno alla fine completi e semplificati. Non solo ti aiuta a trovare ridondanze nei tipi di domande che crei, ma colma anche eventuali lacune che potresti riscontrare lungo il percorso.

2. Inquadrare le domande con OFTEn

  1. Pensa ad alcuni dei tuoi stakeholder e ai percorsi delle informazioni degli agenti (AIJ) che hai formulato nel modulo precedente, quindi utilizza i seguenti prompt per strutturare i tuoi pensieri.

9bd35227601ae104.png

  1. Se alcune delle tue domande rientrano già in una delle categorie OFTEn, etichettale come tale.
  2. Se le tue domande non rientrano in una delle categorie OFTEn, scegli uno degli agenti del modulo precedente e crea almeno una domanda per ogni categoria OFTEn per l'agente.
  3. Crea domande aggiuntive basate sulle cinque W (chi, cosa, dove, quando e perché) e su una H (come) per ampliare la profondità della categoria OFTEn.
  4. Se applicabile, ripeti questi passaggi per l'agente successivo.

3. Dimensioni

Ora che hai compreso OFTEn e creato le domande da includere nella scheda dei dati, puoi scoprire informazioni sulle tue domande eseguendo una prima passata della scheda dei dati. A questo scopo, stiamo introducendo le dimensioni, ovvero descrizioni di alto livello dei diversi tipi di giudizi che i lettori formulano, che forniscono informazioni direzionali sull'utilità e la leggibilità della scheda dati. In altre parole, la scheda dei dati può aiutare i lettori a trarre una conclusione informata sul tuo set di dati?

Responsabile

Una scheda dati responsabile è di proprietà e gestita da persone che dimostrano proprietà, riflessione, ragionamento e processo decisionale sistematico adeguati in merito al set di dati e al suo utilizzo.

Aree di esempio

Domande di esempio

Autore, responsabilità, manutenzione, intenzioni

In qualità di [prospettiva], voglio sapere...

...sui publisher del set di dati.

...sulle norme e sulle limitazioni di accesso del set di dati.

...sulle spiegazioni e sulle motivazioni per la creazione del set di dati.

Utilità o utilizzo

Una scheda dei dati utile fornisce dettagli che soddisfano le esigenze informative dei lettori, il che porta a un processo decisionale responsabile che stabilisce l'idoneità del set di dati per le loro attività e i loro obiettivi.

Aree di esempio

Domande di esempio

Esigenze del produttore, dell'agente, dell'utente e della società

In qualità di [prospettiva], voglio sapere…

…definizioni e spiegazioni dei termini tecnici utilizzati nella documentazione (metriche, punteggi, termini specifici del settore, acronimi).

…aspettative sull'utilizzo del set di dati con altri set di dati o tabelle (ingegneria delle funzionalità, unione, campionamento e analisi comparativa).

…le applicazioni previste del set di dati.

Qualità

Una scheda dei dati di alta qualità riassume il rigore, l'integrità e la completezza del set di dati, spesso comunicati in modo accessibile e comprensibile a lettori di diversa estrazione.

Aree di esempio

Domande di esempio

Validità,affidabilità, integrità, riproducibilità

In qualità di [prospettiva], voglio sapere…

…se esistono pattern noti (correlazioni, bias o asimmetrie) all'interno del set di dati.

…qualsiasi processo di convalida del set di dati, spiegazione e risultati.

…quali misure di privacy e sicurezza sono state applicate al set di dati.

Impatto o conseguenze dell'utilizzo

Una scheda dati che descrive in modo adeguato l'impatto dell'utilizzo del set di dati definisce le aspettative sui risultati quando si utilizza e si gestisce il set di dati e riconosce eventuali conseguenze di primo o secondo ordine che potrebbero influire negativamente sugli obiettivi dei lettori.

Aree di esempio

Domande di esempio

Efficacia, pertinenza, beneficio di gruppo,implicazioni delle deviazioni

In qualità di [prospettiva], voglio sapere…

…l'utilizzo passato e il rendimento associato del set di dati (ad esempio, i modelli addestrati)

…le norme associate al set di dati (ad esempio, le licenze)

…se nel set di dati sono presenti pattern noti (correlazioni, distorsioni o asimmetrie).

Rischi e consigli

Una scheda di dati che offre buoni consigli rende i lettori consapevoli dei rischi e delle limitazioni noti e potenziali derivanti dalla provenienza, dalla rappresentazione, dall'utilizzo o dal contesto di utilizzo e fornisce informazioni e alternative sufficienti per aiutare i lettori a fare scelte responsabili.

Aree di esempio

Domande di esempio

Magnitudo del rischio, mitigazioni, consigli, danni al gruppo

In qualità di [prospettiva], voglio sapere...

...la sicurezza (rischi, limitazioni e compromessi) dell'utilizzo del set di dati.

...qualsiasi rappresentazione socioculturale, geografica o economica delle persone nel set di dati.

...se mancano attributi nel set di dati o nella relativa documentazione.

Riepilogo

Con le dimensioni, puoi valutare il tuo insieme di domande per assicurarti che siano in linea con i tuoi obiettivi e i risultati desiderati. Anche se non hai ancora risposto a una domanda nella scheda dei dati, è meglio correggere eventuali errori prima di addentrarti troppo nel processo di documentazione del set di dati.

La tabella seguente riassume le cinque dimensioni:

Stage (Palco)

Descrizione

Responsabilità

Affermazioni che esprimono decisioni riflessive, ragionevoli e sistematiche dei diversi stakeholder in merito all'affidabilità del set di dati.

Utilità

Fornisce dettagli che soddisfano le esigenze del processo decisionale responsabile dei lettori e stabilisce l'idoneità dei casi d'uso in relazione ai loro obiettivi.

Qualità

Riassume il rigore, l'integrità e la completezza del set di dati in modo accessibile a molti lettori.

Impatto e conseguenze

Informazioni che aiutano i lettori a raggiungere i risultati desiderati quando utilizzano e gestiscono il set di dati e riconoscono le conseguenze che potrebbero influire negativamente sui loro obiettivi.

Rischi e consigli

Consente ai lettori di conoscere i rischi noti e potenziali associati al set di dati derivanti dalla rappresentazione, dall'utilizzo o dal contesto di utilizzo.

Con questi diversi tipi di dimensioni, puoi scoprire informazioni sulla qualità, la leggibilità e l'utilità dei contenuti della scheda dati prima ancora di iniziare a completarla. Ti aiutano a identificare gli elementi di azione che contribuiscono a un modello di scheda dei dati più solido e perfezionato.

4. Valutare le domande con le dimensioni

  1. Inizia con una sola dimensione, poi determina il livello di fluidità e competenza necessario per arrivare a una conclusione informata in base alla complessità del tuo insieme di domande.
  2. Fornisci una motivazione e un ragionamento per spiegare in che modo la dimensione è attualmente supportata dal tuo insieme di domande.
  3. Fornisci prove a sostegno della tua motivazione attraverso una o due domande di esempio del tuo insieme di domande.
  4. Se la dimensione non ti sembra adatta, annota i passaggi da seguire per perfezionarla o risolvere le carenze. Se lavori con un team di stakeholder, assegna la responsabilità nel caso in cui alcuni stakeholder siano più adatti a rispondere a determinate domande.
  5. Ripeti questi passaggi per la dimensione successiva.

Di seguito è riportato un modello di esempio che puoi utilizzare per acquisire la valutazione delle dimensioni:

3f33557b62abe5ce.png

Questo processo di valutazione può richiedere da 15 minuti a un'ora, a seconda della quantità di domande che crei e della varietà di stakeholder da considerare per la scheda di dati.

5. Complimenti

Complimenti! Hai un modo per esaminare le domande che hai creato per la tua scheda dati. Ora puoi rispondere.