Glossario del machine learning: equità

Questa pagina contiene i termini del glossario di correttezza. Per tutti i termini del glossario, fai clic qui.

A

attributo

#fairness

Sinonimo di feature.

Nell'equità del machine learning, gli attributi si riferiscono spesso alle caratteristiche relative a singoli individui.

bias automazione

#fairness

Quando un responsabile delle decisioni umano favorisce i consigli fatti da un sistema decisionale automatizzato rispetto alle informazioni fatte senza automazione, anche quando il sistema decisionale automatizzato commette errori.

B

bias (etica/equità)

#fairness
#fundamentals

1. Stereotipi, pregiudizi o favoritismi verso alcune persone, persone o gruppi rispetto ad altri. Questi pregiudizi possono influenzare la raccolta e l'interpretazione dei dati, la progettazione di un sistema e il modo in cui gli utenti interagiscono con un sistema. I tipi di bias sono:

2. Errore sistematico introdotto da una procedura di campionamento o reporting. I tipi di bias sono:

Da non confondere con il termine del bias nei modelli di machine learning o con il previsione predittiva.

C

bias di conferma

#fairness

La tendenza a cercare, interpretare, favorire e richiamare le informazioni in un modo che confermi le proprie convinzioni o ipotesi preesistenti. Gli sviluppatori di machine learning potrebbero inavvertitamente raccogliere o etichettare dati in modi che influenzano un risultato a sostegno delle loro credenze esistenti. Il bias di conferma è una forma di pregiudizio implicito.

Il bias dell'esperimento è un tipo di bias di conferma in cui uno sperimentatore continua ad addestrare modelli fino a quando non viene confermata un'ipotesi preesistente.

equità controfattuale

#fairness
Una metrica di equità che controlla se un classificatore genera lo stesso risultato per un individuo e per un altro individuo identico al primo, tranne che per uno o più attributi sensibili. La valutazione di un classificatore per garantire l'equità controfattuale è un metodo per scoprire le potenziali fonti di bias in un modello.

Consulta "when Worlds Collide: Integrate Different Counterfactual Assumptions in Fairness" per una discussione più dettagliata sull'equità controfattuale.

bias di copertura

#fairness

Consulta la sezione bias della selezione.

D

parità demografica

#fairness

Una metrica di equità che viene soddisfatta se i risultati della classificazione di un modello non dipendono da un determinato attributo sensibile.

Ad esempio, se sia i Lilliputiani che i Brobdingnagiani si applicano all'Università di Glubbdubdrib, la parità demografica viene raggiunta se la percentuale di Lilliputi ammessi è uguale alla percentuale di Brobdingnagia ammessi, indipendentemente dal fatto che un gruppo sia in media più qualificato dell'altro.

Contrasto con disparità di parità e uguaglianza di opportunità, che consentono ai risultati di classificazione di dipendere complessivamente da attributi sensibili, ma non consentire che i risultati della classificazione per determinate etichette basate su dati empirici reali dipendano da attributi sensibili. Consulta la pagina "Allentare le discriminazioni con il machine learning più intelligente" per ottenere una visualizzazione dei dettagli relativi ai vantaggi dell'ottimizzazione per la parità demografica.

impatto disparato

#fairness

Prendere decisioni su persone che hanno un impatto su diversi sottogruppi di popolazione in modo sproporzionato. Questo di solito si riferisce a situazioni in cui un processo decisionale algoritmico danneggia o apporta alcuni benefici ad alcuni sottogruppi rispetto ad altri.

Ad esempio, supponiamo che un algoritmo che stabilisca l'idoneità di un libretto a un mutuo per la casa in miniatura abbia maggiori probabilità di classificarlo come "non idoneo" se il suo indirizzo postale contiene un determinato codice postale. Se è più probabile che gli indirizzi postali con questo codice postale siano più grandi di quelli di Little-Endian Lilliputians, questo algoritmo potrebbe avere effetti disparati.

Al contrario del trattamento discutibile, che si concentra sulle disparità che si traducono quando le caratteristiche dei sottogruppi sono input espliciti a un processo decisionale algoritmico.

trattamento variegato

#fairness

Fattorizzazione degli attributi sensibili dei soggetti in un processo decisionale algoritmico in modo che i diversi sottogruppi di persone siano trattati in modo diverso.

Ad esempio, prendi in considerazione un algoritmo che determini l'idoneità di Lilliputians per un prestito per la casa in miniatura in base ai dati forniti nella richiesta di prestito. Se l'algoritmo utilizza un'affiliazione di Lilliputian come Big-Endian o Little-Endian come input, sta applicando un trattamento eterogeneo a questa dimensione.

Contrasto con l'impatto disapprovato, che si concentra sulle disparità negli impatti sociali delle decisioni algoritmiche sui sottogruppi, indipendentemente dal fatto che questi sottogruppi siano input per il modello.

E

uguaglianza di opportunità

#fairness
Una metrica di equità che controlla se, per un'etichetta preferita (che conferisce un vantaggio o un vantaggio a una persona) e un determinato attributo, un classificatore prevede che l'etichetta preferita sia altrettanto buona per tutti i valori di tale attributo. In altre parole, l'uguaglianza di opportunità misura se le persone che devono essere idonee per un'opportunità hanno uguali probabilità di farlo indipendentemente dalla loro appartenenza al gruppo.

Ad esempio, supponiamo che l'Università di Glubbdubdrib ammiri sia i lilliputiani sia i Brobdingnagiani a un rigoroso programma di matematica. Le scuole secondarie di Lilliputians offrono un solido programma di corsi di matematica e la stragrande maggioranza degli studenti è idonea al programma universitario. Le scuole secondarie di Brobdingnagians non offrono affatto corsi di matematica e, di conseguenza, molti meno studenti sono qualificati. L'uguaglianza di opportunità è soddisfatta per l'etichetta preferita "ammissione" rispetto alla nazionalità (Lilliputiano o Brobdingnagian) se gli studenti qualificati sono ugualmente ammessi indipendentemente dal fatto che siano studenti lilliputiani o brobdingnagiani.

Ad esempio, supponiamo che 100 Lilliputiani e 100 Brobdingnagiani si applichino all'Università di Glubbdubdrib e le decisioni di ammissione vengano prese come segue:

Tabella 1. Candidati lilliputiani (il 90% è qualificato)

  Qualificato Non qualificato
Ammesso 45 3
Rifiutato 45 7
Totale 90 10
Percentuale di studenti qualificati ammessi: 45/90 = 50%
Percentuale di studenti non qualificati rifiutati: 7/10 = 70%
Percentuale totale di studenti lilimpiani ammessi: (45 + 3)/100 = 48%

 

Tabella 2. Richiedenti di brobdingnagian (il 10% è idoneo):

  Qualificato Non qualificato
Ammesso 5 9
Rifiutato 5 81
Totale 10 90
Percentuale di studenti qualificati ammessi: 5/10 = 50%
Percentuale di studenti non qualificati rifiutati: 81/90 = 90%
Percentuale totale di studenti Brobdingnagian ammessi: (5 + 9)/100 = 14%

Gli esempi precedenti soddisfano l'uguaglianza di opportunità di accettazione degli studenti qualificati, perché entrambi hanno il 50% di probabilità di essere ammessi.

Consulta "Uguaglianza di opportunità nell'apprendimento supervisionato" per una discussione più dettagliata sulla parità delle opportunità. Consulta anche la sezione "Allentare le discriminazioni con il machine learning più intelligente" per una visualizzazione che esplora i compromessi quando si ottimizza per l'uguaglianza di opportunità.

probabilità equalizzate

#fairness
Una metrica di equità che controlla se, per una determinata etichetta e attributo, un classificatore prevede che l'etichetta sia altrettanto valida per tutti i valori dell'attributo.

Ad esempio, supponiamo che la Glubbdubdrib University ammetta sia i lilliputi che i brobdingnagiani a un rigoroso programma di matematica. Le scuole secondarie di Lilliputians offrono un programma di studio delle lezioni di matematica e la maggior parte degli studenti è qualificata per il programma universitario. Le scuole secondarie di Brobdingnagians non offrono affatto corsi di matematica e, di conseguenza, molti meno studenti sono qualificati. Le probabilità di parità sono soddisfatte a condizione che, indipendentemente dal fatto che un richiedente sia un Lilliputiano o un Brobdingnagiano, se è idoneo, ha la stessa probabilità di essere ammesso al programma e, se non è qualificato, ha la stessa probabilità di essere rifiutato.

Diciamo che 100 lilliputiani e 100 brobdingnagiani si applicano all'Università Glubbdubdrib e le decisioni di ammissione vengono prese come segue:

Tabella 3. Candidati lilliputiani (il 90% è qualificato)

  Qualificato Non qualificato
Ammesso 45 2
Rifiutato 45 8
Totale 90 10
Percentuale di studenti qualificati ammessi: 45/90 = 50%
Percentuale di studenti non qualificati rifiutati: 8/10 = 80%
Percentuale totale di studenti liliputiani ammessi: (45 + 2)/100 = 47%

 

Tabella 4. Richiedenti di brobdingnagian (il 10% è idoneo):

  Qualificato Non qualificato
Ammesso 5 18
Rifiutato 5 72
Totale 10 90
Percentuale di studenti qualificati ammessi: 5/10 = 50%
Percentuale di studenti non qualificati rifiutati: 72/90 = 80%
Percentuale totale di studenti Brobdingnagian ammessi: (5 + 18)/100 = 23%

Le probabilità uguali sono soddisfatte perché gli studenti Lilliputian e Brobdingnagian qualificati hanno il 50% di probabilità di essere ammessi, mentre il Lilliputian e il Brobdingnagian hanno una probabilità dell'80% di essere rifiutati.

Le probabilità equalizzate sono definite formalmente in "Uguaglianza di opportunità nell'apprendimento supervisionato" come segue: "il predittore Ķ soddisfa le probabilità equalizzate rispetto all'attributo protetto A e al risultato Y se ÷" e A sono indipendenti, condizionali su Y".

bias dell'esperimento

#fairness

Vedi bias di conferma.

V

vincolo di equità

#fairness
Applicare un vincolo a un algoritmo per garantire che una o più definizioni di equità siano soddisfatte. Esempi di vincoli di equità includono:

metrica di equità

#fairness

Una definizione matematica di "equità" che è misurabile. Ecco alcune metriche di equità comunemente utilizzate:

Molte metriche di equità si escludono a vicenda; consulta Incompatibilità delle metriche di equità.

G

bias attribuzione gruppo

#fairness

Supponendo che ciò che valga per un individuo sia vero anche per tutti in quel gruppo. Gli effetti del bias di attribuzione di gruppo possono essere esacerbati se viene utilizzato un campionamento di convenienza per la raccolta dei dati. In un campione non rappresentativo, le attribuzioni possono non essere reali.

Vedi anche pregiudizi omogeneità fuori gruppo e pregiudizi gruppi.

I

bias implicito

#fairness

Creare automaticamente un'associazione o una ipotesi basata sui propri modelli mentali e ricordi. Il bias implicito può influire sui seguenti aspetti:

  • Modalità di raccolta e classificazione dei dati.
  • Come vengono progettati e sviluppati i sistemi di machine learning.

Ad esempio, quando crei un classificatore per identificare le foto di matrimonio, un ingegnere può utilizzare la presenza di un abito bianco in una foto come funzionalità. Tuttavia, gli abiti bianchi sono stati consueti solo in alcune epoche e in determinate culture.

Vedi anche il pregiudizio di conferma.

incompatibilità delle metriche di equità

#fairness

L'idea che alcune nozioni di equità siano reciprocamente incompatibili e non possano essere soddisfatte contemporaneamente. Di conseguenza, non esiste una singola metrica universale per la quantificazione dell'equità che possa essere applicata a tutti i problemi di ML.

Anche se può sembrare scoraggiante, l'incompatibilità delle metriche di equità non significa che gli sforzi di equità siano inutili. Suggerisce, invece, che l'equità debba essere definita contestualmente per un determinato problema di ML, con l'obiettivo di prevenire danni specifici per i suoi casi d'uso.

Per una discussione più dettagliata su questo argomento, consulta "(im)possibilità di correttezza").

equità individuale

#fairness

Una metrica di equità che controlla se a persone simili sono classificate in modo simile. Ad esempio, la Brobdingnagian Academy potrebbe soddisfare le esigenze di equità individuale assicurando che due studenti con voti e punteggi di test standardizzati abbiano altrettanto probabilità di ottenere l'ammissione.

Ricorda che l'equità individuale si basa interamente sul modo in cui definisci la "similianza" (in questo caso, i voti e i punteggi dei test) e puoi correre il rischio di introdurre nuovi problemi di equità se la tua metrica di somiglianza manca di informazioni importanti (come il rigore del curriculum di uno studente).

Consulta "Fairness through Awareness" per una discussione più dettagliata sulla correttezza.

bias nel gruppo

#fairness

Mostrare la proporzionalità al proprio gruppo o alle proprie caratteristiche. Se i tester o i valutatori comprendono gli amici, la famiglia o i colleghi dello sviluppatore di machine learning, il bias nel gruppo potrebbe invalidare il test del prodotto o il set di dati.

Il bias nel gruppo è una forma di bias di attribuzione del gruppo. Vedi anche bias omogeneità fuori gruppo.

No

bias non risposta

#fairness

Consulta la sezione bias della selezione.

O

bias omogeneità fuori gruppo

#fairness

La tendenza a vedere i membri del gruppo come più simili ai membri nel gruppo quando confrontano atteggiamenti, valori, caratteristiche della personalità e altre caratteristiche. In-group si riferisce alle persone con cui interagisci regolarmente, mentre out-group si riferisce alle persone con cui non interagisci regolarmente. Se crei un set di dati chiedendo alle persone di fornire attributi sui gruppi esterni, questi attributi potrebbero essere meno specifici e più stereotipati rispetto agli attributi elencati per i partecipanti nel loro gruppo.

Ad esempio, Lilliputians potrebbe descrivere in modo molto dettagliato le case di altri lilliputi, citando piccole differenze in stili architettonici, finestre, porte e dimensioni. Tuttavia, gli stessi Lilliputiani potrebbero semplicemente dichiarare che i Robblenagiane vivono tutti in case identiche,

Il bias di omogeneità del gruppo è una forma di bias di attribuzione del gruppo.

Vedi anche bias nel gruppo.

P

bias di partecipazione

#fairness

Sinonimo di bias non risposta. Consulta la sezione bias della selezione.

post-elaborazione

#fairness
#fundamentals

Modificare l'output di un modello dopo l'esecuzione del modello. La post-elaborazione può essere utilizzata per applicare vincoli di correttezza senza modificare i modelli in sé.

Ad esempio, si potrebbe applicare la post-elaborazione a un classificatore binario impostando una soglia di classificazione in modo che l'uguaglianza di opportunità venga mantenuta per un attributo controllando che la percentuale di veri positivi sia la stessa per tutti i valori di quell'attributo.

parità predittiva

#fairness

Una metrica di equità che controlla se, per un determinato classificatore, le tariffe di precisione sono equivalenti per i sottogruppi considerati.

Ad esempio, un modello che prevede l'accettazione al college soddisferà la parità predittiva per la nazionalità se il tasso di precisione è lo stesso per Lilliputians e Brobdingnagians.

La parità predittiva è a volte chiamata anche parità di frequenza predittiva.

Consulta la sezione "Spiegazione della correttezza" (sezione 3.2.1) per una discussione più dettagliata sulla parità predittiva.

parità di tasso predittiva

#fairness

Un altro nome per parità predittiva.

pre-elaborazione

#fairness
Elaborazione dei dati prima dell'utilizzo per l'addestramento di un modello. La pre-elaborazione potrebbe essere semplice, ad esempio la rimozione di parole da un corpus di testo inglese che non si verifica nel dizionario inglese, o potrebbe essere complessa, come una nuova espressione dei punti dati, che elimina il maggior numero possibile di attributi correlati agli attributi sensibili. La pre-elaborazione può contribuire a soddisfare i limiti di equità.

proxy (attributi sensibili)

#fairness
Un attributo utilizzato come passaggio per un attributo sensibile. Ad esempio, il codice postale di una persona potrebbe essere utilizzato come proxy per il reddito, il gruppo etnico o la etnia.

Dx

bias dei report

#fairness

Il fatto che le frequenza con cui le persone scrivono delle azioni, dei risultati o delle proprietà non rispecchino le loro frequenze reali o il grado in cui una proprietà è caratteristica di una classe di individui. I bias dei report possono influenzare la composizione dei dati da cui imparano i sistemi di machine learning.

Ad esempio, nei libri la parola risata è più prevalente di respirato. Un modello di machine learning che stima la frequenza relativa di ridere e respirare da un corpus di un libro potrebbe stabilire che ridere è più comune che respirare.

D

bias di campionamento

#fairness

Consulta la sezione bias della selezione.

bias selezione

#fairness

Errori nelle conclusioni tratte da dati campionati a causa di un processo di selezione che genera differenze sistematiche tra i campioni osservati nei dati e quelli non osservati. Esistono le seguenti forme di bias di selezione:

  • bias della copertura: la popolazione rappresentata nel set di dati non corrisponde alla popolazione per la quale il modello di machine learning sta eseguendo previsioni.
  • prevariazione di campionamento: i dati non vengono raccolti in modo casuale dal gruppo di destinazione.
  • bias senza risposta (noto anche come pregiudizi di partecipazione): gli utenti di determinati gruppi disattivano i sondaggi a frequenze diverse rispetto agli utenti di altri gruppi.

Ad esempio, supponi di creare un modello di machine learning che preveda la fruizione di un film da parte degli utenti. Per raccogliere i dati sulla formazione, devi distribuire un sondaggio a tutti i partecipanti, in prima fila, che proiettano un film. A prima vista, potrebbe sembrare un modo ragionevole per raccogliere un set di dati; tuttavia, questa forma di raccolta dei dati potrebbe introdurre le seguenti forme di bias di selezione:

  • bias di copertura: il campionamento di una popolazione che ha scelto di vedere il film potrebbe non consentire la generalizzazione delle previsioni del modello per le persone che non hanno già espresso quel livello di interesse per il film;
  • bias di campionamento: anziché un campionamento casuale dalla popolazione prevista (tutte le persone al film), hai campionato solo le persone in prima fila. È possibile che le persone in prima fila siano più interessate al film rispetto a quelle in altre righe.
  • bias di non risposta: in generale, le persone con un'opinione forte tendono a rispondere ai sondaggi facoltativi più spesso di quelle con lievi opinioni. Poiché il sondaggio cinematografico è facoltativo, le risposte sono più propense a formare una distribuzione bimodale rispetto a una normale distribuzione (a forma di campana).

attributo sensibile

#fairness
Un attributo umano che può essere preso in considerazione per motivi legali, etici, sociali o personali.

U

mancanza di consapevolezza (a un attributo sensibile)

#fairness

Una situazione in cui gli attributi sensibili sono presenti, ma non inclusi nei dati di addestramento. Poiché gli attributi sensibili sono spesso correlati ad altri attributi dei dati di un utente, un modello addestrato senza consapevolezza riguardo a un attributo sensibile potrebbe comunque avere un impatto disaerato nei confronti di questo attributo o violare altri limiti di equità.