Glossario del machine learning: equità

Questa pagina contiene termini del glossario dell'equità. Per tutti i termini del glossario, fai clic qui.

A

attributo

#fairness

Sinonimo di feature.

Nell'equità del machine learning, gli attributi spesso si riferiscono a caratteristiche specifiche.

bias di automazione

#fairness

Quando un responsabile delle decisioni umano preferisce i suggerimenti forniti da un sistema decisionale automatizzato rispetto alle informazioni prese senza automazione, anche quando il sistema decisionale automatizzato commette errori.

B

pregiudizi (etica/equità)

#fairness
#fundamentals

1. Stereotipi, pregiudizi o favoritismo nei confronti di alcune cose, persone o gruppi rispetto ad altri. Questi bias possono influenzare la raccolta e l'interpretazione dei dati, la progettazione di un sistema e il modo in cui gli utenti interagiscono con il sistema. Questo tipo di bias include:

2. Errore sistematico introdotto da una procedura di campionamento o di reporting. Questo tipo di bias include:

Da non confondere con il termine di bias nei modelli di machine learning o con il bias di previsione.

C

bias di conferma

#fairness

Tendenza a cercare, interpretare, favorire e ricordare le informazioni in un modo che confermi le proprie convinzioni o ipotesi preesistenti. Gli sviluppatori di machine learning potrebbero inavvertitamente raccogliere o etichettare dati in modi che influenzano un risultato a supporto delle loro convinzioni esistenti. Il bias di conferma è una forma di pregiudizi impliciti.

Il bias dello sperimentatore è una forma di bias di conferma in cui uno sperimentatore continua ad addestrare i modelli fino a quando non viene confermata un'ipotesi preesistente.

equità controfattuale

#fairness

Una metrica di equità che verifica se un classificatore produce per un individuo lo stesso risultato che per un altro individuo identico al primo, tranne che per uno o più attributi sensibili. La valutazione dell'equità controfattuale di un classificatore è un metodo per individuare le potenziali fonti di bias in un modello.

Consulta "When Worlds Collide: Integrating Different Counterffluent Assumptions in Fairness" per una discussione più dettagliata sull'equità controfattuale.

bias di copertura

#fairness

Consulta la sezione Bias di selezione.

D

parità demografica

#fairness

Una metrica di equità che viene soddisfatta se i risultati della classificazione di un modello non dipendono da un determinato attributo sensibile.

Ad esempio, se sia Lilliputians che Brobdingnagiani si applicano alla Glubbdubdrib University, la parità demografica viene raggiunta se la percentuale di lillilupi ammessi è uguale alla percentuale di Brobdingnagia ammessi, indipendentemente dal fatto che un gruppo sia in media più qualificato dell'altro.

Sono in contrasto con le probabilità uguali e l'uguaglianza di opportunità, che consentono la classificazione dei risultati in forma aggregata in modo che dipendano da attributi sensibili, ma non consentono che i risultati della classificazione di determinate etichette di dati empirici reali dipendano da attributi sensibili. Consulta "Lotta alla discriminazione con un machine learning più intelligente" per una visualizzazione che illustra i compromessi durante l'ottimizzazione per la parità demografica.

impatto

#fairness

Prendere decisioni sulle persone con un impatto sproporzionato su diversi sottogruppi. In genere si riferiscono a situazioni in cui un processo decisionale algoritmico danneggia o va a vantaggio di alcuni sottogruppi rispetto ad altri.

Ad esempio, supponi che un algoritmo che determina l'idoneità di un lillutino a un prestito per la casa in miniatura abbia più probabilità di classificarlo come "non idoneo" se il suo indirizzo postale contiene un determinato codice postale. Se è più probabile che i Little-Endian Lilliputians abbiano indirizzi postali con questo codice postale rispetto ai Little-Endian Lilliputian, questo algoritmo potrebbe avere un impatto disparato.

A differenza del trattamento disparato, che si concentra sulle disparità risultanti quando le caratteristiche dei sottogruppi sono input espliciti a un processo decisionale algoritmico.

trattamento disparato

#fairness

Fattorizzazione degli attributi sensibili dei soggetti in un processo decisionale algoritmico in modo che i diversi sottogruppi di persone vengano trattati in modo diverso.

Ad esempio, considera un algoritmo che determina l'idoneità dei Lilliputian a un mutuo per la casa in miniatura in base ai dati forniti nella richiesta di prestito. Se l'algoritmo utilizza un'affiliazione di lillippino come Big-Endian o Little-Endian come input, applica un trattamento disparato lungo questa dimensione.

Sono invece opposti all'impatto disparato, che si concentra sulle disparità nell'impatto sociale delle decisioni algoritmiche sui sottogruppi, a prescindere dal fatto che questi sottogruppi siano input del modello.

E

pari opportunità

#fairness

Una metrica di equità per valutare se un modello prevede lo stesso risultato auspicabile per tutti i valori di un attributo sensibile. In altre parole, se il risultato desiderato per un modello è la classe positiva, l'obiettivo è fare in modo che il tasso di veri positivi sia lo stesso per tutti i gruppi.

L'uguaglianza di opportunità è correlata alle quote uguali, il che richiede che sia i tassi di veri positivi sia i tassi di falsi positivi siano uguali per tutti i gruppi.

Supponiamo che la Glubbdubdrib University ammette sia Lilliputiani che Brobdingnagiani a un rigoroso programma di matematica. Le scuole secondarie di Lilliputian offrono un solido programma di lezioni di matematica e la stragrande maggioranza degli studenti è qualificata per il programma universitario. Le scuole secondarie di Brobdingnagia non offrono corsi di matematica e, di conseguenza, un numero molto inferiore di studenti è qualificato. L'uguaglianza di opportunità è soddisfatta per l'etichetta preferita di "ammesso" rispetto alla nazionalità (Lilliputian o Brobdingnagian), se gli studenti qualificati hanno le stesse probabilità di essere ammessi indipendentemente dal fatto che siano lillipui o Brobdingnagian.

Ad esempio, supponiamo che alla Glubbdubdrib University si accompagnino 100 liilliputiani e 100 dei Brobdingnagi e che le decisioni di ammissione siano prese come segue:

Tabella 1. Candidati lillutini (il 90% dei candidati è qualificato)

  Qualificato Non qualificato
Ammesso 45 3
Rifiutata 45 7
Totale 90 10
Percentuale di studenti idonei ammessi: 45/90 = 50%
Percentuale di studenti non qualificati respinti: 7/10 = 70%
Percentuale totale di studenti lilligiani ammessi: (45+3)/100 = 48%

 

Tabella 2. Candidati per Brobdingnagian (il 10% dei partecipanti è qualificato):

  Qualificato Non qualificato
Ammesso 5 9
Rifiutata 5 81
Totale 10 90
Percentuale di studenti idonei ammessi: 5/10 = 50%
Percentuale di studenti non qualificati respinti: 81/90 = 90%
Percentuale totale di studenti Brobdingnagian ammessi: (5+9)/100 = 14%

Gli esempi precedenti soddisfano l'uguaglianza di opportunità per l'accettazione di studenti qualificati, perché i Lilliputiani e i Brobdingnagia qualificati hanno entrambi una probabilità del 50% di essere ammessi.

Sebbene la parità di opportunità sia soddisfatta, non vengono soddisfatte le seguenti due metriche di equità:

  • Parità demografica: i licenziani e i ragazzi di Brobdingnagiani vengono ammessi all'università con tariffe diverse; il 48% degli studenti lillipuini, ma solo il 14% degli studenti di Brobdingnagian.
  • Probabilità uguali: sebbene gli studenti Lilliputian e Brobdingnagian qualificati abbiano entrambi la stessa probabilità di essere ammessi, il vincolo aggiuntivo secondo cui i Lilliputian e i Brobdingnagia non qualificati hanno entrambi la stessa probabilità di essere rifiutati. I lilliputiani non qualificati hanno un tasso di rifiuto del 70%, mentre i Brobdingnagia non qualificati hanno un tasso di rifiuto del 90%.

Consulta "Equality of Opportunity in Supervised Learning" per una discussione più dettagliata sull'uguaglianza delle opportunità. Inoltre, consulta "Lotta alla discriminazione con un machine learning più intelligente" per una visualizzazione che illustra i compromessi durante l'ottimizzazione per ottenere l'uguaglianza di opportunità.

probabilità pareggiata

#fairness

Una metrica di equità per valutare se un modello prevede i risultati altrettanto bene per tutti i valori di un attributo sensibile rispettando sia la classe positiva che la classe negativa, non solo una o l'altra esclusivamente. In altre parole, il tasso di veri positivi e il tasso di falsi negativi devono essere uguali per tutti i gruppi.

Le probabilità uguali sono legate all'uguaglianza delle opportunità, che si concentra solo sui tassi di errore per una singola classe (positiva o negativa).

Ad esempio, supponiamo che l'Università Glubbdubdrib ammetta sia i lilligini che i Brobdingnagiani a un rigoroso programma di matematica. Le scuole secondarie di Lilliputian offrono un programma valido per i corsi di matematica e la stragrande maggioranza degli studenti è qualificata per il programma universitario. Le scuole secondarie di Brobdingnagiani non offrono corsi di matematica e, di conseguenza, un numero molto inferiore di studenti ha ottenuto la qualifica. Le probabilità uguali sono soddisfatte a condizione che non sia importante che il richiedente sia lillippino o Brobdingnagian, se è qualificato, ha la stessa probabilità di essere ammesso al programma; se non lo è, ha altrettanto probabilità di essere rifiutato.

Supponiamo che 100 lillipuini e 100 Brobdingnagi si riferiscano alla Glubbdubdrib University e che le decisioni di ammissione siano prese come segue:

Tabella 3. Candidati lillutini (il 90% dei candidati è qualificato)

  Qualificato Non qualificato
Ammesso 45 2
Rifiutata 45 8
Totale 90 10
Percentuale di studenti idonei ammessi: 45/90 = 50%
Percentuale di studenti non qualificati respinti: 8/10 = 80%
Percentuale totale di studenti milliputiani ammessi: (45+2)/100 = 47%

 

Tabella 4. Candidati per Brobdingnagian (il 10% dei partecipanti è qualificato):

  Qualificato Non qualificato
Ammesso 5 18
Rifiutata 5 72
Totale 10 90
Percentuale di studenti idonei ammessi: 5/10 = 50%
Percentuale di studenti non qualificati respinti: 72/90 = 80%
Percentuale totale di studenti Brobdingnagian ammessi: (5+18)/100 = 23%

Le probabilità uguali sono soddisfatte perché gli studenti qualificati Lilliputian e Brobdingnagian hanno entrambi una probabilità del 50% di essere ammessi, mentre Lilliputian e Brobdingnagian non qualificati hanno un'80% di probabilità di essere rifiutati.

Le probabilità uguali sono definite formalmente in "Uguaglianza delle opportunità nell'apprendimento supervisionato" come segue: "il preveditore ↓ soddisfa le probabilità equate rispetto all'attributo protetto A e il risultato Y se ↓ e A sono indipendenti, condizionati da Y".

pregiudizi degli sperimentatori

#fairness

Consulta la sezione Bias di conferma.

F

vincolo di equità

#fairness
Applicazione di un vincolo a un algoritmo per garantire che siano soddisfatte una o più definizioni di equità. Esempi di vincoli di equità includono:

metrica di equità

#fairness

Una definizione matematica di "equità" misurabile. Ecco alcune metriche di equità di uso comune:

Molte metriche di equità si escludono a vicenda; consulta la sezione relativa all'incompatibilità delle metriche di equità.

G

bias di attribuzione di gruppo

#fairness

Supponendo che ciò che è vero per un individuo sia vero anche per tutti i membri del gruppo. Gli effetti dei bias di attribuzione di gruppo possono essere esacerbati se viene utilizzato un campionamento di convenienza per la raccolta dei dati. In un campione non rappresentativo, potrebbero essere fatte attribuzioni che non riflettono la realtà.

Vedi anche Bias di omogeneità esterna al gruppo e Bias di omogeneità all'interno del gruppo.

V

bias storico

#fairness

Un tipo di pregiudizi che esiste già nel mondo e si è convertito in un set di dati. Questi pregiudizi tendono a riflettere gli stereotipi culturali, le disuguaglianze demografiche e i pregiudizi esistenti nei confronti di determinati gruppi sociali.

Ad esempio, prendi in considerazione un modello di classificazione che prevede se una persona che ha richiesto un prestito sarà inadempiente o meno, che è stato addestrato sulla base di dati storici sui prestiti degli anni '80 da banche locali di due diverse comunità. Se i candidati della comunità A in passato avevano una probabilità di inadempienza sei volte superiore rispetto a quelli della comunità B, il modello potrebbe apprendere un bias storico, per cui il modello ha meno probabilità di approvare i prestiti nella comunità A, anche se le condizioni storiche che hanno portato a tassi di inadempienza più alti della comunità non erano più rilevanti.

I

bias implicito

#fairness

Creare automaticamente un'associazione o un presupposto in base ai modelli mentali e ai ricordi. Il bias implicito può influire su quanto segue:

  • Modalità di raccolta e classificazione dei dati.
  • Come vengono progettati e sviluppati i sistemi di machine learning.

Ad esempio, quando si crea un classificatore per identificare le foto dei matrimoni, un ingegnere potrebbe usare la presenza di un abito bianco in una foto come caratteristica. Tuttavia, gli abiti bianchi erano consuetudine solo in certe epoche e in certe culture.

Vedi anche Bias di conferma.

incompatibilità delle metriche di equità

#fairness

L'idea che alcune nozioni di equità sono reciprocamente incompatibili e non possono essere soddisfatte contemporaneamente. Di conseguenza, non esiste un'unica metrica universale per quantificare l'equità che possa essere applicata a tutti i problemi di ML.

Sebbene questo possa sembrare scoraggiante, l'incompatibilità delle metriche di equità non implica che gli sforzi per equità siano inutili. Suggerisce, invece, che l'equità deve essere definita in base al contesto per un dato problema di ML, con l'obiettivo di prevenire danni specifici dei casi d'uso.

Consulta la sezione "(im)possibilità dell'equità" per una discussione più dettagliata su questo argomento.

equità individuale

#fairness

Una metrica di equità che verifica se persone simili sono classificate in modo simile. Ad esempio, la Brobdingnagian Academy potrebbe voler soddisfare l'equità individuale garantendo che due studenti con voti identici e punteggi dei test standardizzati abbiano le stesse probabilità di ottenere l'ammissione.

Tieni presente che l'equità individuale si basa interamente sul modo in cui definisci la"somiglianza" (in questo caso, voti e punteggi dei test) e puoi correre il rischio di introdurre nuovi problemi di equità se la tua metrica di somiglianza non include informazioni importanti (come il rigore del programma di studio di uno studente).

Consulta la sezione "Fairness Through Awareness" per una discussione più dettagliata sull'equità individuale.

bias di gruppo

#fairness

Mostrare parzialità rispetto al proprio gruppo o alle proprie caratteristiche. Se i tester o i classificatori sono amici, familiari o colleghi dello sviluppatore di machine learning, i bias di gruppo possono invalidare i test dei prodotti o il set di dati.

La bias nel gruppo è una forma di bias di attribuzione del gruppo. Vedi anche Bias di omogeneità fuori gruppo.

N

bias non risposta

#fairness

Consulta la sezione Bias di selezione.

O

bias di omogeneità out-group

#fairness

Tendenza a vedere i membri esterni al gruppo più simili rispetto ai membri secondari quando si confrontano atteggiamenti, valori, tratti personali e altre caratteristiche. In gruppo si riferisce alle persone con cui interagisci regolarmente, mentre out-group si riferisce a persone con cui non interagisci regolarmente. Se crei un set di dati chiedendo alle persone di fornire attributi relativi ai gruppi esterni, questi potrebbero essere meno precisi e più stereotipati rispetto agli attributi che i partecipanti elencano per le persone del loro gruppo.

Ad esempio, potrebbero descrivere le case di altri lillilupi in grande dettaglio, citando piccole differenze negli stili architettonici, nelle finestre, nelle porte e nelle dimensioni. Tuttavia, gli stessi lillipui potrebbero semplicemente dichiarare che i brobdingnagi vivono tutti in case identiche.

Il bias di omogeneità all'esterno del gruppo è una forma di bias di attribuzione dei gruppi.

Vedi anche Bias all'interno del gruppo.

P

bias di partecipazione

#fairness

Sinonimo di bias di mancata risposta. Consulta la sezione Bias di selezione.

post-elaborazione

#fairness
#fundamentals

Modificare l'output di un modello dopo che quest'ultimo è stato eseguito. La post-elaborazione può essere utilizzata per applicare vincoli di equità senza modificare i modelli stessi.

Ad esempio, si potrebbe applicare la post-elaborazione a un classificatore binario impostando una soglia di classificazione in modo che venga mantenuta uguaglianza di opportunità per alcuni attributi controllando che il tasso di veri positivi sia lo stesso per tutti i valori di quell'attributo.

parità predittiva

#fairness

Una metrica di equità che verifica se, per un determinato classificatore, le tariffe di precisione sono equivalenti per i sottogruppi in considerazione.

Ad esempio, un modello che prevede l'accettazione nei college soddisferebbe la parità predittiva per la nazionalità se il tasso di precisione è lo stesso per i lillipuri e i Brobdingnagia.

La parità predittiva viene a volte chiamata anche parità di frequenza predittiva.

Consulta la sezione "Spiegazione delle definizioni dell'equità" (sezione 3.2.1) per una discussione più dettagliata sulla parità predittiva.

parità di tasso predittiva

#fairness

Un altro nome per parità predittiva.

pre-elaborazione

#fairness
Elaborazione dei dati prima di essere utilizzati per addestrare un modello. La pre-elaborazione potrebbe essere semplice, ad esempio rimuovere da un corpus di testo inglese parole non presenti nel dizionario inglese, oppure essere complessa come la reespressione dei punti dati in modo da eliminare il maggior numero possibile di attributi correlati ad attributi sensibili. La pre-elaborazione può contribuire a soddisfare i limiti di equità.

proxy (attributi sensibili)

#fairness
Un attributo utilizzato come sostituzione per un attributo sensibile. Ad esempio, il codice postale di un individuo può essere utilizzato come sostituto del reddito, della razza o dell'etnia.

R

bias nei report

#fairness

Il fatto che la frequenza con cui le persone scrivano di azioni, risultati o proprietà non riflette la frequenza reale o la misura in cui una proprietà è caratteristica di una classe di individui. I bias nei report possono influenzare la composizione dei dati da cui i sistemi di machine learning

Ad esempio, nei libri, la parola risata è più prevalente di espirato. Un modello di machine learning che stima la frequenza relativa di risate e respiri nel corpus di un libro probabilmente determinarebbe che ridere è più comune della respirazione.

S

bias di campionamento

#fairness

Consulta la sezione Bias di selezione.

bias di selezione

#fairness

Errori nelle conclusioni tratte dai dati campionati a causa di un processo di selezione che genera differenze sistematiche tra i campioni osservati nei dati e quelli non osservati. Esistono le seguenti forme di bias di selezione:

  • Bias di copertura: la popolazione rappresentata nel set di dati non corrisponde alla popolazione su cui il modello di machine learning fa previsioni.
  • Bias di campionamento: i dati non vengono raccolti in modo casuale dal gruppo target.
  • Bias di mancata risposta (chiamato anche bias di partecipazione): gli utenti di determinati gruppi disattivano i sondaggi a una frequenza diversa rispetto agli utenti di altri gruppi.

Ad esempio, supponiamo che tu stia creando un modello di machine learning che prevede l'intrattenimento che le persone apprezzano nei confronti di un film. Per raccogliere i dati di addestramento, distribuisci un sondaggio a tutte le persone che si trovano in prima fila in un cinema in cui viene proiettato il film. Ovviamente questo potrebbe sembrare un modo ragionevole per raccogliere un set di dati; tuttavia, questa forma di raccolta dei dati potrebbe introdurre le seguenti forme di bias di selezione:

  • bias di copertura: campionando i dati di una popolazione che ha scelto di vedere il film, le previsioni del modello potrebbero non essere generalizzate a persone che non hanno già espresso questo livello di interesse per il film.
  • bias di campionamento: anziché campionare in modo casuale la popolazione interessata (tutte le persone presenti nel film), hai campionato solo le persone in prima fila. È possibile che le persone in prima fila fossero più interessate al film che a quelle nelle altre.
  • bias di mancata risposta: in generale, le persone con opinioni forti tendono a rispondere ai sondaggi facoltativi più spesso delle persone con opinioni lievi. Poiché il sondaggio sui film è facoltativo, è più probabile che le risposte formino una distribuzione bimodale rispetto a una normale distribuzione (a campana).

attributo sensibile

#fairness
Una caratteristica umana a cui può essere data una particolare considerazione per motivi legali, etici, sociali o personali.

U

inconsapevolezza (per un attributo sensibile)

#fairness

Una situazione in cui sono presenti attributi sensibili, ma non inclusi nei dati di addestramento. Poiché gli attributi sensibili sono spesso correlati con altri attributi dei dati di un attributo, un modello addestrato senza consapevolezza di un attributo sensibile potrebbe comunque avere un impatto disparato in relazione a tale attributo o violare altri limiti di equità.