Correttezza: verifica le tue conoscenze

Tipi di bias

Esplora le opzioni seguenti.

Quali delle seguenti previsioni del modello sono state influenzate dal bias di selezione?
Un'app tedesca di riconoscimento della scrittura a mano libera utilizza un modello che spesso classifica in modo errato i caratteri ß (Eszett) come B, perché è stato addestrato su un corpus di esempi di scrittura a mano libera americani, principalmente in inglese.
Questo modello è stato influenzato da un tipo di bias di selezione chiamato copertura copertura: i dati di addestramento (scrittura a mano libera in inglese americano) non rappresentavano il tipo di dati forniti dal pubblico di destinazione del modello (scrittura a mano libera in tedesco).
Gli ingegneri hanno creato un modello per prevedere la probabilità che una persona sviluppi il diabete in base al consumo di cibo quotidiano. Il modello è stato addestrato su 10.000 diari alimentari, raccolti da un gruppo scelto casualmente di persone in tutto il mondo che rappresentano una varietà di età, background etnici e generi diversi. Tuttavia, il deployment del modello aveva una scarsa precisione. Gli ingegneri hanno successivamente scoperto che i partecipanti al diario alimentare erano riluttanti ad ammettere il vero volume di alimenti non integri che avevano mangiato ed erano più propensi a documentare il consumo di cibo nutriente rispetto a snack meno sani.
Non esiste un bias di selezione in questo modello; i partecipanti che hanno fornito i dati di addestramento erano un campionamento rappresentativo degli utenti e sono stati scelti in modo casuale. Questo modello è stato invece interessato dal pregiudizio nei rapporti. È stata segnalata un'ingestione di alimenti non salutari a una frequenza molto inferiore rispetto a quella reale.
Gli ingegneri di una società hanno sviluppato un modello per prevedere i tassi di turnover del personale (la percentuale di dipendenti che lasciano il proprio lavoro ogni anno) in base ai dati raccolti da un sondaggio inviato a tutti i dipendenti. Dopo diversi anni di utilizzo, gli ingegneri hanno stabilito che il modello ha sottovalutato il fatturato di oltre il 20%. Durante i colloqui di uscita con i dipendenti che lasciavano l'azienda, è emerso che oltre l'80% delle persone non soddisfatte del proprio lavoro ha scelto di non completare il sondaggio, rispetto a una percentuale di disattivazione a livello aziendale del 15%.
Questo modello è stato influenzato da un tipo di bias di selezione chiamato disordine senza risposta. Le persone che non erano soddisfatte del loro lavoro erano sottorappresentate nel set di dati di formazione perché hanno disattivato il sondaggio a livello aziendale a tariffe molto più elevate rispetto all'intera popolazione dei dipendenti.
Gli ingegneri che sviluppano un sistema di consigli sui film hanno ipotizzato che alle persone a cui piacciono i film horror piaceranno anche i film di fantascienza. Quando ha addestrato un modello su 50.000 elenchi di titoli; tuttavia, non è stata rilevata una correlazione tra le preferenze per l'orrore e per le fantascienza. Al contrario, ha mostrato una forte correlazione tra le preferenze per gli horror e i documentari. Risultavano strani, quindi hanno addestrato il modello altre cinque volte utilizzando diversi iperparametri. Il loro ultimo modello addestrato ha mostrato una correlazione del 70% tra le preferenze dell'horror e della fantascienza, quindi l'ha rilasciata con sicurezza in produzione.
Non ci sono prove di bias di selezione, ma questo modello potrebbe essere stato invece influenzato dal pregiudizio dell'esperimento, poiché gli ingegneri hanno continuato a replicare il modello finché non confermerà la propria ipotesi preesistente.

Valutazione per i bias

È stato addestrato un modello di rilevamento sarcasmo su 80.000 messaggi di testo: 40.000 inviati da adulti (dai 18 anni in su) e 40.000 messaggi inviati da minorenni (meno di 18 anni). Il modello è stato quindi valutato su un set di test di 20.000 messaggi: 10.000 da adulti e 10.000 da minorenni. Le seguenti matrici di confusione mostrano i risultati per ogni gruppo (una previsione positiva indica una classificazione di "sarcastic"; una previsione negativa indica una classificazione di "not sarcastic"):

Adulti

Vero positivo (TP): 512 Falsi positivi (FP): 51
Falsi negativi (FN): 36 Vero negativo (TN): 9401
$$\text{Precision} = \frac{TP}{TP+FP} = 0.909$$
$$\text{Recall} = \frac{TP}{TP+FN} = 0.934$$

Minori

Vero positivo (TP): 2147 Falsi positivi (FP): 96
Falsi negativi (FN): 2177 Tasse negative (TN): 5580
$$\text{Precision} = \frac{TP}{TP+FP} = 0.957$$
$$\text{Recall} = \frac{TP}{TP+FN} = 0.497$$

Esplora le opzioni seguenti.

Quali delle seguenti affermazioni sulle prestazioni del set di test del modello è vera?
In generale, il modello ha un rendimento migliore sugli esempi relativi agli adulti rispetto agli esempi sugli utenti minorenni.

Il modello raggiunge percentuali di precisione e di richiamo superiori al 90% quando rilevano sarcasmo negli SMS.

Sebbene il modello raggiunga un tasso di precisione leggermente più elevato per i minorenni rispetto agli adulti, il tasso di richiamo è notevolmente inferiore per i minorenni, con previsioni meno affidabili per questo gruppo.

Il modello non classifica circa il 50% dei messaggi minori come messaggi sarcastici come "sarcastici".
Il tasso di richiamo di 0,497 per i minorenni indica che il modello prevede "non sarcastico" per circa il 50% di minorenni' testi sarcastici.
Circa il 50% dei messaggi inviati da minorenni è classificato come "sarcastico" in modo errato.
Il tasso di precisione pari a 0,957 indica che oltre il 95% dei minorenni' messaggi classificati come "sarcastici" sono effettivamente sarcastici.
I 10.000 messaggi inviati da adulti sono un set di dati non bilanciato.
Se confrontiamo il numero di messaggi di adulti che in realtà non sono sarcastici (TP+FN = 548) con il numero di messaggi che in realtà non sono sarcastici (TN + FP = 9452), vediamo che non sono sarcastici; le etichette superano il numero di "sarcastici"; circa 7
I 10.000 messaggi inviati da minorenni sono un set di dati non bilanciato.
Se confrontiamo il numero di messaggi di minorenni che in realtà sono sarcastici (TP+FN = 4324) con il numero di messaggi che in realtà non sono sarcastici (TN + FP = 5676), notiamo che esiste un rapporto 1,3:1 di "non sarcastiche"; etichette a " Poiché la distribuzione delle etichette tra le due classi è piuttosto simile a 50/50, questo non è un set di dati sbilanciato.

Esplora le opzioni seguenti.

Gli ingegneri stanno lavorando per riaddestrare questo modello per risolvere le incoerenze relative alla precisione del rilevamento degli sarcastici nei dati demografici, ma il modello è già stato rilasciato in produzione. Quale delle seguenti strategie di stopgap aiuterà a mitigare gli errori nelle previsioni del modello?
Limita l'utilizzo del modello ai messaggi di testo inviati da adulti.

Il modello ha un buon rendimento sugli SMS degli adulti (con una precisione e un tasso di richiamo superiori al 90%), quindi limitarne l'utilizzo a questo gruppo aggirerà gli errori sistematici nella classificazione degli SMS.

Quando il modello prevede "non sarcastico" per gli SMS inviati da minorenni, modifica l'output in modo che il modello restituisca un valore "non so".

La percentuale di precisione per gli SMS inviati da minorenni è elevata, il che significa che quando il modello prevede "sarcastico", per questo gruppo è quasi sempre corretto.

Il problema è che il richiamo è molto basso per i minorenni; il modello non identifica il sarcasmo in circa il 50% degli esempi. Poiché le previsioni negative del modello per i minorenni non sono migliori delle ipotesi casuali, in questi casi possiamo evitare questi errori non fornendo loro una previsione.

Limita l'utilizzo del modello ai messaggi di testo inviati da minorenni.

Gli errori sistematici in questo modello sono specifici per gli SMS inviati da minorenni. Limitare l'utilizzo del modello al gruppo più suscettibile a errori non sarebbe utile.

Regola l'output del modello in modo che restituisca "sarcastico" per tutti gli SMS inviati da minorenni, a prescindere da ciò che il modello prevedeva in origine.

Prevedindo sempre "sarcastico" per i minori; gli SMS aumenteranno la frequenza di richiamo da 0,497 a 1,0, poiché il modello non riuscirebbe più a identificare i messaggi come sarcastici. Tuttavia, questo aumento del ricordo va a scapito della precisione. Tutti i veri negativi vengono modificati in falsi positivi:

Vero positivo (TP): 4324 Falsi positivi (FP): 5676
Falsi negativi (FN): 0 Vero negativo (TN): 0

Diminuendo così la percentuale di precisione da 0,957 a 0,432. Quindi, l'aggiunta di questa calibrazione cambierebbe il tipo di errore, ma non ne mitigarne la grandezza.