ML Practicum: equità nell'API Perspective

Verifica le tue conoscenze: identificazione e risoluzione dei bias

Bias di identificazione

Nell'Esercizio 1: esplorare il modello, hai confermato che il modello classifica in modo sproporzionato i commenti con termini di identità come tossici. Quali metriche aiutano a spiegare la causa di questo bias? Esplora le opzioni che seguono.
Accuratezza

L' accuratezza misura la percentuale di previsioni totali corrette, ovvero la percentuale di previsioni veri positivi o veri negativi. Il confronto dell'accuratezza per diversi sottogruppi (ad esempio dati demografici di genere diversi) ci consente di valutare le prestazioni relative del modello per ogni gruppo e può servire come indicatore dell'effetto del bias su un modello.

Tuttavia, poiché l'accuratezza considera previsioni corrette ed errate in forma aggregata, non fa distinzione tra i due tipi di previsioni corrette e i due tipi di previsioni errate. Guardando solo all'accuratezza, non possiamo determinare le suddivisioni sottostanti di veri positivi, veri negativi, falsi positivi e falsi negativi, il che fornirebbe maggiori informazioni sulla fonte del bias.

Percentuale di falsi positivi

Il tasso di falsi positivi (FPR) è la percentuale di esempi effettivi negativi (commenti non tossici) erroneamente classificati come positivi (commenti tossici). Il valore FPR è un indicatore dell'effetto del bias sul modello. Quando confrontiamo le FPR per diversi sottogruppi (ad esempio dati demografici di genere diversi), apprendiamo che i commenti testuali che contengono termini di identità correlati al genere hanno maggiori probabilità di essere classificati erroneamente come tossici (falsi positivi) rispetto ai commenti che non contengono questi termini.

Tuttavia, non stiamo cercando di misurare l'effetto di questo bias, vogliamo trovarne la causa. Per farlo, dobbiamo esaminare più attentamente gli input della formula FPR.

Valori negativi e positivi effettivi
Nei set di dati di addestramento e test di questo modello, gli positivi effettivi sono tutti gli esempi di commenti tossici e gli negativi effettivi tutti gli esempi non tossici. Dato che i termini identità stessi sono neutri, ci aspettiamo un numero equilibrato di commenti effettivi negativi ed effettivi positivi contenenti un determinato termine di identità. Un numero sproporzionato di elementi negativi effettivi indica che il modello non ha rilevato un numero elevato di esempi di termini di identità utilizzati in contesti positivi o neutri. In questo caso, il modello potrebbe apprendere una correlazione tra i termini di identità e la tossicità.
Richiamo
Il richiamo è la percentuale di previsioni positive effettive che sono state correttamente classificate come positive. Indica la percentuale di commenti tossici che il modello ha rilevato correttamente. Qui ci preoccupiamo dei bias relativi ai falsi positivi (commenti non tossici classificati come tossici) e il richiamo non fornisce informazioni su questo problema.

Correzione dei bias

Quale delle seguenti azioni potrebbe essere un metodo efficace per correggere i bias nei dati di addestramento utilizzati nell'Esercizio 1 e nell'Esercizio 2? Esplora le opzioni che seguono.
Aggiungi altri esempi negativi (non tossici) contenenti termini di identità al set di addestramento.
L'aggiunta di altri esempi negativi (commenti in realtà non tossici) che contengono termini di identità aiuterà a bilanciare il set di addestramento. Il modello vedrà quindi un migliore equilibrio tra i termini di identità utilizzati in contesti tossici e non tossici, in modo da poter apprendere che i termini stessi sono neutri.
Aggiungi altri esempi positivi (tossici) contenenti termini di identificazione al set di addestramento.
Gli esempi tossici sono già sovrarappresentati nel sottoinsieme di esempi contenenti termini di identità. Se aggiungiamo altri esempi al set di addestramento, in realtà esacerbaremo il bias esistente anziché correggerlo.
Aggiungi altri esempi negativi (non tossici) senza termini di identità al set di addestramento.
I termini di identità sono già sottorappresentati negli esempi negativi. L'aggiunta di altri esempi negativi senza termini di identità aumenterà questo squilibrio e non aiuterà a correggere il bias.
Aggiungi altri esempi positivi (tossici) senza termini di identificazione al set di addestramento.

È possibile che l'aggiunta di esempi più positivi senza termini correlati all'identità possa aiutare a interrompere l'associazione tra termini correlati all'identità e tossicità che il modello aveva appreso in precedenza.

Valutazione del bias

Hai addestrato da zero il tuo classificatore di tossicità del testo, che il tuo team di tecnici prevede di utilizzare per sopprimere automaticamente la visualizzazione di commenti classificati come tossici. Temi che qualsiasi bias nei confronti della tossicità per i commenti di genere possa portare alla soppressione delle discussioni non tossiche sul genere e vuoi valutare il bias legato al genere nelle previsioni del classificatore. Quale delle seguenti metriche dovresti utilizzare per valutare il modello? Esplora le opzioni che seguono.
Tasso di falsi positivi
In produzione, il modello verrà utilizzato per sopprimere automaticamente le previsioni positive (tossiche). Il tuo obiettivo è garantire che il modello non elimini i falsi positivi (commenti non tossici che il modello ha classificato erroneamente come tossici) per i commenti di genere a un tasso superiore rispetto a quello generale. Confrontare le FPR per i sottogruppi di genere con le FPR complessive è un ottimo modo per valutare la correzione dei bias per il tuo caso d'uso.
Tasso di falsi negativi (FNR)
FNR misura la frequenza con cui il modello classifica erroneamente la classe positiva (qui, "tossico") come la classe negativa ("nontossico"). Per questo caso d'uso, indica la frequenza con cui i commenti effettivamente tossici sfuggono al filtro e vengono mostrati agli utenti. Qui, la tua principale preoccupazione è il modo in cui si manifesta il bias in termini di soppressione dei discorsi non tossici. FNR non fornisce informazioni su questa dimensione delle prestazioni del modello.
Accuratezza
L' accuratezza misura la percentuale di previsioni del modello corrette e, viceversa, la percentuale di previsioni errate. Per questo caso d'uso, l'accuratezza indica la probabilità che il filtro abbia eliminato il discorso non tossico o visualizzato un discorso tossico. La tua principale preoccupazione è il primo problema, non il secondo. Poiché i due problemi coniugano l'accuratezza, non è la metrica di valutazione ideale da usare in questo caso.
AUC
L' AUC fornisce una misurazione assoluta della capacità predittiva di un modello. È una metrica utile per valutare le prestazioni complessive. Tuttavia, il tuo problema specifico riguarda le percentuali di soppressione dei commenti e l'AUC non fornisce informazioni dirette su questo problema.
Un moderatore dei contenuti è stato aggiunto al tuo team e il product manager ha deciso di modificare la modalità di implementazione del classificatore. Anziché eliminare automaticamente i commenti classificati come tossici, il software di filtro li segnala affinché il moderatore dei contenuti possa esaminarli. Poiché una persona esaminerà i commenti etichettati come tossici, il bias non si manifesterà più sotto forma di soppressione dei contenuti. Quale delle seguenti metriche potresti utilizzare per misurare il bias e gli effetti della relativa correzione? Esplora le opzioni che seguono.
Tasso di falsi positivi
Il tasso di falsi positivi indica la percentuale di commenti non tossici che sono stati erroneamente classificati come tossici. Poiché ora un moderatore umano controllerà tutti i commenti che il modello etichetta come "tossico" e dovrebbe rilevare la maggior parte dei falsi positivi, le FPR non sono più una delle preoccupazioni principali.
Tasso di falsi negativi (FNR)
Un moderatore umano controllerà tutti i commenti etichettati come "tossici" e garantirà che i falsi positivi non vengano soppressi, non esaminerà i commenti etichettati come "non tossici". Ciò lascia aperta la possibilità di bias relativi ai falsi negativi. Puoi utilizzare il FNR (la percentuale di positivi effettivi classificati come negativi) per valutare sistematicamente se i commenti tossici relativi a sottogruppi di genere hanno maggiori probabilità di essere etichettati come non tossici rispetto ai commenti complessivi.
Precisione
La precisione indica la percentuale di previsioni positive che sono effettivamente positive, in questo caso la percentuale di previsioni "tossiche" corrette. Poiché un moderatore umano controllerà tutte le previsioni "tossiche", non è necessario rendere la precisione una delle metriche di valutazione principali.
Richiamo
Ricordo indica la percentuale di positivi effettivi classificati correttamente. Da questo valore, puoi ricavare la percentuale di positivi effettivi che sono stati classificati erroneamente (1 - richiamo), che è una metrica utile per valutare se i commenti tossici legati al genere sono sproporzionatamente classificati come "non tossici" in modo sproporzionato rispetto ai commenti complessivi.