Individuazione dei bias

Quando il team Jigsaw ha inizialmente valutato il modello di tossicità dell'API Perspective, ha scoperto che si è comportato bene sul set di dati di test. Ma erano preoccupati: c'era ancora la possibilità che i bias potessero manifestarsi nelle previsioni del modello se ci fossero errori sistemici nei dati di addestramento. Per garantire la qualità dei dati di addestramento, i team hanno effettuato un ulteriore controllo delle etichette fornite dai revisori umani per assicurarsi che fossero accurate.

Tuttavia, nonostante questi passaggi proattivi adottati per eliminare i bias nei dati di addestramento del modello, gli utenti hanno comunque rilevato un problema falso positivo nei commenti che contengono termini di identità. Come è accaduto?

Un secondo controllo del set di addestramento ha rivelato che la maggior parte dei commenti contenenti termini di identità relativi a gruppo etnico, religione e genere erano stati identificati come tossici. Queste etichette erano corrette; la maggior parte dei commenti online contenenti questi termini di identità era effettivamente tossica. Tuttavia, a seguito di questo disallineamento, il modello ha appreso una correlazione tra la presenza di questi termini di identità e la tossicità, il che non rifletteva con precisione le connotazioni neutre dei termini stessi.

Il team aveva scoperto una lacuna critica nei dati di addestramento del modello: un'area in cui non erano disponibili dati di addestramento sufficienti per rappresentare un aspetto chiave della realtà. Il set di addestramento non conteneva abbastanza esempi di commenti di identità non tossici per far capire al modello che i termini stessi erano neutri e che il contesto in cui erano utilizzati era veramente importante.