Práticas de ML: imparcialidade na API Perspective

Saiba como a equipe da Jigsaw livre de assédio on-line em parceria com a equipe de tecnologia de combate ao abuso do Google desenvolvendo a API Perspective, que usa aprendizado de máquina para identificar comentários abusivos. Em seguida, use os indicadores de imparcialidade para avaliar os modelos de ML e evitar vieses não intencionais nos dados de treinamento.

Introdução

A Jigsaw (em inglês) é uma unidade da Alphabet que cria tecnologia para tornar o mundo mais seguro. Em 2017, a equipe se comprometeu a enfrentar o assédio on-line e desenvolveu a API Perspective. O objetivo da API Perspective é aumentar a participação, a qualidade e a empatia das conversas on-line em escala. Os desenvolvedores e editores podem usar o Perspective para identificar e filtrar texto que inibe o diálogo construtivo em fóruns on-line analisando o conteúdo de comentários para identificar texto potencialmente ofensivo, incluindo ameaças, insultos, linguagem obscena e linguagem abusiva.

A API Perspective usa o texto de comentários como entrada e retorna um "score" de 0 a 1, que indica a probabilidade de que o comentário seja semelhante a comentários tóxicos que viu no passado. Uma pontuação de 0 significa 0% de probabilidade de o comentário ser tóxico, uma pontuação de 1 significa 100% de probabilidade de o comentário ser tóxico e uma pontuação de 0,5 significa uma probabilidade de 50% de que o comentário é tóxico (ou seja, o modelo não tem certeza).

Declaração do problema

Após o lançamento inicial da API Perspective, os usuários externos descobriram uma correlação positiva entre termos de identidade com informações sobre raça ou orientação sexual e pontuação de toxicidade. Por exemplo, a frase "Sou uma mulher negra presencial" recebeu uma pontuação de toxicidade de 0,87. Nesse caso, os termos de identidade não estavam sendo usados de forma pejorativa. Portanto, este exemplo foi classificado incorretamente. Onde as coisas deram errado?