Glossário de machine learning: imparcialidade

Esta página contém termos do glossário de imparcialidade. Para todos os termos do glossário, clique aqui.

A

atributo

#fairness

Sinônimo de feature.

Na imparcialidade do machine learning, os atributos geralmente se referem a características de indivíduos.

viés de automação

#fairness

Quando um tomador de decisões humana favorece as recomendações feitas por um sistema de tomada de decisões automatizado em relação a informações feitas sem automação, mesmo quando o sistema de tomada de decisões automatizado comete erros.

B

viés (ética/imparcialidade)

#fairness
#fundamentals

1. Estereótipos, preconceito ou favoritismo em relação a algumas coisas, pessoas ou grupos. Esses vieses podem afetar a coleta e a interpretação de dados, o design de um sistema e a forma como os usuários interagem com ele. Formas desse tipo de viés incluem:

2. Erro sistemático introduzido por um procedimento de amostragem ou de geração de relatórios. Formas desse tipo de viés incluem:

Não confunda esse termo com viés em modelos de machine learning ou viés de previsão.

C

viés de confirmação

#fairness

A tendência de pesquisar, interpretar, favorecer e recuperar informações de maneira a confirmar crenças ou hipóteses preexistentes. Os desenvolvedores de machine learning podem coletar ou rotular inadvertidamente os dados de maneiras que influenciem um resultado compatível com as crenças atuais. O viés de confirmação é uma viés implícita.

O viés do experimento é uma forma de viés de confirmação em que um experimento continua a treinar modelos até que uma hipótese preexistente seja confirmada.

imparcialidade contrafatual

#fairness
Uma métrica de imparcialidade que verifica se um classificador produz o mesmo resultado para um indivíduo e para outro que é idêntico ao primeiro, exceto em relação a um ou mais atributos confidenciais. Avaliar um classificador para imparcialidade contrafatual é um método para mostrar possíveis fontes de viés em um modelo.

Consulte "Quando os mundos colidem: como integrar diferentes premissas contrafatuais na imparcialidade" para uma discussão mais detalhada sobre imparcialidade contrafatual.

viés de cobertura

#fairness

Consulte desequilíbrio da seleção.

D)

paridade demográfica

#fairness

Uma métrica de imparcialidade que é satisfeita se os resultados da classificação de um modelo não dependem de um determinado atributo sensível.

Por exemplo, se os libaneses e os blublinangues se aplicarem à Universidade de Glubbdubdrib, a paridade demográfica será alcançada se a porcentagem de libélulas admitidas for a mesma que a porcentagem de bíblios nata admitida, independentemente de um grupo ser, em média, mais qualificado do que o outro.

Contraste com probabilidades iguais e a igualdade de oportunidades, que permitem que os resultados de classificação agregados dependam de atributos confidenciais, mas não permitem que os resultados de classificação de determinados rótulos de informações empíricas especificados dependam de atributos confidenciais. Consulte Como atacar a discriminação com machine learning mais inteligente para uma visualização que explora as compensações ao otimizar para paridade demográfica.

impacto diferente

#fairness

Tomar decisões sobre pessoas que afetam diferentes subgrupos da população de maneira desproporcional. Isso geralmente se refere a situações em que um processo de tomada de decisão algorítmico prejudica ou beneficia mais alguns subgrupos do que outros.

Por exemplo, suponha que um algoritmo que determina a qualificação de um lilliputian para um empréstimo residencial residencial tenha mais chances de classificá-lo como "não qualificado" se o endereço de correspondência contiver um determinado código postal. Se os Big-Endian Lilliputians tiverem mais chances de ter endereços de correspondência com esse CEP do que o Little-Endian Lilliputians, esse algoritmo poderá causar um impacto diferente.

Contraste com o tratamento disparável, que se concentra em disparidades que resultam quando características de subgrupo são entradas explícitas para um processo de tomada de decisão do algoritmo.

tratamento diferente

#fairness

fatorar os atributos confidenciais dos sujeitos em um processo de tomada de decisão algorítmico para que diferentes subgrupos de pessoas sejam tratados de maneira diferente.

Por exemplo, considere um algoritmo que determina a qualificação dos libaneses para um empréstimo para moradia em casa com base nos dados fornecidos na solicitação. Se o algoritmo usar uma afiliação de Lilliputian como Big-Endian ou Little Endian como entrada, ele tomará o tratamento diferente ao longo dessa dimensão.

Contraste com o impacto negativo, que se concentra nas disparidades nos impactos sociais das decisões dos algoritmos nos subgrupos, independentemente de esses subgrupos serem entradas no modelo.

E

igualdade de oportunidade

#fairness
Uma métrica de imparcialidade que verifica se, para um rótulo preferido (que concede uma vantagem ou benefício a uma pessoa) e um determinado atributo, um classificador prevê bem esse rótulo igualmente para todos os valores desse atributo. Em outras palavras, a igualdade de oportunidade avalia se as pessoas que devem se qualificar para uma oportunidade têm a mesma probabilidade de fazer isso, independentemente da associação ao grupo.

Por exemplo, suponha que a Universidade Glubbdubdrib admita tanto lilliputians quanto brubdingnagiana para um programa matemático rigoroso. As escolas secundárias dos licencianos oferecem um currículo robusto de aulas de matemática, e a maioria das alunas está qualificada para o programa universitário. As escolas secundárias de Brobdingnagians não oferecem aulas de matemática e, como resultado, muito menos alunos estão qualificados. A igualdade de oportunidade é atendida para o rótulo preferido de "admitido" em relação à nacionalidade (lilliputian ou brbdingnagian) se os alunos qualificados tiverem a mesma probabilidade de serem admitidos, independentemente de serem lilliputianos ou brubativos.

Por exemplo, digamos que 100 lilliputians e 100 brbdingnagians se apliquem à Universidade Glubbdubdrib, e as decisões de admissão sejam tomadas da seguinte maneira:

Tabela 1. Candidatos literários (90% estão qualificados)

  Qualificado Não qualificado
Permitido 45 3
Recusado 45 7
Total 90 10
Porcentagem de estudantes qualificados aceitos: 45/90 = 50%
Porcentagem de estudantes não qualificados rejeitados: 7/10 = 70%
Porcentagem total de alunos liberianos admitidos: (45 + 3)/100 = 48%

 

Tabela 2. Candidatos do Brobdingnagian (10% estão qualificados):

  Qualificado Não qualificado
Permitido 5 9
Recusado 5 81
Total 10 90
Porcentagem de alunos qualificados aceitos: 5/10 = 50%
Porcentagem de alunos não qualificados rejeitados: 81/90 = 90%
Porcentagem total de estudantes Brobdingnagian aceitos: (5+9)/100 = 14%

Os exemplos anteriores satisfazem a igualdade de oportunidade para a aceitação de alunos qualificados, já que literatos qualificados e brondinges têm 50% de chance de serem aceitos.

Consulte Igualdade de oportunidade na aprendizagem supervisionada para ver uma discussão mais detalhada sobre igualdade de oportunidade. Consulte também Como atacar a discriminação com machine learning mais inteligente para ter uma visualização que explora as compensações ao otimizar a igualdade de oportunidade.

probabilidades iguais

#fairness
Uma métrica de imparcialidade que verifica se, para qualquer rótulo e atributo específico, um classificador prevê bem esse rótulo para todos os valores desse atributo.

Por exemplo, suponha que a Universidade Glubbdubdrib admita tanto lilliputia quanto Brobdingnagians em um rigoroso programa de matemática. As escolas secundárias dos licencianos oferecem um currículo robusto de aulas de matemática, e a grande maioria dos alunos está qualificada para o programa universitário. As escolas secundárias de Brobdingnagians não oferecem aulas de matemática e, como resultado, muito menos alunos estão qualificados. As chances equitativas são atendidas, independentemente de um candidato ser um lírio-do-liberal ou um Brobdingnagiano. Se forem qualificados, eles terão a mesma probabilidade de serem aceitos no programa e, se não forem qualificados, terão a mesma probabilidade de serem rejeitados.

Digamos que 100 lilliputians e 100 brbdingnagians se apliquem à Universidade Glubbdubdrib, e as decisões de admissão sejam tomadas da seguinte maneira:

Tabela 3. Candidatos literários (90% estão qualificados)

  Qualificado Não qualificado
Permitido 45 2
Recusado 45 8
Total 90 10
Porcentagem de alunos qualificados aceitos: 45/90 = 50%
Porcentagem de alunos não qualificados rejeitados: 8/10 = 80%
Porcentagem total de alunos liberianos admitidos: (45+2)/100 = 47%

 

Tabela 4. Candidatos do Brobdingnagian (10% estão qualificados):

  Qualificado Não qualificado
Permitido 5 18
Recusado 5 72
Total 10 90
Porcentagem de alunos qualificados aceitos: 5/10 = 50%
Porcentagem de estudantes não qualificados rejeitados: 72/90 = 80%
Porcentagem total de estudantes Brobdingnagian aceitos: (5+18)/100 = 23%

As chances iguais são satisfeitas, uma vez que estudantes qualificados como Lilliputian e Brobdingnagian têm 50% de chance de serem aceitos e Lilliputian e Brobdingnagian não qualificados têm 80% de chance de serem rejeitados.

As probabilidades iguais são definidas formalmente em "Igualdade de oportunidade na aprendizagem supervisionada", da seguinte forma: "o previsor Ŷ satisfaz as chances iguais em relação ao atributo protegido A e ao resultado Y se Ŷ e A forem independentes e condicionais em Y."

viés do experimento

#fairness

Consulte viés de confirmação.

F

restrição de imparcialidade

#fairness
Aplicar uma restrição a um algoritmo para garantir que uma ou mais definições de imparcialidade sejam atendidas. Exemplos de restrições de imparcialidade incluem:

métrica de imparcialidade

#fairness

Uma definição matemática da "imparcialidade" que é mensurável. Algumas das métricas de imparcialidade mais usadas são:

Muitas métricas de imparcialidade são mutuamente exclusivas. Consulte incompatibilidade de métricas de imparcialidade.

G

viés de atribuição a grupos

#fairness

Supondo que o que é verdadeiro para um indivíduo também é verdadeiro para todos nesse grupo. Os efeitos do viés de atribuição de grupo poderão ser agravados se uma amostragem de conveniência for usada para a coleta de dados. Em uma amostra não representativa, podem ser feitas atribuições que não refletem a realidade.

Veja também viés de homogeneidade fora do grupo e viés no grupo (em inglês).

I

viés implícito

#fairness

Fazer uma associação ou suposição automaticamente com base nos memórias e modelos mentais da pessoa. O viés implícito pode afetar o seguinte:

  • Como os dados são coletados e classificados.
  • Como os sistemas de machine learning são projetados e desenvolvidos.

Por exemplo, ao criar um classificador para identificar fotos de casamento, um engenheiro pode usar a presença de um vestido branco em uma foto como atributo. No entanto, os vestidos brancos eram comuns apenas em determinadas eras e em determinadas culturas.

Veja também viés de confirmação.

incompatibilidade de métricas de imparcialidade

#fairness

A ideia de que algumas noções de imparcialidade são incompatíveis entre si e não podem ser satisfeitas simultaneamente. Como resultado, não há uma métrica universal para quantificar a imparcialidade que pode ser aplicada a todos os problemas de ML.

Isso pode parecer desanimador, mas a incompatibilidade das métricas de imparcialidade não implica que os esforços de imparcialidade sejam inúteis. Em vez disso, ele sugere que a imparcialidade precisa ser definida contextualmente para um determinado problema de ML, com o objetivo de evitar danos específicos aos casos de uso.

Consulte "Na imparcialidade da imparcialidade" (em inglês) para ver uma discussão mais detalhada sobre esse tópico.

imparcialidade individual

#fairness

Uma métrica de imparcialidade que verifica se indivíduos semelhantes são classificados de maneira semelhante. Por exemplo, a Brobdingnagian Academy pode querer satisfazer a imparcialidade individual garantindo que dois alunos com notas idênticas e pontuações de testes padronizadas também tenham chances de receber admissão.

Observe que a imparcialidade individual depende inteiramente de como você define a "semelhança" (neste caso, notas e pontuações de teste). Você pode correr o risco de introduzir novos problemas de imparcialidade se sua métrica de similaridade perder informações importantes (como o rigor do currículo de um aluno).

Consulte Justiça por meio do reconhecimento para uma discussão mais detalhada sobre imparcialidade individual.

viés de grupo

#fairness

Mostrar parcialidade ao próprio grupo ou características. Se os testadores ou rotuladores consistirem nos amigos, família ou colegas do desenvolvedor de machine learning, o viés em grupo poderá invalidar o teste do produto ou o conjunto de dados.

O viés em grupo é uma forma de viés de atribuição de grupos. Consulte também o viés de homogeneidade fora do grupo.

N

viés de não resposta

#fairness

Consulte desequilíbrio da seleção.

O

viés de homogeneidade fora do grupo

#fairness

A tendência de ver os participantes em grupos como eles são mais parecidos do que os participantes de grupos ao comparar atitudes, valores, traços de personalidade e outras características. Em grupo refere-se a pessoas com as quais você interage regularmente, enquanto fora do grupo refere-se a pessoas com as quais você não interage regularmente. Se você criar um conjunto de dados solicitando que as pessoas forneçam atributos sobre os grupos, esses atributos podem ser menos sutis e mais estereotipados do que os atributos listados pelos participantes do grupo.

Por exemplo, os filipinos podem descrever as casas de outros filipinos em detalhes, citando pequenas diferenças em estilos arquitetônicos, janelas, portas e tamanhos. No entanto, os mesmos lilliputians podem simplesmente declarar que Brobdingnagians moram em casas idênticas.

O viés de homogeneidade do grupo é uma forma de viés de atribuição de grupo.

Consulte também viés no grupo.

P

viés de participação

#fairness

Sinônimo de viés sem resposta. Consulte desequilíbrio da seleção.

pós-processamento

#fairness
#fundamentals

Ajustar a saída de um modelo após a execução do modelo. O pós-processamento pode ser usado para impor restrições de imparcialidade sem modificar os próprios modelos.

Por exemplo, é possível aplicar o pós-processamento a um classificador binário definindo um limiar de classificação para que a igualdade de oportunidade seja mantida para algum atributo verificando se a taxa positiva verdadeira é a mesma para todos os valores desse atributo.

paridade preditiva

#fairness

Uma métrica de imparcialidade que verifica se as taxas de precisão são equivalentes para subgrupos em questão.

Por exemplo, um modelo que prevê a aceitação universitária atenderia à paridade preditiva em relação à nacionalidade se a taxa de precisão dela for a mesma para lilliputianos e brondingaginos.

A paridade preditiva também é chamada de paridade de taxa preditiva.

Consulte a seção Definições de imparcialidade explicada (seção 3.2.1) para ver uma discussão mais detalhada sobre paridade preditiva.

paridade de taxa preditiva

#fairness

Outro nome para paridade preditiva.

pré-processamento

#fairness
Processamento de dados antes que eles sejam usados para treinar um modelo. O pré-processamento pode ser tão simples quanto remover palavras de um corpus de texto em inglês que não ocorrem no dicionário de inglês, ou pode ser tão complexo quanto reexpressar pontos de dados de uma maneira que elimina o máximo possível de atributos correlacionados com atributos confidenciais. O pré-processamento pode ajudar a atender a restrições de imparcialidade.

proxy (atributos confidenciais)

#fairness
Um atributo usado como base para um atributo confidencial. Por exemplo, o código postal de um indivíduo pode ser usado como um proxy para sua renda, raça ou etnia.

Direita

viés de relatório

#fairness

O fato de as pessoas escreverem sobre ações, resultados ou propriedades não é um reflexo de suas frequências reais ou o grau em que uma propriedade é característica de uma classe de indivíduos. O viés de relatório pode influenciar a composição dos dados usados pelos sistemas de aprendizado de máquina.

Por exemplo, em livros, a palavra risadas é mais predominante do que respirada. Um modelo de aprendizado de máquina que estima a frequência relativa de riso e respiração em um corpus de livros provavelmente determinaria que rir é mais comum do que respirar.

S

viés de amostragem

#fairness

Consulte desequilíbrio da seleção.

viés de seleção

#fairness

Erros em conclusões extraídas de dados de amostra devido a um processo de seleção que gera diferenças sistemáticas entre amostras observadas nos dados e aquelas não observadas. Existem as seguintes formas de viés de seleção:

  • viés de cobertura: a população representada no conjunto de dados não corresponde à população sobre a qual o modelo de aprendizado de máquina está fazendo predições.
  • desequilíbrio da amostragem: os dados não são coletados aleatoriamente do grupo de destino.
  • viés de não resposta (também chamado de viés de participação): os usuários de determinados grupos desativam as pesquisas com taxas diferentes dos usuários de outros grupos.

Por exemplo, suponha que você esteja criando um modelo de machine learning que prevê o prazer de assistir a um filme. Para coletar dados de treinamento, você envia uma pesquisa a todos na fileira da frente de um cinema que exibe o filme. Isso pode parecer uma maneira razoável de coletar um conjunto de dados. No entanto, essa forma de coleta de dados pode introduzir as seguintes formas de viés de seleção:

  • viés de cobertura: por amostragem de uma população que escolheu ver o filme, as previsões do seu modelo podem não generalizar para pessoas que ainda não expressaram esse nível de interesse no filme.
  • viés de amostragem: em vez de amostragem aleatória da população pretendida (todas as pessoas no filme), você fez a amostragem apenas das pessoas na primeira linha. É possível que as pessoas sentadas na linha da frente estejam mais interessadas no filme do que aquelas em outras linhas.
  • viés de não resposta: em geral, pessoas com opiniões fortes tendem a responder a pesquisas opcionais com mais frequência do que pessoas com opiniões leves. Como a pesquisa de filmes é opcional, as respostas têm maior probabilidade de formar uma distribuição bimodal do que uma distribuição normal (em forma de sino).

atributo confidencial

#fairness
Um atributo humano que pode receber uma consideração especial por motivos legais, éticos, sociais ou pessoais.

U

inconsciência (para um atributo confidencial)

#fairness

Uma situação em que atributos confidenciais estão presentes, mas não incluídos nos dados de treinamento. Como os atributos confidenciais geralmente estão correlacionados a outros atributos dos dados de um usuário, um modelo treinado sem conhecer esse atributo ainda pode ter impacto negativo em relação a esse atributo ou violar outras restrições de imparcialidade.