Glossário de machine learning: imparcialidade

Esta página contém termos do glossário de imparcialidade. Para ver todos os termos do glossário, clique aqui.

A

atributo

#fairness

Sinônimo de feature.

Na imparcialidade do machine learning, os atributos geralmente se referem a características pertencentes a indivíduos.

viés de automação

#fairness

Quando um tomador de decisões humana favorece as recomendações feitas por um sistema de tomada de decisão automatizado em vez de informações feitas sem automação, mesmo quando o sistema de tomada de decisão automatizado comete erros.

B

viés (ética/imparcialidade)

#fairness
#fundamentals

1. Estereótipos, preconceito ou favoritismo em relação a algumas coisas, pessoas ou grupos sobre outras. Esse viés pode afetar a coleta e a interpretação dos dados, o design e a forma como os usuários interagem com um sistema. Os formulários desse tipo de viés incluem:

2. Erro sistemático introduzido por um procedimento de amostragem ou de geração de relatórios. Os formulários desse tipo de viés incluem:

Não confunda o termo de viés em modelos de machine learning ou o viés de previsão.

C

viés de confirmação

#fairness

A tendência de pesquisar, interpretar, favorecer e relembrar informações de modo a confirmar crenças ou hipóteses preexistentes. Os desenvolvedores de machine learning podem coletar ou rotular acidentalmente dados de maneiras que influenciem um resultado que apoia as crenças atuais. O viés de confirmação é uma forma de viés implícito.

O viés do experimento é uma forma de viés de confirmação em que um experimento continua a treinar modelos até que uma hipótese preexistente seja confirmada.

imparcialidade real

#fairness
Uma métrica de imparcialidade que verifica se um classificador produz o mesmo resultado para um indivíduo como para outro indivíduo idêntico ao primeiro, exceto em relação a um ou mais atributos sensíveis. A avaliação de um classificador para imparcialidade contrafreal é um método para mostrar possíveis fontes de viés em um modelo.

Consulte "When Worlds Collide: Integrar Diferentes Contrafreal Premissas de imparcialidade" para uma discussão mais detalhada sobre imparcialidade contrafreal.

viés de cobertura

#fairness

Consulte viés de seleção

D

paridade demográfica

#fairness

Uma métrica de imparcialidade que é satisfeita se os resultados de uma classificação de modelo não dependem de um determinado atributo sensível.

Por exemplo, se os filipinos e os bripdingnigianos se aplicarem à Universidade Glubbdubdrib, a paridade demográfica será alcançada se a porcentagem de libélulos admitidos for a mesma que a porcentagem de bripdingnagianos aceita, independentemente de um grupo ser, em média, mais qualificado do que outro.

Contraste com probabilidades iguais e a igualdade de oportunidade, que permitem que os resultados de classificação agregados dependam de atributos confidenciais, mas não permitem que os resultados de classificação para determinados rótulos de informações empíricas específicos dependam de atributos confidenciais. Consulte "Atacar a discriminação com machine learning mais inteligente" para uma visualização que explora as compensações ao otimizar para paridade demográfica.

impacto diferente

#fairness

Tomar decisões sobre pessoas que afetam diferentes subgrupos de população desproporcionalmente. Isso geralmente se refere a situações em que um processo de tomada de decisão algorítmico prejudica ou beneficia alguns subgrupos mais do que outros.

Por exemplo, imagine que um algoritmo que determina a qualificação de um empréstimo para casa de Lilliputian para um empréstimo para compra de casas em miniatura tem mais chances de classificá-lo como "não qualificado" se o endereço de correspondência contiver um determinado código postal. Se os lilliputians de Big-Endian tiverem mais chances de ter endereços de correspondência com esse código postal do que os Lilliputians de Little Endend, esse algoritmo pode ter um impacto diferente.

Ao contrário do tratamento isolado, que se concentra em disparidades que resultam em características de subgrupos que são entradas explícitas para um processo de tomada de decisão algorítmico.

tratamento diferente

#fairness

Fatoração de sujeitos' atributos confidenciais em um processo de tomada de decisão algorítmico para que diferentes subgrupos de pessoas sejam tratados de maneira diferente.

Por exemplo, considere um algoritmo que determina a qualificação dos libaneses para um empréstimo de imóvel residencial com base nos dados que eles fornecem na solicitação de empréstimo. Se o algoritmo usar a filiação de um lilliputiano como Big-Endian ou Little Endend como entrada, ele propõe um tratamento diferente ao longo dessa dimensão.

O contraste com o impacto distorcido, que se concentra nas disparidades nos impactos sociais de decisões algorítmicas em subgrupos, independentemente de esses subgrupos serem entradas no modelo.

E

igualdade de oportunidade

#fairness
Uma métrica de imparcialidade que verifica se, para um rótulo preferido (que concede uma vantagem ou benefícios para uma pessoa) e um determinado atributo, um classificador prevê esse rótulo preferencial igualmente para todos os valores desse atributo. Em outras palavras, a igualdade de oportunidade mede se as pessoas que devem se qualificar para uma oportunidade têm a mesma probabilidade de fazer isso, independentemente da associação ao grupo.

Por exemplo, suponha que a Universidade de Glubbdubdrib admita tanto lilliputians quanto brubdingnagianos a um programa matemático rigoroso. As escolas secundárias do Lilliputians oferecem um currículo robusto de aulas de matemática, e a maioria dos estudantes é qualificada para o programa universitário. As escolas secundárias de Brobdingnagians não oferecem aulas de matemática e, como resultado, muito menos alunos são qualificados. A igualdade de oportunidade é atendida para a etiqueta preferida de "quot;admited" em relação à nacionalidade" (lilliputian ou Brobdingnagian) se estudantes qualificados têm a mesma probabilidade de serem admitidos, independentemente de serem lilliputianos ou Brobdingnagians.

Por exemplo, vamos supor que 100 libaneses e 100 Brobdingnagians se apliquem à Universidade Glubbdubdrib. As decisões de entrada são tomadas da seguinte maneira:

Tabela 1. Candidatos filipinos (90% estão qualificados)

  Qualificado Não qualificado
Permitido 45 3
Recusado 45 7
Total 90 10
Porcentagem de alunos qualificados aceitos: 45/90 = 50%
Porcentagem de alunos não qualificados recusados: 7/10 = 70%
Porcentagem total de alunos universitários admitidos: (45+3)/100 = 48%

 

Tabela 2. Candidatos da Brobdingnagian (10% estão qualificados):

  Qualificado Não qualificado
Permitido 5 9
Recusado 5 81
Total 10 90
Porcentagem de alunos qualificados aceitos: 5/10 = 50%
Porcentagem de alunos não qualificados recusados: 81/90 = 90%
Porcentagem total de alunos do Brobdingnagian admitidos: (5+9)/100 = 14%

Os exemplos anteriores se encaixam na igualdade de oportunidade para aceitação de alunos qualificados, porque literatos qualificados e bradings giganizados têm 50% de chance de serem admitidos.

Consulte "Igualdade de oportunidade na aprendizagem supervisionada" para ver uma discussão mais detalhada sobre igualdade de oportunidade. Consulte também "Atacar a discriminação com machine learning mais inteligente" para uma visualização que explora as compensações ao otimizar para igualdade de oportunidade.

probabilidades iguais

#fairness
Uma métrica de imparcialidade que verifica se, para qualquer rótulo e atributo específico, um classificador prevê esse rótulo igualmente para todos os valores desse atributo.

Por exemplo, suponha que a Universidade de Glubbdubdrib admita tanto lilliputians quanto brobdingnagians a um programa matemático rigoroso. As escolas de ensino fundamental e médio oferecem um currículo robusto com aulas de matemática, e a grande maioria dos estudantes é qualificada para o programa universitário. As escolas de ensino fundamental e médio não oferecem aulas de matemática e, como resultado, muito menos dos alunos são qualificados. As chances de igualdade são satisfeitas desde que não importa se um candidato é lilliputiano ou brbdingnagiano, se eles estiverem qualificados, terão a mesma probabilidade de serem admitidas no programa e, se não forem qualificados, terão a mesma probabilidade de serem rejeitadas.

Vamos supor que 100 litúrgicos e 100 brondingsninos se apliquem à Universidade de Glubbdubdrib, e as decisões de entrada sejam tomadas da seguinte maneira:

Tabela 3. Candidatos filipinos (90% estão qualificados)

  Qualificado Não qualificado
Permitido 45 2
Recusado 45 8
Total 90 10
Porcentagem de alunos qualificados aceitos: 45/90 = 50%
Porcentagem de alunos não qualificados recusados: 8/10 = 80%
Porcentagem total de alunos liberários admitidos: (45+2)/100 = 47%

 

Tabela 4. Candidatos da Brobdingnagian (10% estão qualificados):

  Qualificado Não qualificado
Permitido 5 18
Recusado 5 72
Total 10 90
Porcentagem de alunos qualificados aceitos: 5/10 = 50%
Porcentagem de alunos não qualificados recusados: 72/90 = 80%
Porcentagem total de alunos do Brobdingnagian admitidos: (5+18)/100 = 23%

As chances de igualdade são satisfeitas, porque os alunos qualificados de literatura e britânica

As probabilidades iguais são definidas formalmente em "Igualdade de oportunidade de aprendizado supervisionado" da seguinte maneira: "o prevence Ŷ atende às probabilidades iguais em relação ao atributo protegido A e ao resultado Y se Ŷ e A forem independentes, condicionais em Y."

viés do experimento

#fairness

Consulte viés de confirmação

F

restrição de imparcialidade

#fairness
Aplicar uma restrição a um algoritmo para garantir que uma ou mais definições de imparcialidade sejam satisfeitas. Veja alguns exemplos de restrições de imparcialidade:

métrica de imparcialidade

#fairness

Uma definição matemática da "imparcialidade" que é mensurável. Algumas das métricas de imparcialidade mais usadas incluem:

Muitas métricas de imparcialidade são mutuamente exclusivas. Consulte incompatibilidade de métricas de imparcialidade.

G

viés de atribuição a grupos

#fairness

Presumir que o que é verdadeiro para um indivíduo também é verdadeiro para todos nesse grupo. Os efeitos do viés de atribuição de grupo podem ser exagerados se uma amostragem de conveniência for usada para coleta de dados. Em uma amostra não representativa, podem ser feitas atribuições que não reflitam a realidade.

Veja também viés de homogeneidade fora do grupo e viés de grupo.

I

viés implícito

#fairness

Fazer uma associação ou suposição automaticamente com base nos modelos e memórias mentais de uma pessoa. O viés implícito pode afetar o seguinte:

  • Como os dados são coletados e classificados.
  • Como sistemas de machine learning são projetados e desenvolvidos.

Por exemplo, ao criar um classificador para identificar fotos de casamento, um engenheiro pode usar a presença de um vestido branco em uma foto como atributo. No entanto, os vestidos brancos eram costumes apenas durante determinadas épocas e em determinadas culturas.

Veja também viés de confirmação.

incompatibilidade das métricas de imparcialidade

#fairness

A ideia de que algumas noções de imparcialidade são incompatíveis entre si e não podem ser atendidas simultaneamente. Como resultado, não há uma métrica universal para quantificar a imparcialidade que pode ser aplicada a todos os problemas de ML.

Isso pode parecer desencorajador, mas a incompatibilidade das métricas de imparcialidade não implica que os esforços de imparcialidade sejam infrutíferos. Em vez disso, ele sugere que a imparcialidade precisa ser definida contextualmente para um determinado problema de ML, com o objetivo de evitar danos específicos aos casos de uso.

Consulte "Sobre (i)possibilidade de imparcialidade" para uma discussão mais detalhada sobre esse tópico.

imparcialidade individual

#fairness

Uma métrica de imparcialidade que verifica se indivíduos semelhantes são classificados de maneira semelhante. Por exemplo, a Brobdingnagian Academy pode querer atender à imparcialidade individual, garantindo que dois alunos com notas idênticas e pontuações de teste padronizadas tenham igualmente probabilidade de ganhar admissão.

Observe que a imparcialidade individual depende totalmente de como você define "Similarity" neste caso, notas e pontuações de teste) e você pode correr o risco de introduzir novos problemas de imparcialidade se sua métrica de semelhança perder informações importantes (como o rigor do currículo de um aluno).

Consulte "Imparcialidade com reconhecimento" para ver uma discussão mais detalhada da imparcialidade individual.

viés de grupo

#fairness

Exibição de parcialidade para o próprio grupo ou características. Se os testadores ou avaliadores consistirem nos amigos, familiares ou colegas do desenvolvedor de machine learning, o viés em grupo poderá invalidar os testes de produtos ou o conjunto de dados.

O viés em grupo é um tipo de viés de atribuição de grupos. Consulte também o viés de homogeneidade fora do grupo.

N

viés de não resposta

#fairness

Consulte viés de seleção

O

viés de homogeneidade fora do grupo

#fairness

A tendência de ver os membros fora do grupo é mais semelhante do que os membros do grupo ao comparar atitudes, valores, traços de personalidade e outras características. No grupo refere-se a pessoas com quem você interage regularmente. Fora do grupo refere-se a pessoas com quem você não interage regularmente. Se você criar um conjunto de dados solicitando que as pessoas forneçam atributos sobre grupos, esses atributos poderão ser menos diferenciados e estereótipos que os atributos listados para os participantes do grupo.

Por exemplo, os lilliputians podem descrever as casas de outros lilliputians em detalhes, citando pequenas diferenças em estilos arquitetônicos, janelas, portas e tamanhos. No entanto, os mesmos Lilliputians podem simplesmente declarar que todos os brobdingnagerianos vivem em casas idênticas.

O viés de homogeneidade do grupo é uma forma de viés de atribuição de grupos.

Veja também viés em grupo.

P

viés de participação

#fairness

Sinônimo de viés de não resposta. Consulte viés de seleção

pós-processamento

#fairness
#fundamentals

Ajustar a saída de um modelo após a execução do modelo. O pós-processamento pode ser usado para aplicar restrições de imparcialidade sem modificar os próprios modelos.

Por exemplo, alguém pode aplicar o pós-processamento a um classificador binário definindo um limite de classificação para que a igualdade de oportunidade seja mantida para algum atributo, verificando se a taxa de verdadeiro positivo é igual para todos os valores desse atributo.

paridade preditiva

#fairness

Uma métrica de imparcialidade que verifica se, para um determinado classificador, as taxas de precisão são equivalentes para subgrupos em consideração.

Por exemplo, um modelo que prevê a aceitação na faculdade atenderia à paridade preditiva para a nacionalidade se a taxa de precisão fosse a mesma para lilliputians e brbdingnagians.

A paridade preditiva também é conhecida como paridade de taxa preditiva.

Consulte "Definições de imparcialidade explicadas" (seção 3.2.1) para uma discussão mais detalhada sobre paridade preditiva.

paridade da taxa preditiva

#fairness

Outro nome para a paridade preditiva.

pré-processamento

#fairness
Processamento de dados antes de serem usados para treinar um modelo. O pré-processamento pode ser tão simples quanto remover palavras de um corpus de texto em inglês que não ocorrem no dicionário de inglês ou pode ser tão complexa quanto reexibir pontos de dados de uma maneira que elimine o maior número de atributos correlacionados com atributos confidenciais. O pré-processamento ajuda a atender às restrições de imparcialidade.

proxy (atributos confidenciais)

#fairness
Um atributo usado como substituto para um atributo sensível. Por exemplo, um código postal de um indivíduo pode ser usado como um proxy para sua renda, raça ou etnia.

R

viés de relatório

#fairness

O fato de as pessoas escreverem sobre ações, resultados ou propriedades não é um reflexo das frequências reais ou o grau em que uma propriedade é característica de uma classe de indivíduos. O viés de relatório pode influenciar a composição de dados com que sistemas de machine learning aprendem.

Por exemplo, em livros, a palavra risada é mais predominante que respirada. Um modelo de machine learning que estima a frequência relativa de risos e respiração de um corpus de livros provavelmente determinaria que rir é mais comum do que respirar.

S

viés de amostragem

#fairness

Consulte viés de seleção

viés de seleção

#fairness

Erros em conclusões extraídas de dados de amostra devido a um processo de seleção que gera diferenças sistemáticas entre amostras observadas nos dados e aquelas não observadas. Existem as seguintes formas de viés de seleção:

  • viés de cobertura: a população representada no conjunto de dados não corresponde à população sobre a qual o modelo de machine learning está fazendo previsões.
  • Viés de amostragem: os dados não são coletados aleatoriamente do grupo de destino.
  • viés de não resposta (também chamado de viés de participação): os usuários de determinados grupos desativam as pesquisas em taxas diferentes dos usuários de outros grupos.

Por exemplo, suponha que você esteja criando um modelo de machine learning que prevê a satisfação das pessoas de um filme. Para coletar dados de treinamento, você distribui uma pesquisa para todos na linha de frente de um cinema que mostra o filme. Isso pode parecer uma maneira razoável de coletar um conjunto de dados, mas essa forma de coleta de dados pode introduzir as seguintes formas de viés de seleção:

  • Viés de cobertura: por amostragem de uma população que optou por ver o filme, as previsões do seu modelo podem não generalizar para pessoas que ainda não expressaram esse nível de interesse no filme.
  • Viés de amostragem: em vez de amostragem aleatória da população pretendida (todas as pessoas no filme), você fez a amostragem apenas das pessoas na linha de frente. É possível que as pessoas sentadas na linha de frente tenham mais interesse no filme do que aquelas em outras linhas.
  • Viés de não resposta: em geral, pessoas com opiniões fortes costumam responder a pesquisas opcionais com mais frequência do que pessoas com opiniões leves. Como a pesquisa de filmes é opcional, as respostas têm mais probabilidade de formar uma distribuição bimodal do que uma distribuição normal (em forma de sino).

atributo confidencial

#fairness
Um atributo humano que pode receber consideração especial por motivos legais, éticos, sociais ou pessoais.

U

inconsciente (para um atributo sensível)

#fairness

Uma situação em que atributos sensíveis estão presentes, mas não incluídos nos dados de treinamento. Como os atributos confidenciais geralmente estão correlacionados a outros atributos dos dados de um usuário, um modelo treinado sem saber sobre um atributo confidencial ainda pode ter impacto distinto em relação a esse atributo ou violar outras restrições de imparcialidade.