Glossário de machine learning: imparcialidade

Esta página contém os termos do glossário de imparcialidade. Para ver todos os termos do glossário, clique aqui.

A

atributo

#fairness

Sinônimo de feature.

Na imparcialidade do machine learning, os atributos geralmente se referem a características relacionadas aos indivíduos.

viés de automação

#fairness

Quando um tomador de decisões favorece as recomendações feitas por um sistema automatizado de tomada de decisão em vez das informações feitas sem automação, mesmo quando esse sistema comete erros.

B

viés (ética/imparcialidade)

#fairness
#fundamentals

1. Estereótipos, preconceito ou favoritismo em relação a algumas coisas, pessoas ou grupos em detrimento de outras. Esses vieses podem afetar a coleta e a interpretação de dados, o design de um sistema e a forma como os usuários interagem com ele. Formas desse tipo de viés incluem:

2. Erro sistemático introduzido por um procedimento de amostragem ou de relatório. Formas desse tipo de viés incluem:

Não confunda com o termo de viés em modelos de machine learning ou com o viés de previsão.

C

viés de confirmação

#fairness

A tendência de buscar, interpretar, favorecer e relembrar informações de uma maneira que confirme as crenças ou hipóteses pré-existentes de alguém. Os desenvolvedores de machine learning podem coletar ou rotular inadvertidamente os dados de maneira a influenciar um resultado que apoie as crenças deles. O viés de confirmação é uma forma de viés implícito.

O viés do experimentador é uma forma de viés de confirmação em que um experimentador continua treinando modelos até que uma hipótese preexistente seja confirmada.

imparcialidade contrafatual

#fairness

Uma métrica de imparcialidade que verifica se um classificador gera o mesmo resultado para um indivíduo que gera para outro indivíduo idêntico ao primeiro, exceto em relação a um ou mais atributos sensíveis. Avaliar a imparcialidade contrafatual de um classificador é um método para revelar possíveis fontes de viés em um modelo.

Consulte "When Worlds Collide: Integrating Different Counterfactual Ssumptions in Fairness" (em inglês) para uma discussão mais detalhada sobre imparcialidade contrafatual.

viés de cobertura

#fairness

Consulte viés de seleção.

D

paridade demográfica

#fairness

Uma métrica de imparcialidade que é satisfeita se os resultados da classificação de um modelo não dependerem de um determinado atributo sensível.

Por exemplo, se os liliputianos e os de Brobdingnagians se inscreverem na Universidade de Glubbdubdrib, a paridade demográfica será alcançada se a porcentagem de lilliputianos admitida for a mesma que a de bribundagues admitidos, independentemente de um grupo ser, em média, mais qualificado do que o outro.

Contraste com probabilidades equilibradas e igualdade de oportunidade, que permitem que os resultados de classificação em agregação dependam de atributos confidenciais, mas não permitem que os resultados de classificação para determinados rótulos de informações empíricas especificados dependam de atributos sensíveis. Consulte Atacando a discriminação com machine learning mais inteligente para uma visualização que explora as vantagens e desvantagens da otimização da paridade demográfica.

impacto diferente

#fairness

Tomar decisões sobre pessoas que afetam diferentes subgrupos da população de forma desproporcional. Isso geralmente se refere a situações em que um processo de tomada de decisão algorítmico prejudica ou beneficia alguns subgrupos mais do que outros.

Por exemplo, suponha que um algoritmo que determina a qualificação de um liliputiano para um empréstimo de casa em miniatura tem maior probabilidade de classificá-lo como "não qualificado" se o endereço de correspondência dele contiver um determinado código postal. Se os lilliputians da região Big-Endian têm mais probabilidade de ter endereços de correspondência com esse código postal do que os lilliputians Little-Endian, esse algoritmo pode resultar em um impacto diferente.

Contraste com tratamento diferente, que se concentra nas disparidades que resultam quando as características do subgrupo são entradas explícitas em um processo de tomada de decisão algorítmico.

tratamento diferenciado

#fairness

Consideração dos atributos sensíveis dos participantes em um processo de tomada de decisão algorítmico de modo que subgrupos diferentes de pessoas sejam tratados de maneira diferente.

Por exemplo, pense em um algoritmo que determina a qualificação dos lilliputia para um empréstimo de casa em miniatura com base nos dados fornecidos na solicitação de empréstimo. Se o algoritmo usa a afiliação de um liliputiano como Big-Endian ou Little-Endian como entrada, ele está agindo de forma diferente para essa dimensão.

Contraste com impactos distintos, que se concentram nas disparidades nos impactos sociais das decisões algorítmicas em subgrupos, independentemente de esses subgrupos serem entradas do modelo.

E

igualdade de oportunidade

#fairness

Uma métrica de imparcialidade para avaliar se um modelo está prevendo o resultado desejado igualmente para todos os valores de um atributo sensível. Em outras palavras, se o resultado desejável para um modelo for a classe positiva, a meta seria ter a taxa de verdadeiro positivo para todos os grupos.

A igualdade de oportunidade está relacionada às chances equalizadas, o que exige que as taxas de verdadeiro positivo e taxas de falsos positivos sejam iguais para todos os grupos.

Suponha que a Universidade Glubbdubdrib admite tanto os lilliputians quanto os Brobdingnagians para um rigoroso programa de matemática. As escolas de ensino médio lilliputinos oferecem um currículo robusto de aulas de matemática, e a grande maioria dos alunos está qualificada para o programa universitário. As escolas secundárias de Brobdingnagians não oferecem aulas de matemática e, como resultado, muito menos alunos são qualificados. A igualdade de oportunidade é satisfeita para o rótulo preferencial de "admitido" em relação à nacionalidade (liliputiano ou brobdingnagian) se estudantes qualificados tiverem a mesma probabilidade de serem admitidos, independentemente de serem liliputados ou brobddings.

Por exemplo, suponha que 100 lilliputianos e 100 brbdingnagians se inscrevam na Universidade Glubbdubdrib, e as decisões de admissão são tomadas da seguinte maneira:

Tabela 1. Candidatos liliputados (90% estão qualificados)

  Qualificado Não qualificado
Permitido 45 3
Recusada 45 7
Total 90 10
Porcentagem de estudantes qualificados admitidos: 45/90 = 50%
Porcentagem de estudantes não qualificados rejeitados: 7/10 = 70%
Porcentagem total de estudantes liliputados aceitos: (45+3)/100 = 48%

 

Tabela 2. Candidatos do Brobdingnagian (10% estão qualificados):

  Qualificado Não qualificado
Permitido 5 9
Recusada 5 81
Total 10 90
Porcentagem de estudantes qualificados admitidos: 5/10 = 50%
Porcentagem de estudantes não qualificados rejeitados: 81/90 = 90%
Porcentagem total de estudantes de Brobdingnagian aceitos: (5+9)/100 = 14%

Os exemplos anteriores atendem à igualdade de oportunidade de aceitação de estudantes qualificados, porque os lilitúcias e brobddingnagas qualificados têm 50% de chance de serem admitidos.

Embora a igualdade de oportunidade seja satisfeita, as duas métricas de imparcialidade a seguir não são:

  • Paridade demográfica: lilliputia e brbdingnagians têm taxas de admissão diferentes na universidade. 48% dos estudantes lilliputinos são aceitos, mas apenas 14% dos estudantes de Brobdingnagian são aceitos.
  • Riscos iguais: os estudantes liliputianos e brbdingnagian qualificados têm a mesma chance de serem admitidos, mas a restrição adicional de que os lilibutinos e brobddings não qualificados têm a mesma chance de serem rejeitados não é satisfeita. Os lilliputianos não qualificados têm uma taxa de rejeição de 70%, enquanto os brobddings não qualificados têm uma taxa de rejeição de 90%.

Consulte "Igualdade de oportunidade no aprendizado supervisionado" para uma discussão mais detalhada sobre igualdade de oportunidade. Consulte também "Como atacar a discriminação com machine learning mais inteligente" para uma visualização que explora as vantagens e desvantagens da otimização da igualdade de oportunidade.

probabilidades equalizadas

#fairness

Uma métrica de imparcialidade para avaliar se um modelo está prevendo resultados igualmente bem para todos os valores de um atributo sensível em respeito à classe positiva e à classe negativa, não apenas uma ou outra exclusivamente. Em outras palavras, a taxa de verdadeiro positivo e a taxa de falso negativo precisam ser as mesmas para todos os grupos.

As probabilidades equalizadas estão relacionadas à igualdade de oportunidade, que se concentra apenas nas taxas de erro de uma única classe (positiva ou negativa).

Por exemplo, suponha que a Universidade Glubbdubdrib admite tanto os liliputinos quanto os brobdingnagians para um rigoroso programa de matemática. As escolas de ensino médio lilliputinos oferecem um currículo robusto de aulas de matemática, e a grande maioria dos alunos é qualificada para o programa universitário. As escolas secundárias da dinastia Brobdingnagians não oferecem aulas de matemática e, como resultado, muito menos alunos têm a qualificação necessária. As probabilidades iguais são atendidas, desde que não importe se um candidato é liliputiano ou brobdingnagian, se ele for qualificado, ele terá a mesma probabilidade de ser admitido no programa e, se não for, tem a mesma probabilidade de ser rejeitado.

Suponha que 100 lilliputia e 100 brbdingnagians se inscrevam na Glubbdubdrib University e decisões de admissão são tomadas da seguinte maneira:

Tabela 3. Candidatos liliputados (90% estão qualificados)

  Qualificado Não qualificado
Permitido 45 2
Recusada 45 8
Total 90 10
Porcentagem de estudantes qualificados admitidos: 45/90 = 50%
Porcentagem de estudantes não qualificados rejeitados: 8/10 = 80%
Porcentagem total de estudantes liliputados aceitos: (45+2)/100 = 47%

 

Tabela 4. Candidatos do Brobdingnagian (10% estão qualificados):

  Qualificado Não qualificado
Permitido 5 18
Recusada 5 72
Total 10 90
Porcentagem de estudantes qualificados admitidos: 5/10 = 50%
Porcentagem de estudantes não qualificados rejeitados: 72/90 = 80%
Porcentagem total de estudantes de Brobdingnagian aceitos: (5+18)/100 = 23%

As probabilidades iguais são satisfeitas porque os estudantes qualificados de Liliputian e Brobdingnagian têm 50% de chance de serem aceitos, e os não qualificados Liliputianos e Brobdingnagian têm 80% de chance de serem rejeitados.

As probabilidades equalizadas são definidas formalmente em "Igualdade de oportunidades no aprendizado supervisionado" (em inglês) da seguinte forma: "o indicador ▾ atende a probabilidades equalizadas em relação ao atributo protegido A e o resultado Y se SET e A forem independentes e condicionais em Y".

viés do experimentador

#fairness

Consulte o viés de confirmação.

F

restrição de imparcialidade

#fairness
Aplicar uma restrição a um algoritmo para garantir que uma ou mais definições de imparcialidade sejam atendidas. Exemplos de restrições de imparcialidade incluem:

métrica de imparcialidade

#fairness

Uma definição matemática de "imparcialidade" que é mensurável. Algumas métricas de imparcialidade usadas com frequência incluem:

Muitas métricas de imparcialidade são mutuamente exclusivas. Consulte a incompatibilidade das métricas de imparcialidade.

G

viés de atribuição a grupos

#fairness

Supor que o que é verdade para um indivíduo também é verdade para todos desse grupo. Os efeitos do viés de atribuição de grupo podem ser exacerbados se uma amostragem por conveniência for usada para coleta de dados. Em uma amostra não representativa, podem ser feitas atribuições que não refletem a realidade.

Consulte também viés de homogeneidade externa ao grupo e viés de homogeneidade dentro do grupo.

H

viés histórico

#fairness

Um tipo de viés que já existe no mundo e entrou em um conjunto de dados. Esses vieses tendem a refletir estereótipos culturais, desigualdades demográficas e preconceitos contra determinados grupos sociais.

Por exemplo, considere um modelo de classificação que prevê se um solicitante de empréstimo vai ficar inadimplente ou não, que foi treinado com base em dados históricos de inadimplência dos anos 1980 de bancos locais em duas comunidades diferentes. Se os candidatos anteriores da Comunidade A tivessem seis vezes mais probabilidades de inadimplência dos empréstimos do que os da Comunidade B, o modelo poderia aprender um viés histórico, resultando em uma menor probabilidade de aprovar empréstimos na Comunidade A, mesmo que as condições históricas que resultaram nas taxas de inadimplência mais altas dessa comunidade não fossem mais relevantes.

I

viés implícito

#fairness

Fazer automaticamente uma associação ou suposição com base nos modelos e na memória da pessoa. O viés implícito pode afetar:

  • Como os dados são coletados e classificados.
  • Como os sistemas de machine learning são projetados e desenvolvidos.

Por exemplo, ao criar um classificador para identificar fotos de casamento, um engenheiro pode usar a presença de um vestido branco em uma foto como atributo. No entanto, vestidos brancos eram costumes apenas durante certas eras e em certas culturas.

Consulte também viés de confirmação.

incompatibilidade das métricas de imparcialidade

#fairness

A ideia de que algumas noções de imparcialidade são mutuamente incompatíveis e não podem ser satisfeitas simultaneamente. Como resultado, não há uma métrica universal que possa ser aplicada a todos os problemas de ML para quantificar a imparcialidade.

Isso pode parecer desanimador, mas a incompatibilidade das métricas de imparcialidade não implica que os esforços dessa imparcialidade são inúteis. Em vez disso, sugere que a imparcialidade precisa ser definida contextualmente para um determinado problema de ML, com o objetivo de evitar danos específicos aos casos de uso.

Consulte "Sobre a (im)possibilidade da imparcialidade" para conferir uma discussão mais detalhada sobre esse tópico.

imparcialidade individual

#fairness

Uma métrica de imparcialidade que verifica se indivíduos semelhantes são classificados de maneira semelhante. Por exemplo, a Brobdingnagian Academy pode querer satisfazer a imparcialidade individual, garantindo que dois estudantes com notas idênticas e pontuações de teste padronizadas tenham a mesma probabilidade de receber admissão.

A imparcialidade individual depende inteiramente de como você define "similaridade" (neste caso, notas e pontuações de teste). Você corre o risco de introduzir novos problemas de imparcialidade se sua métrica de similaridade não tiver informações importantes, como o rigor do currículo de um estudante.

Consulte "Imparcialidade com base na consciência para uma discussão mais detalhada sobre imparcialidade individual.

viés de grupo

#fairness

Mostrar parcialidade com relação ao próprio grupo ou características próprias. Se os testadores ou avaliadores consistirem nos amigos, familiares ou colegas do desenvolvedor de machine learning, o viés de grupo poderá invalidar o teste do produto ou o conjunto de dados.

O viés de grupo é uma forma de viés de atribuição em grupo (link em inglês). Consulte também o viés de homogeneidade externa ao grupo.

N

viés de não resposta

#fairness

Consulte viés de seleção.

O

viés de homogeneidade externa ao grupo

#fairness

A tendência de considerar os membros de fora do grupo mais parecidos do que os membros do grupo ao comparar atitudes, valores, traços de personalidade e outras características. Dentro de grupo se refere a pessoas com quem você interage regularmente, out-group se refere às pessoas com quem você não interage regularmente. Se você criar um conjunto de dados pedindo às pessoas para fornecer atributos sobre fora dos grupos, esses atributos poderão ser menos sutis e mais estereotipados do que os atributos listados pelos participantes para as pessoas no próprio grupo.

Por exemplo, os lilliputianos podem descrever as casas de outros lilicitatistas com muitos detalhes, citando pequenas diferenças em estilos arquitetônicos, janelas, portas e tamanhos. No entanto, os mesmos lilliputia podem simplesmente declarar que todos os irmãos vivem em casas idênticas.

O viés de homogeneidade externa ao grupo é uma forma de viés de atribuição de grupo.

Consulte também viés de grupo.

P

viés de participação

#fairness

Sinônimo de viés de não resposta. Consulte viés de seleção.

pós-processamento

#fairness
#fundamentals

Ajustar a saída de um modelo após a execução dele. O pós-processamento pode ser usado para impor restrições de imparcialidade sem modificar os modelos.

Por exemplo, é possível aplicar o pós-processamento a um classificador binário configurando um limiar de classificação de modo que a igualdade de oportunidade seja mantida para algum atributo, verificando se a taxa de verdadeiro positivo é a mesma para todos os valores desse atributo.

paridade preditiva

#fairness

Uma métrica de imparcialidade que verifica se, para um determinado classificador, as taxas de precisão são equivalentes para subgrupos em consideração.

Por exemplo, um modelo que prevê a aceitação da faculdade atenderia à paridade preditiva da nacionalidade se a taxa de precisão for a mesma para os lilliputinos e brbdingnagians.

A paridade preditiva às vezes também é chamada de paridade de taxa preditiva.

Consulte Explicações sobre a imparcialidade (seção 3.2.1) para conferir uma discussão mais detalhada sobre a paridade preditiva.

paridade de taxa preditiva

#fairness

Outro nome para paridade preditiva.

pré-processamento

#fairness
Processamento de dados antes de serem usados para treinar um modelo. O pré-processamento pode ser tão simples quanto remover palavras de um corpus de texto em inglês que não ocorrem no dicionário de inglês ou pode ser tão complexo quanto reexpressar pontos de dados para eliminar o máximo possível de atributos correlacionados com atributos confidenciais. O pré-processamento pode ajudar a cumprir as restrições de imparcialidade.

Proxy (atributos confidenciais)

#fairness
Um atributo usado como substituto de um atributo confidencial. Por exemplo, o CEP de uma pessoa pode ser usado como um substituto de renda, raça ou etnia.

R

viés de relatório

#fairness

O fato de que a frequência com que as pessoas escrevem sobre ações, resultados ou propriedades não é um reflexo das frequências no mundo real ou do grau em que uma propriedade é característica de uma classe de indivíduos. O viés de relatório pode influenciar a composição dos dados com os quais os sistemas de machine learning aprendem.

Por exemplo, nos livros, a palavra ri é mais prevalente do que respirado. Um modelo de machine learning que estima a frequência relativa de risos e respiração de um corpus de livro provavelmente determinaria que rir é mais comum do que respirar.

S

viés de amostragem

#fairness

Consulte viés de seleção.

viés de seleção

#fairness

Erros em conclusões retirados de dados de amostra devido a um processo de seleção que gera diferenças sistemáticas entre as amostras observadas nos dados e as não observadas. Existem as seguintes formas de viés de seleção:

  • viés de cobertura: a população representada no conjunto de dados não corresponde àquela sobre a qual o modelo de machine learning está fazendo previsões.
  • Viés de amostragem: os dados não são coletados aleatoriamente no grupo de destino.
  • Viés de não resposta (também chamado de viés de participação): usuários de determinados grupos recusam pesquisas em taxas diferentes das usuários de outros grupos.

Por exemplo, suponha que você esteja criando um modelo de machine learning que prevê como as pessoas gostam de um filme. Para coletar dados de treinamento, você distribui uma pesquisa para todos na primeira fila de um cinema que exibe o filme. Fora isso, essa pode parecer uma maneira razoável de reunir um conjunto de dados. No entanto, essa forma de coleta de dados pode introduzir as seguintes formas de viés de seleção:

  • viés de cobertura: ao usar uma amostragem de uma população que escolheu assistir ao filme, as previsões do modelo podem não ser generalizadas para pessoas que ainda não expressaram esse nível de interesse no filme.
  • viés de amostragem: em vez de coletar amostras aleatoriamente da população pretendida (todas as pessoas no filme), você usou apenas as pessoas na primeira fila. É possível que as pessoas sentadas na primeira fila tenham mais interesse no filme do que as outras filas.
  • viés de não resposta: em geral, pessoas com opiniões fortes tendem a responder a pesquisas opcionais com mais frequência do que pessoas com opiniões moderadas. Como a pesquisa sobre filmes é opcional, é mais provável que as respostas formem uma distribuição bimodal do que uma distribuição normal (em forma de sino).

atributo confidencial

#fairness
Um atributo humano que pode receber atenção especial por motivos legais, éticos, sociais ou pessoais.

U

falta de reconhecimento (para um atributo sensível);

#fairness

Uma situação em que atributos confidenciais estão presentes, mas não são incluídos nos dados de treinamento. Como atributos confidenciais geralmente estão correlacionados a outros atributos dos dados, um modelo treinado sem saber sobre um atributo sensível ainda pode ter impactos diferentes em relação a esse atributo ou violar outras restrições de imparcialidade.