Imparcialidade: verificar seu conhecimento

Tipos de viés

Confira as opções abaixo.

Qual das seguintes previsões de modelo foi afetada pelo viés de seleção?
Um aplicativo para smartphone de reconhecimento de escrita manual em alemão usa um modelo que classifica incorretamente caracteres ß (Eszett) como caracteres B, porque ele foi treinado em um corpus de amostras de escrita manual americana, em sua maioria, em inglês.
Esse modelo foi afetado por um tipo de viés de seleção chamado viés de cobertura: os dados de treinamento (escritas em inglês americano) não representavam o tipo de dados fornecidos pelo público-alvo do modelo (escrita à mão alemã).
Os engenheiros criaram um modelo para prever a probabilidade de uma pessoa desenvolver diabetes com base no consumo diário de alimentos. O modelo foi treinado com 10.000 diários de alimentos e alimentação, coletados de um grupo aleatório de pessoas do mundo todo que representam uma variedade de faixas etárias, origens étnicas e gêneros diferentes. No entanto, quando o modelo foi implantado, ele teve uma precisão muito ruim. Os engenheiros descobriram depois que os participantes do diário alimentar não admitiam o verdadeiro volume de alimentos não saudáveis que comiam e eram mais propensos a documentar o consumo de alimentos nutritivos do que os lanches menos saudáveis.
Não há viés de seleção nesse modelo. Os participantes que forneceram dados de treinamento foram uma amostra representativa de usuários e foram escolhidos aleatoriamente. Em vez disso, esse modelo foi afetado pelo viés de relatório. A ingestão de alimentos não saudáveis é relatada com uma frequência muito menor do que a ocorrência real real.
Os engenheiros de uma empresa desenvolveram um modelo para prever as taxas de rotatividade de funcionários (a porcentagem de funcionários que deixam o emprego a cada ano) com base nos dados coletados de uma pesquisa enviada a todos os funcionários. Após vários anos de uso, os engenheiros determinaram que o modelo subestimou a rotatividade em mais de 20%. Durante entrevistas de saída com funcionários que saíram da empresa, eles descobriram que mais de 80% das pessoas insatisfeitas com seus empregos decidiram não responder à pesquisa, em comparação com uma taxa de 15% de recusa em toda a empresa.
Este modelo foi afetado por um tipo de viés de seleção chamado viés sem resposta. As pessoas que estavam insatisfeitos com os empregos estavam sub-representadas no conjunto de dados de treinamento porque recusaram a pesquisa em toda a empresa a taxas muito mais altas do que toda a população de funcionários.
Os engenheiros que desenvolveram um sistema de recomendação de filmes acreditavam que as pessoas que gostam de filmes de terror também gostam de filmes de ficção científica. No entanto,quando treinaram um modelo com 50.000 usuários e listas de interesses, ele não mostrou essa correlação entre as preferências de terror e ficção científica, mas mostrou uma forte correlação entre as preferências de terror e documentários. Isso parecia estranho para eles. Por isso, eles treinaram novamente o modelo mais cinco vezes usando hiperparâmetros diferentes. O modelo final treinado mostrou uma correlação de 70% entre as preferências de terror e de ficção científica, então ele foi lançado com confiança na produção.
Não há evidências de viés de seleção, mas esse modelo pode ter sido afetado pelo viés do experimento, enquanto os engenheiros continuaram iterando o modelo até confirmarem a hipótese preexistente.

Avaliação para tendências

Um modelo de detecção de sarcasmo foi treinado em 80.000 mensagens de texto: 40.000 mensagens enviadas por adultos (18 anos e mais antigas) e 40.000 mensagens enviadas por menores de 18 anos. O modelo foi avaliado em um conjunto de teste com 20 mil mensagens: 10 mil de adultos e 10 mil de menores. As seguintes matrizes de confusão mostram os resultados para cada grupo (uma previsão positiva significa uma classificação de "sarcastic"; uma previsão negativa significa uma classificação de "não sarcástico"):

Adultos

Verdadeiros positivos (TPs, na sigla em inglês): 512 Falsos positivos (FPs): 51
Falsos negativos (FNs): 36 Verdadeiros negativos (VNs): 9.401
$$\text{Precision} = \frac{TP}{TP+FP} = 0.909$$
$$\text{Recall} = \frac{TP}{TP+FN} = 0.934$$

Menores

Verdadeiros positivos (TPs, na sigla em inglês): 2.147 Falsos positivos (FPs): 96
Falsos negativos (FNs): 2.177 Verdadeiros negativos (VNs): 5.580
$$\text{Precision} = \frac{TP}{TP+FP} = 0.957$$
$$\text{Recall} = \frac{TP}{TP+FN} = 0.497$$

Confira as opções abaixo.

Qual das seguintes afirmações sobre o desempenho do conjunto de teste do modelo é verdadeira?
No geral, o modelo tem um desempenho melhor em exemplos de adultos do que em exemplos de menores.

O modelo atinge taxas de precisão e recall acima de 90% ao detectar sarcasmo em mensagens de texto de adultos.

Embora o modelo atinja uma taxa de precisão ligeiramente maior para menores do que adultos, a taxa de recall é substancialmente menor para menores, resultando em previsões menos confiáveis para esse grupo.

O modelo não classifica aproximadamente 50% dos menores de idade, mensagens sarcásticos como "sarcastic."
A taxa de recall de 0,497 para menores indica que o modelo prevê "não sarcástico" para aproximadamente 50% dos menores de idade' textos sarcásticos.
Aproximadamente 50% das mensagens enviadas por menores de idade são classificadas como "quot;sarcastic" incorretamente.
A taxa de precisão de 0,957 indica que mais de 95% dos menores de idade' mensagens classificadas como "sarcastic" são sarcásticos.
As 10.000 mensagens enviadas por adultos são um conjunto de dados desequilibrado por classes.
Se compararmos o número de mensagens de adultos que são, na verdade, sarcásticos (TP+FN = 548) com o número de mensagens que não são sarcásticos (TN + FP = 9452), vemos que os rótulos "não sarcásticos" ultrapassam o número de rótulos sarcásticos em uma proporção de aproximadamente 1.
As 10.000 mensagens enviadas por menores de idade são um conjunto de dados desequilibrado por classes.
Se compararmos o número de mensagens de menores que são sarcásticos (TP+FN = 4324) com o número de mensagens que não são sarcásticos (TN + FP = 5676), vemos que há uma proporção de 1.3:1 de rótulos "quot;sarcastic" para"sarcastic "sarcastic& Como a distribuição de rótulos entre as duas classes é muito próxima de 50/50, esse conjunto de dados não é desequilibrado.

Confira as opções abaixo.

Os engenheiros estão trabalhando no treinamento desse modelo para lidar com inconsistências na precisão da detecção de sarcasmo em todas as informações demográficas de idade, mas o modelo já foi lançado na produção. Qual das seguintes estratégias de intervalo ajudará a reduzir erros nas previsões do modelo?
Restringir o uso do modelo a mensagens de texto enviadas por adultos.

O modelo tem um bom desempenho em mensagens de texto de adultos (com taxas de precisão e recall acima de 90%). Portanto, restringir o uso a esse grupo vai evitar os erros sistemáticos na classificação de menores.

Quando o modelo prevê "não sarcástico" para mensagens de texto enviadas por menores, ajuste o resultado para que o modelo retorne um valor de "unsure".

A taxa de precisão das mensagens de texto enviadas por menores de idade é alta. Isso significa que, quando o modelo prevê "sarcastic" para esse grupo, ele é quase sempre correto.

O problema é que o recall é muito baixo para menores. O modelo não consegue identificar sarcasmo em aproximadamente 50% dos exemplos. Como as previsões negativas de modelos para menores de idade não são melhores do que estimativas aleatórias, podemos evitar esses erros ao não fornecer uma previsão nesses casos.

Restringir o uso do modelo a mensagens de texto enviadas por menores.

Os erros sistemáticos nesse modelo são específicos para mensagens de texto enviadas por menores. Restringir o uso do modelo ao grupo mais suscetível a erros não ajudaria.

Ajuste a saída do modelo para que ela retorne "sarcastic" para todas as mensagens de texto enviadas por menores, independentemente do que o modelo previu originalmente.

Sempre prevendo "sarcastic" para menores de idade' as mensagens de texto aumentariam a taxa de recall de 0,497 para 1,0, uma vez que o modelo não deixaria de identificar nenhuma mensagem como sarcástico. No entanto, esse aumento no recall prejudica a precisão. Todos os verdadeiros negativos serão alterados para falsos positivos:

Verdadeiros positivos (TPs, na sigla em inglês): 4.324 Falsos positivos (FPs): 5.676
Falsos negativos (FNs): 0 Verdadeiros negativos (VNs): 0

o que diminuiria a taxa de precisão de 0,957 para 0,432. A adição dessa calibração mudaria o tipo de erro, mas não reduziria a magnitude do erro.