Типы смещения
Изучите варианты ниже.
Оценка предвзятости
Модель обнаружения сарказма была обучена на 80 000 текстовых сообщений: 40 000 сообщений, отправленных взрослыми (18 лет и старше) и 40 000 сообщений, отправленных несовершеннолетними (младше 18 лет). Затем модель была оценена на тестовом наборе из 20 000 сообщений: 10 000 от взрослых и 10 000 от несовершеннолетних. Следующие матрицы путаницы показывают результаты для каждой группы (положительный прогноз означает классификацию «саркастический», отрицательный прогноз означает классификацию «не саркастический»):
взрослые люди
Истинные срабатывания (TP): 512 | Ложные срабатывания (FP): 51 |
Ложноотрицательные результаты (FN): 36 | Истинные отрицательные результаты (TN): 9401 |
$$\text{Precision} = \frac{TP}{TP+FP} = 0.909$$ | |
$$\text{Recall} = \frac{TP}{TP+FN} = 0.934$$ |
Несовершеннолетние
Истинные положительные результаты (TPs): 2147 | Ложные срабатывания (FP): 96 |
Ложноотрицательные результаты (FN): 2177 | Истинные отрицательные результаты (TN): 5580 |
$$\text{Precision} = \frac{TP}{TP+FP} = 0.957$$ | |
$$\text{Recall} = \frac{TP}{TP+FN} = 0.497$$ |
Изучите варианты ниже.
Модель обеспечивает как точность, так и уровень отзыва более 90% при обнаружении сарказма в текстовых сообщениях от взрослых.
Хотя модель обеспечивает несколько более высокую точность для несовершеннолетних, чем для взрослых, скорость отзыва для несовершеннолетних существенно ниже, что приводит к менее надежным прогнозам для этой группы.
Изучите варианты ниже.
Модель хорошо работает с текстовыми сообщениями от взрослых (с точностью и коэффициентом отзыва выше 90%), поэтому ограничение ее использования этой группой позволит избежать систематических ошибок при классификации текстовых сообщений несовершеннолетних.
Уровень точности для текстовых сообщений, отправленных несовершеннолетними, высок, а это означает, что когда модель предсказывает «саркастический» для этой группы, это почти всегда правильно.
Проблема в том, что у несовершеннолетних отзыв очень низкий; Модель не может идентифицировать сарказм примерно в 50% случаев. Учитывая, что отрицательные прогнозы модели для несовершеннолетних не лучше, чем случайные предположения, мы можем избежать этих ошибок, не предоставляя прогноз в этих случаях.
Систематические ошибки в этой модели специфичны для текстовых сообщений, отправляемых несовершеннолетними. Ограничение использования модели группой, более подверженной ошибкам, не поможет.
Всегда прогнозирование «саркастичного» для текстовых сообщений несовершеннолетних увеличило бы скорость отзыва с 0,497 до 1,0, поскольку модель больше не будет ошибаться в определении любых сообщений как саркастических. Однако это увеличение отзыва произойдет за счет точности. Все истинные негативы будут заменены на ложноположительные:
Истинные положительные результаты (TPs): 4324 | Ложные срабатывания (FP): 5676 |
Ложноотрицательные результаты (FN): 0 | Истинные негативы (TN): 0 |
что уменьшит коэффициент точности с 0,957 до 0,432. Таким образом, добавление этой калибровки изменит тип ошибки, но не уменьшит величину ошибки.