Справедливость: проверьте свое понимание

Типы смещения

Изучите варианты ниже.

На какие из следующих прогнозов модели повлияла систематическая ошибка отбора?
Немецкое приложение для смартфонов для распознавания почерка использует модель, которая часто неправильно классифицирует символы ß (Eszett) как символы B , потому что оно было обучено на корпусе американских образцов почерка, в основном написанных на английском языке.
На эту модель повлиял тип смещения выбора, называемый смещением охвата : обучающие данные (почерк на американском английском) не были репрезентативными для типа данных, предоставленных целевой аудиторией модели (немецкий почерк).
Инженеры построили модель, чтобы предсказать вероятность развития диабета у человека на основе его ежедневного потребления пищи. Модель была обучена на 10 000 «пищевых дневников», собранных случайно выбранной группой людей по всему миру, представляющих различные возрастные группы, этническое происхождение и пол. Однако когда модель была развернута, она имела очень низкую точность. Впоследствии инженеры обнаружили, что участники дневников питания неохотно признавали истинный объем нездоровой пищи, которую они съели, и с большей вероятностью документировали потребление питательной пищи, чем менее здоровых закусок.
В этой модели нет систематической ошибки отбора; участники, предоставившие обучающие данные, представляли собой репрезентативную выборку пользователей и были выбраны случайным образом. Вместо этого на эту модель повлияла предвзятость отчетности . О приеме нездоровой пищи сообщалось гораздо реже, чем в реальном мире.
Инженеры компании разработали модель для прогнозирования текучести кадров (процент сотрудников, увольняющихся каждый год) на основе данных, собранных в ходе опроса, разосланного всем сотрудникам. После нескольких лет использования инженеры определили, что модель занижала оборот более чем на 20%. При проведении выходных интервью с сотрудниками, увольняющимися из компании, они узнали, что более 80% людей, недовольных своей работой, предпочли не заполнять опрос, по сравнению с 15% в масштабах всей компании.
На эту модель повлиял тип систематической ошибки отбора, называемой систематической ошибкой отсутствия ответов . Люди, неудовлетворенные своей работой, были недостаточно представлены в наборе обучающих данных, потому что они отказались от участия в общекорпоративном опросе гораздо чаще, чем все сотрудники.
Инженеры, разрабатывающие систему рекомендаций фильмов, предположили, что людям, которым нравятся фильмы ужасов, также понравятся научно-фантастические фильмы. Однако когда они обучили модель на списках наблюдения 50 000 пользователей, она не показала такой корреляции между предпочтениями ужасов и научной фантастики; вместо этого он показал сильную корреляцию между предпочтениями фильмов ужасов и документальных фильмов. Им это показалось странным, поэтому они переобучили модель еще пять раз, используя разные гиперпараметры. Их окончательная обученная модель показала 70-процентную корреляцию между предпочтениями в области ужасов и научной фантастики, поэтому они уверенно запустили ее в производство.
Нет никаких доказательств предвзятости отбора, но вместо этого на эту модель могла повлиять предвзятость экспериментатора , поскольку инженеры продолжали повторять свою модель, пока она не подтвердила их ранее существовавшую гипотезу.

Оценка предвзятости

Модель обнаружения сарказма была обучена на 80 000 текстовых сообщений: 40 000 сообщений, отправленных взрослыми (18 лет и старше) и 40 000 сообщений, отправленных несовершеннолетними (младше 18 лет). Затем модель была оценена на тестовом наборе из 20 000 сообщений: 10 000 от взрослых и 10 000 от несовершеннолетних. Следующие матрицы путаницы показывают результаты для каждой группы (положительный прогноз означает классификацию «саркастический», отрицательный прогноз означает классификацию «не саркастический»):

взрослые люди

Истинные срабатывания (TP): 512 Ложные срабатывания (FP): 51
Ложноотрицательные результаты (FN): 36 Истинные отрицательные результаты (TN): 9401
$$\text{Precision} = \frac{TP}{TP+FP} = 0.909$$
$$\text{Recall} = \frac{TP}{TP+FN} = 0.934$$

Несовершеннолетние

Истинные положительные результаты (TPs): 2147 Ложные срабатывания (FP): 96
Ложноотрицательные результаты (FN): 2177 Истинные отрицательные результаты (TN): 5580
$$\text{Precision} = \frac{TP}{TP+FP} = 0.957$$
$$\text{Recall} = \frac{TP}{TP+FN} = 0.497$$

Изучите варианты ниже.

Какие из следующих утверждений о производительности тестового набора модели верны?
В целом модель работает лучше на примерах взрослых, чем на примерах несовершеннолетних.

Модель обеспечивает как точность, так и уровень отзыва более 90% при обнаружении сарказма в текстовых сообщениях от взрослых.

Хотя модель обеспечивает несколько более высокую точность для несовершеннолетних, чем для взрослых, скорость отзыва для несовершеннолетних существенно ниже, что приводит к менее надежным прогнозам для этой группы.

Модель не может классифицировать примерно 50% саркастических сообщений несовершеннолетних как «саркастические».
Уровень припоминания 0,497 для несовершеннолетних указывает на то, что модель предсказывает «не саркастический» примерно для 50% саркастических текстов несовершеннолетних.
Примерно 50% сообщений, отправляемых несовершеннолетними, ошибочно классифицируются как «саркастические».
Коэффициент точности 0,957 указывает на то, что более 95% сообщений несовершеннолетних, классифицированных как «саркастические», на самом деле являются саркастическими.
10 000 сообщений, отправленных взрослыми, представляют собой несбалансированный набор данных по классам .
Если мы сравним количество сообщений от взрослых, которые на самом деле являются саркастичными (TP+FN = 548), с количеством сообщений, которые на самом деле не являются саркастичными (TN + FP = 9452), мы увидим, что ярлыки «не саркастические» превышают количество «саркастических». этикетки в соотношении примерно 17:1.
10 000 сообщений, отправленных несовершеннолетними, представляют собой набор данных с несбалансированным классом .
Если мы сравним количество сообщений от несовершеннолетних, которые на самом деле являются саркастическими (TP+FN = 4324), с количеством сообщений, которые на самом деле не являются саркастичными (TN + FP = 5676), мы увидим, что соотношение « не саркастические" ярлыки на "саркастические" ярлыки. Учитывая, что распределение меток между двумя классами довольно близко к 50/50, это не несбалансированный набор данных по классам.

Изучите варианты ниже.

Инженеры работают над переобучением этой модели, чтобы устранить несоответствия в точности обнаружения сарказма в зависимости от возрастной демографии, но модель уже запущена в производство. Какая из следующих временных стратегий поможет смягчить ошибки в прогнозах модели?
Ограничьте использование модели текстовыми сообщениями, отправленными взрослыми.

Модель хорошо работает с текстовыми сообщениями от взрослых (с точностью и коэффициентом отзыва выше 90%), поэтому ограничение ее использования этой группой позволит избежать систематических ошибок при классификации текстовых сообщений несовершеннолетних.

Когда модель предсказывает «не саркастический» для текстовых сообщений, отправленных несовершеннолетними, отрегулируйте выходные данные, чтобы вместо этого модель возвращала значение «не уверен».

Уровень точности для текстовых сообщений, отправленных несовершеннолетними, высок, а это означает, что когда модель предсказывает «саркастический» для этой группы, это почти всегда правильно.

Проблема в том, что у несовершеннолетних отзыв очень низкий; Модель не может идентифицировать сарказм примерно в 50% случаев. Учитывая, что отрицательные прогнозы модели для несовершеннолетних не лучше, чем случайные предположения, мы можем избежать этих ошибок, не предоставляя прогноз в этих случаях.

Ограничьте использование модели текстовыми сообщениями, отправленными несовершеннолетними.

Систематические ошибки в этой модели специфичны для текстовых сообщений, отправляемых несовершеннолетними. Ограничение использования модели группой, более подверженной ошибкам, не поможет.

Настройте вывод модели так, чтобы он возвращал «саркастический» для всех текстовых сообщений, отправленных несовершеннолетними, независимо от того, что изначально предсказывала модель.

Всегда прогнозирование «саркастичного» для текстовых сообщений несовершеннолетних увеличило бы скорость отзыва с 0,497 до 1,0, поскольку модель больше не будет ошибаться в определении любых сообщений как саркастических. Однако это увеличение отзыва произойдет за счет точности. Все истинные негативы будут заменены на ложноположительные:

Истинные положительные результаты (TPs): 4324 Ложные срабатывания (FP): 5676
Ложноотрицательные результаты (FN): 0 Истинные негативы (TN): 0

что уменьшит коэффициент точности с 0,957 до 0,432. Таким образом, добавление этой калибровки изменит тип ошибки, но не уменьшит величину ошибки.