Практикум по машинному обучению: справедливость в перспективе API

Узнайте, как команда Jigsaw боролась с домогательствами в Интернете в сотрудничестве с командой Google Counter-Abuse Technology, разработав Perspective API, который использует машинное обучение для выявления токсичных комментариев. Затем используйте индикаторы справедливости для оценки моделей машинного обучения и устранения непреднамеренной систематической ошибки в обучающих данных.

Введение

Jigsaw — это подразделение Alphabet, которое создает технологии, чтобы сделать мир безопаснее. В 2017 году команда решила бороться с домогательствами в Интернете и разработала Perspective API . Цель Perspective API — увеличить участие, качество и эмпатию в онлайн-общении в любом масштабе. Разработчики и издатели могут использовать Perspective для выявления и фильтрации текста, препятствующего конструктивному диалогу на онлайн-форумах, путем анализа содержания комментариев на наличие потенциально оскорбительного текста, включая угрозы, оскорбления, ненормативную лексику и ненормативную лексику.

Perspective API принимает текст комментария в качестве входных данных и возвращает «оценку» от 0 до 1, которая указывает на вероятность того, что комментарий похож на токсичные комментарии, которые он видел в прошлом. Оценка 0 означает 0 % вероятности того, что комментарий является токсичным, оценка 1 означает 100 % вероятность того, что комментарий токсичен, а оценка 0,5 означает 50 % вероятность того, что комментарий токсичен (т. е. модель не уверена).

Постановка задачи

После первоначального запуска Perspective API внешние пользователи обнаружили положительную корреляцию между идентификационными данными, содержащими информацию о расе или сексуальной ориентации, и оценкой токсичности. Например, фраза «Я гей-черная женщина» получила оценку токсичности 0,87. В этом случае термины идентичности не использовались уничижительно, поэтому этот пример был классифицирован неправильно. Где что-то пошло не так?