Выявление предвзятости

Когда команда Jigsaw впервые оценила модель токсичности Perspective API, они обнаружили, что она показала хорошие результаты на тестовом наборе данных. Но они были обеспокоены тем, что по-прежнему существует вероятность того, что предвзятость может проявиться в прогнозах модели, если в обучающих данных будут какие-либо системные ошибки. Чтобы обеспечить качество обучающих данных, они предприняли дополнительный шаг по проверке меток, предоставленных оценщиками-людьми, чтобы убедиться, что они точны.

Тем не менее, несмотря на эти упреждающие шаги, предпринятые для устранения предвзятости в обучающих данных модели, пользователи по-прежнему обнаруживали ложноположительную проблему для комментариев, содержащих идентификационные термины. Как это случилось?

Второй аудит обучающей выборки показал, что большинство комментариев, содержащих термины идентичности для расы, религии и пола, были помечены как токсичные. Эти ярлыки были правильными; большинство онлайн-комментариев, содержащих эти термины идентификации, действительно были токсичными. Но в результате этого перекоса модель узнала о корреляции между присутствием этих терминов идентичности и токсичностью, которая не точно отражала нейтральные коннотации самих терминов.

Команда обнаружила критический пробел в обучающих данных модели: область, в которой не было достаточно обучающих данных, чтобы представить ключевой аспект реальности. Обучающая выборка не содержала достаточного количества примеров нетоксичных комментариев об идентичности, чтобы модель узнала, что сами термины нейтральны и что значение имеет контекст, в котором они использовались.