Справедливость: выявление предвзятости

Когда вы исследуете свои данные, чтобы определить, как лучше всего представить их в своей модели, важно также помнить о проблемах справедливости и активно проверять потенциальные источники систематической ошибки.

Где может скрываться предвзятость? Вот три красных флажка, на которые следует обратить внимание в вашем наборе данных.

Отсутствующие значения функций

Если в вашем наборе данных есть одна или несколько функций, для которых отсутствуют значения для большого количества примеров, это может указывать на то, что некоторые ключевые характеристики вашего набора данных недостаточно представлены.

Например, в приведенной ниже таблице показана сводка ключевых статистических данных для подмножества функций в наборе данных California Housing , хранящихся в DataFrame pandas и сгенерированных с помощью DataFrame.describe . Обратите внимание, что все функции имеют count 17000, что указывает на отсутствие пропущенных значений:

долгота широта total_rooms Население домохозяйства медианный_доход median_house_value
считать 17000,0 17000,0 17000,0 17000,0 17000,0 17000,0 17000,0
иметь в виду -119,6 35,6 2643,7 1429,6 501,2 3,9 207,3
станд. 2.0 2.1 2179,9 1147,9 384,5 1,9 116,0
мин -124,3 32,5 2.0 3.0 1,0 0,5 15,0
25% -121,8 33,9 1462,0 790,0 282,0 2,6 119,4
50% -118,5 34,2 2127.0 1167,0 409,0 3,5 180,4
75% -118,0 37,7 3151,2 1721.0 605,2 4,8 265,0
Макс -114,3 42,0 37937.0 35682.0 6082.0 15,0 500,0

Вместо этого предположим, что три признака ( population , households и median_income ) имеют число всего 3000 — другими словами, что для каждого признака пропущено 14 000 значений:

долгота широта total_rooms Население домохозяйства медианный_доход median_house_value
считать 17000,0 17000,0 17000,0 3000,0 3000,0 3000,0 17000,0
иметь в виду -119,6 35,6 2643,7 1429,6 501,2 3,9 207,3
станд. 2.0 2.1 2179,9 1147,9 384,5 1,9 116,0
мин -124,3 32,5 2.0 3.0 1,0 0,5 15,0
25% -121,8 33,9 1462,0 790,0 282,0 2,6 119,4
50% -118,5 34,2 2127.0 1167,0 409,0 3,5 180,4
75% -118,0 37,7 3151,2 1721.0 605,2 4,8 265,0
Макс -114,3 42,0 37937.0 35682.0 6082.0 15,0 500,0

Эти 14 000 отсутствующих значений значительно усложнили бы точную корреляцию среднего дохода домохозяйств со средними ценами на жилье. Прежде чем обучать модель на этих данных, было бы разумно исследовать причину этих отсутствующих значений, чтобы убедиться в отсутствии скрытых смещений, ответственных за отсутствующие данные о доходах и населении.

Неожиданные значения функций

При изучении данных вам также следует искать примеры, содержащие значения признаков, которые выделяются как особенно нехарактерные или необычные. Эти неожиданные значения признаков могут указывать на проблемы, возникшие во время сбора данных, или на другие неточности, которые могут привести к систематической ошибке.

Например, взгляните на следующие выдержки из набора данных о жилье в Калифорнии:

долгота широта total_rooms Население домохозяйства медианный_доход median_house_value
1 -121,7 38,0 7105.0 3523.0 1088,0 5,0 0,2
2 -122,4 37,8 2479,0 1816.0 496,0 3.1 0,3
3 -122,0 37,0 2813.0 1337.0 477,0 3,7 0,3
4 -103,5 43,8 2212.0 803.0 144,0 5.3 0,2
5 -117,1 32,8 2963,0 1162,0 556,0 3,6 0,2
6 -118,0 33,7 3396.0 1542.0 472,0 7.4 0,4

Можете ли вы определить какие-либо неожиданные значения функций?

Искажение данных

Любой вид перекоса в ваших данных, когда определенные группы или характеристики могут быть недостаточно или чрезмерно представлены по сравнению с их реальной распространенностью, может внести погрешность в вашу модель.

Если вы выполнили упражнение «Проверка программирования» , вы, возможно, помните, как обнаружили, что неспособность рандомизировать набор данных о жилье в Калифорнии до разделения его на наборы для обучения и проверки привела к явному перекосу данных. Рисунок 1 визуализирует подмножество данных, взятых из полного набора данных, который представляет исключительно северо-западный регион Калифорнии.

Карта штата Калифорния, на которую наложены данные из набора данных California Housing. Каждая точка представляет собой жилой блок. Все точки сгруппированы в северо-западной Калифорнии, а точки в южной Калифорнии отсутствуют, что иллюстрирует географический перекос данных.

Рис. 1. Карта штата Калифорния, на которую наложены данные из набора данных California Housing. Каждая точка представляет собой жилой блок, цвета которого варьируются от синего до красного, что соответствует средней цене дома от низкой до высокой соответственно.

Если бы эта нерепрезентативная выборка использовалась для обучения модели для прогнозирования цен на жилье в Калифорнии по всему штату, отсутствие данных о жилье в южных частях Калифорнии было бы проблематичным. Географическая предвзятость, заложенная в модели, может отрицательно сказаться на покупателях жилья в непредставленных сообществах.