1. Определение ключевых выводов
Вы определились с набором вопросов, которые хотите включить в свою карточку данных, — вопросов, которые, по вашему мнению, важны для ваших читателей. Однако это не так просто, как ответить на эти вопросы и назвать её карточкой данных. Необходимо тщательно продумать, чтобы ваша окончательная карточка данных была оптимизирована для удобства читателей.
Когда люди читают карты данных, они хотят принять очень конкретные решения, например следующие:
- Подходит ли этот набор данных для моего варианта использования?
- Могу ли я разрешить другим использовать этот набор данных?
- Как я могу безопасно использовать этот набор данных, не добавляя риска моим моделям?
Если читатели могут эффективно получать доступ к нужной информации, они невероятно эффективно принимают решения, связанные с наборами данных, в рамках своего контекста. Важность или полезность информации зависит от типа решения, которое читатель должен принять, и его опыта. Например, при принятии решения об использовании набора данных специалист по соблюдению нормативных требований может обращать внимание на лицензии, связанные с ним, а инженер — на технический стек. Оба читателя задают одни и те же вопросы, но ожидают разных ответов.
Карты данных должны содержать исчерпывающее описание вашего набора данных, чтобы читатели могли принимать решения уверенно. Эти исчерпывающие описания помогут вам определить, что именно вы хотите получить от вашей карты данных, и определить, какую именно точную, надёжную и структурированную информацию следует в неё занести. Конечно, сложность заключается в том, что невозможно предусмотреть все возможные решения, которые придётся принять читателям вашей карты данных.
2. Спланируйте свою карту данных
- Чтобы определить, какие решения необходимо принять читателям вашей карты данных и насколько подробной должна быть информация в вашей карте данных, ответьте на вопрос для каждой категории в следующей таблице:
Читатели | Решения | Цели | Релевантность | Нюанс |
Кто является основной аудиторией? | Какие решения они примут в отношении набора данных? | Чего они хотят от Карты данных? | Какое конкретно содержимое Карты данных им необходимо для достижения своих целей? | Учитывая то, что вы знаете о читателе, насколько подробным и детализированным должен быть ваш контент? |
Пример: Инженеры-программисты производственного программного обеспечения | Пример: следует ли использовать набор данных для тестирования модели машинного обучения (МО), находящейся в производстве? | Пример: Опишите набор данных. Расскажите, как он реализован. | Пример: предполагаемое и нецелевое использование, прошлое использование и результаты на прошлых моделях. | Пример: Очень много нюансов. Акцент на техническом применении и удобстве использования для интеграции в производственные системы. |
Вы можете использовать эту таблицу для оценки вашей карты данных и убедиться, что она будет полезна вашим приоритетным читателям. Существует множество подходов к оценке вашей карты данных, но мы рекомендуем один из них — оценить степень её удобства использования .
Хотя точные определения могут различаться, следующая шкала серьёзности позволяет оценить степень неисправности и влияние проблемы без учёта приоритета. В данном контексте мы имеем в виду удобство использования вашей карты данных, которое, если не будет решено, может повлиять на доверие к карте данных со стороны читателя и её полезность.
- Чтобы оценить, насколько полезно состояние вашей карты данных для каждой группы аудитории в таблице, приведенной ранее, ответьте на вопросы по следующей шкале серьезности:
Нарушение | Серьезность | Исправить |
Какие ответы бесполезны для читателя? | Насколько срочно это следует исправить по шкале от 1 до 5? (Отметьте соответствующий флажок):
| Каково решение? |
3. Стремление к достаточному
Чаще всего при создании первой Карты данных происходит одно из следующих двух событий:
- Избыток информации перегружает читателей.
- Слишком мало информации сбивает читателей с толку.
Как создателю карточки данных, вам необходимо отсортировать и расставить приоритеты в ней. Хороший артефакт прозрачности предоставляет читателям достаточно контекста для ясного понимания. В противном случае он подсказывает им, куда двигаться дальше.
Вы хотите предоставить информацию, которая сделает набор данных простым для понимания и использования. Иногда сложность набора данных возрастает, что влияет на плотность информации и пояснений, которые необходимо суммировать в вашей карточке данных.
Независимо от уровня знаний ваших читателей, каждый может столкнуться с информационной перегрузкой, поэтому важно предоставлять правильную информацию, которая включает в себя следующее:
- Вид информации, которую вы должны предоставить.
- Сколько информации вы можете предложить?
- Подробности в нем.
Ваши ответы должны быть максимально обобщены без детализации и отражать контекст, необходимый читателям для понимания вашего набора данных.
Эвристика
Мы разработали набор эвристических критериев, которые вы можете использовать для оценки общего опыта чтения вашей карты данных. Мы рассматриваем эти эвристические критерии как цели, которым должны соответствовать карты данных для их успешного и надлежащего внедрения на практике и в масштабе. В следующей таблице представлены эти цели и их описания:
Цель | Описание |
Последовательный | Карты данных должны быть сопоставимы друг с другом независимо от модальности данных или области применения, чтобы заявления можно было легко интерпретировать и проверять в контексте использования. Хотя внедрение одноразовых карт данных относительно просто, мы обнаружили, что командам и организациям необходимо сохранять сопоставимость при масштабировании внедрения. |
Всесторонний | Карточка данных должна создаваться не на последнем этапе жизненного цикла набора данных, а одновременно с ним. Кроме того, ответственность за заполнение полей карточки данных должна быть распределена и назначена наиболее подходящему сотруднику. Для этого требуются стандартизированные методы, выходящие за рамки карточки данных и применяемые к различным отчетам, создаваемым на протяжении жизненного цикла набора данных. |
Понятно и кратко | Читатели имеют разный уровень знаний, что влияет на их интерпретацию карты данных. В ситуациях, когда уровень знаний заинтересованных сторон различается, лица с наиболее устойчивой ментальной моделью набора данных фактически становятся лицами, принимающими решения. Наконец, более срочные или сложные задачи могут снизить участие нетрадиционных заинтересованных сторон в принятии решений, которые остаются на усмотрение «эксперта». Это грозит упущением критически важных точек зрения, отражающих ситуативные потребности нижестоящих и латеральных заинтересованных сторон. Карта данных должна эффективно взаимодействовать с читателем с наименьшим уровнем знаний и позволять читателям с более высоким уровнем знаний находить дополнительную информацию по мере необходимости. Содержание и дизайн должны способствовать процессу обдумывания читателем, не перегружая его, и поощрять сотрудничество заинтересованных сторон для формирования общей ментальной модели набора данных для принятия решений. |
4. Оцените свою эвристику
- Чтобы проверить ответы на вашей карте данных, используйте следующую оценочную таблицу, которую мы создали для оценки каждой эвристики. В конце вы можете подсчитать общий балл по вашей карте данных, что поможет вам не сбиться с пути. Вы также можете добавлять комментарии, чтобы зафиксировать дополнительный контекст и необходимые действия для улучшения каждой эвристики.
Эвристический | Критерии | Комментарии | Счет |
Оцените самостоятельно заполненную вами карточку данных по следующим эвристикам. | Критерии эвристики | Обратите особое внимание на области, в которых карту данных можно улучшить. | Только цифры, самостоятельная оценка (0-10) |
Понятный |
| . | . |
Всесторонний |
| . | . |
Последовательный |
| . | . |
Кратко |
| . | . |
Общий балл = (Всего баллов/120) | . | . | /120 |
5. Вдумчивый анализ
Мы знаем, что данные — это информация о людях, культурах или компаниях, собранная в структурированном виде для определённой цели. Однако, как уже неоднократно отмечалось, все они имеют нюансы и в разной степени переплетены с несколькими измерениями. Таким образом, анализ, проводимый вами над вашим набором данных, открывает окно в сам набор идей, заложенных в него, помогая разобраться во всей его сложности.
Например, интерсекциональный анализ людей позволяет изучить комбинации человеческих факторов в наборе данных для выявления потенциально несоразмерных результатов, например, когда модель, обученная на наборе данных, работает лучше для одной подгруппы, чем для других. Дезагрегированный анализ разбивает набор данных на части на основе различных факторов, чтобы выявить важные закономерности для подгрупп или маргинализированных групп населения, которые обычно скрыты за более обширными агрегированными данными, что позволяет пользователям прогнозировать результаты.
Таким образом, мы обнаруживаем, что интерсекциональный и дезагрегированный анализ (IDA) являются эффективными способами представления в карточке данных ряда вероятных результатов при различных обстоятельствах посредством установления чётких взаимосвязей в наборе данных. IDA может предоставить читателям важную информацию о представлении данных в вашем наборе данных, например, о том, как метки коррелируют с конфиденциальными сущностями; о пробелах в вашем наборе данных, например, о том, что в наборе данных есть только фотографии, сделанные в дневное время; и о взаимосвязи между переменными, которая впоследствии может привести к тому, что модели ИИ будут выяснять ложные корреляции или выбирать прокси-данные. Этот анализ становится ещё более полезным, когда он проводится в реальных условиях, отражающих возможный опыт пользователей, затронутых продуктом или услугой, использующей ваш набор данных.
Например, представление результатов IDA в карточке данных помогает читателям заблаговременно сформировать представление о том, как их модель машинного обучения работает с подмножествами (также известными как срезы) вашего набора данных. Хотя это требует от создателей наборов данных более тщательного анализа набора данных и его представления в карточке данных, в конечном итоге это может привести к лучшим результатам для заинтересованных сторон.
IDA может помочь читателям лучше понять, как использовать ваш набор данных в своих моделях. Если у вас возникнут трудности, обратитесь к экспертам, командам разработчиков и специалистам с практическим опытом, чтобы они помогли вам сформулировать свой анализ. IDA часто опирается на контексты, которые необходимо объяснить читателям или которые требуют дополнительной поддержки для их правильной интерпретации.
6. Проанализируйте свои данные
Чтобы проанализировать набор данных, выполните следующие действия:
- Изучите данные, прежде чем приступать к анализу. Развивайте интуицию в отношении перекосов и дисбалансов в вашем наборе данных с помощью таких инструментов, как TensorFlow Data Validation (TFDV) или Learning Interpretability Tool (LIT). Используйте результаты при планировании анализа.
- Тщательно продумайте свой анализ. Результаты анализа во многом зависят от целей вашей оценки, доступа к экспертным знаниям и ресурсам для его проведения, времени и места проведения анализа, а также контекста моделей ИИ, в которых проводится анализ.
- Начните с факторов, относящихся к предполагаемому использованию. При создании групп интересов учитывайте демографические, социокультурные, поведенческие и морфологические факторы, которые могут наиболее существенно повлиять на предполагаемые варианты использования, а затем расширяйте их.
- Сообщайте, а не комментируйте. Обратите внимание, что факторы и допущения, влияющие на анализ справедливости, существуют в исторически и культурно обусловленных социальных конструктах, которые трудно поддаются количественной оценке. Остерегайтесь добавлять комментарии, которые могут запутать читателя. Вместо этого предоставьте способы воспроизведения анализа, которые помогут читателям сверить результаты с собственным контекстом.
- Планируйте будущее. Учитывайте дополнительные факторы, которые могут появиться в будущем, анализируя репрезентативность данных в вашем наборе данных, поддерживая постоянные значения в различных сценариях или комбинируя анализ с диапазоном значений дополнительных факторов, релевантных вашему набору данных.
- Предоставьте больше контекста для невоспроизводимых результатов. Если метрики не могут быть воспроизведены заинтересованными сторонами на последующих этапах, предоставьте достаточно контекста для анализа. Если читатель сможет использовать эту информацию для оценки всех «за» и «против» набора данных, это может повысить доверие к нему.
7. Поздравления
Поздравляем! У вас есть несколько способов предоставить правильные ответы в вашей карточке данных. Теперь вы готовы к их проверке.