Модуль 2: Осмотр

1. Приобретение знаний

Темы возникают естественным образом по мере изучения типологии заинтересованных сторон, выявления их уникальных информационных потребностей и применения различных уровней детализации для формулирования вопросов. Чтобы помочь вам отсортировать и структурировать темы вопросов, мы создали структуру получения знаний, которая предоставляет вам надежный, продуманный и воспроизводимый подход к созданию документации по обеспечению прозрачности.

Приобретение знаний — это извлечение, структурирование и организация знаний из одного источника (обычно экспертов), чтобы их можно было использовать, например, в продукте или технологии, над которой вы работаете.

Наша структура называется OFTEn и представляет собой концептуальный инструмент для систематического анализа того, как темы распространяются во всех частях карты данных. Мы создали её на основе детальных индуктивных и дедуктивных исследований прозрачности наборов данных.

Часто

OFTEn — это сокращение для основных этапов жизненного цикла набора данных: происхождение , фактические данные , трансформации , опыт и n = 1 (образцы).

Происхождение

Этап «Истоки» включает в себя различные виды деятельности по планированию, которые определяют конечный результат, такие как определение требований, методов сбора или снабжения, а также решения по проектированию и политике.

Темы, возникающие в результате ответов на вопросы о происхождении, включают в себя следующее:

  • Авторы и владельцы
  • Мотивации
  • Предполагаемые области применения
  • Методы сбора
  • Лицензии
  • Версии
  • Источники
  • Опечатки
  • Ответственные стороны

Факты

Фактический этап представляет собой статистические и другие фактические атрибуты, описывающие набор данных, отклонения от первоначального плана и любой предварительный анализ.

Темы, вытекающие из вопросов фактического типа, включают в себя следующее:

  • Количество экземпляров
  • Количество функций
  • Количество этикеток
  • Источник этикеток
  • Источник данных
  • Разбивка на подгруппы
  • Форма черт
  • Описание особенностей
  • Отсутствуют или дублируются
  • Критерий включения

Трансформации

Этап преобразований включает в себя краткое изложение задач маркировки, аннотирования и валидации. В зависимости от набора данных, на этом этапе могут возникать процессы межэкспертной оценки. Кроме того, преобразованиями считаются разработка признаков и внесение изменений для обеспечения конфиденциальности, безопасности или персональной идентифицируемой информации (PII).

Темы, охватывающие вопросы трансформационного типа, включают в себя следующее:

  • Рейтинг или аннотация
  • Фильтрация
  • Обработка
  • Проверка
  • Статистические свойства
  • Синтетические особенности
  • Обработка персональных данных
  • Чувствительные переменные
  • Влияние на справедливость
  • Перекосы или предубеждения

Опыт

Этап опыта включает использование данных для решения конкретных задач, прохождение обучения по получению доступа, внесение изменений в соответствии с задачей, получение результатов и сравнение их с другими аналогичными наборами данных, а также отслеживание любого ожидаемого или неожиданного поведения.

Темы, иллюстрирующие вопросы, основанные на опыте, включают следующее:

  • Предполагаемая производительность
  • Непреднамеренное применение
  • Неожиданная производительность
  • Предостережения
  • Инсайты
  • Опыт
  • Истории
  • Использовать
  • Оценка варианта использования

n = 1 (Выборки)

Этап n = 1 (выборки) включает в себя все детали распределения точек данных, демонстрацию примечательных точек данных со специфическими атрибутами и, где это применимо, моделирование результатов на их основе.

Темы, которые демонстрируют вопросы-примеры, включают следующее:

  • Примеры или ссылки на типичные примеры и выбросы.
  • Примеры, дающие ложноположительные или ложноотрицательные результаты.
  • Примеры, демонстрирующие обработку пустых или нулевых значений признаков.

Пример

Например, следующий набор вопросов был составлен с помощью OFTEn:

ВОЗ

Что

Когда

Где

Почему

Как

Происхождение

Кто публикует набор данных? Отличаются ли они от владельцев набора данных?

Каковы стимулы для маркировщиков данных, поставщиков и экспертов, работающих с этим набором данных?

Когда был создан этот набор данных? Запущен?

Откуда поступило финансирование?

Зачем был создан этот набор данных? Какой процесс был предшествовавшим?

Как были выбраны методы и сколько сторон было задействовано?

Факты

О ком эти данные? Являются ли маркировщики репрезентативными представителями людей, о которых идет речь?

Какие подгруппы данных могут повлиять на результаты машинного обучения?

К какому периоду относятся данные? Когда данные устаревают или работают ненормально?

Где можно получить доступ к набору данных? Где данные были собраны или созданы?

Почему были выбраны именно эти показатели? Почему были выбраны именно эти метки?

Сколько уникальных меток существует в наборе данных? Как они были созданы?

Трансформации

Как обрабатывались персональные данные в этом наборе данных? Могут ли результаты этого набора данных быть использованы для идентификации людей?

Какие методы использовались для очистки или проверки этого набора данных?

Когда и как следует разрабатывать функции? Нужно ли их обновлять?

Коррелируют ли характеристики местоположения с другими чувствительными характеристиками?

Почему выбранные преобразования были применены к набору данных?

Как обрабатываются смещения или личные данные в данных?

Опыт

Кто может использовать этот набор данных и для каких задач? Требуется ли какое-либо обучение?

Какие методы, результаты или ошибки были обнаружены при использовании набора данных?

При каких обстоятельствах и когда не следует использовать этот набор данных?

Где в мире доступен этот набор данных? Где он использовался?

Почему ожидаемое представление набора данных отличается от наблюдаемого представления?

Насколько дороги данные в разных частях мира?

n = 1 (Выборки)

Типична ли точка данных или нет? Как ведут себя модели в этом случае?

Каков размер точки данных? Каков процесс получения согласия, редактирования и отзыва для вмешательства в точку данных?

Когда меняется результат по точке данных? Приведите примеры, основанные на контрфактуальных утверждениях.

Какие факторы учитываются в данных? Каковы риски, если прогнозы окажутся неверными?

Почему эта точка данных изображения обрезана определённым образом? Почему в этой точке данных не указаны определённые категории?

Как эта точка данных соотносится с реальными входными данными? Как результат соотносится с реальными выходными данными?

Мы обнаружили, что карты данных с чёткой базовой структурой OFTEn легко расширяются и обновляются. Благодаря OFTEn карты данных могут со временем расширяться, включая темы, которые обычно исключаются из документации, такие как отзывы от агентов нижнего уровня, заметные различия между версиями, а также специальные аудиты или расследования, проводимые производителями или агентами.

Краткое содержание

В следующей таблице обобщена структура OFTEn и описаны общие этапы жизненного цикла набора данных:

Этап

Описание

Происхождение

Ранние этапы жизненного цикла набора данных, когда принимаются решения о его создании.

Факты

Фактические процессы сбора данных и необработанные результаты.

Трансформации

Необработанные данные преобразуются в пригодную для использования форму с помощью таких операций, как фильтрация, проверка, анализ, форматирование и очистка.

Опыт

Набор данных тестируется, тестируется или внедряется на практике (экспериментальной, производственной или исследовательской).

n = 1 (Выборки)

Фактические выборки из набора данных (или виньетки), которые представляют собой нормальные точки данных и выбросы.

Существует два способа использования OFTEn при создании карты данных:

  • OFTEn, используя индуктивный подход, поддерживает взаимодействие с агентами для формулирования вопросов о наборах данных и связанных с ними моделях, критически важных для принятия решений. Мы обнаружили, что когда множество агентов объединяются для мозгового штурма вопросов в рамках OFTEn-структуры, это позволяет получить информацию, необходимую для принятия целенаправленных решений.
  • Дедуктивно OFTEn можно использовать для оценки точности представления набора данных картой данных, что оказывает формирующее влияние на документацию и сам набор данных. Например, наборы данных на ранних стадиях разработки больше склоняются к источникам и фактам, тогда как наборы данных на зрелых стадиях разработки, как ожидается, будут склоняться к опыту.

С помощью OFTEn вы можете провести мозговой штурм и проверить, насколько ваши вопросы охватывают жизненный цикл вашего набора данных, что гарантирует полноту и упорядоченность вашего контента. OFTEn не только помогает выявить избыточность в создаваемых вами типах вопросов, но и заполняет любые пробелы, которые могут возникнуть по ходу работы.

2. Формулируйте вопросы с помощью OFTEn

  1. Подумайте о некоторых из ваших информационных путешествий заинтересованных сторон и агентов (ИИА), которые вы сформулировали в предыдущем модуле, а затем используйте следующие подсказки, чтобы структурировать свои мысли.

9bd35227601ae104.png

  1. Если некоторые из ваших вопросов уже попадают в одну из категорий OFTEn, отметьте их соответствующим образом.
  2. Если ваши вопросы не попадают ни в одну из категорий OFTEn, выберите одного из ваших агентов из предыдущего модуля, а затем создайте как минимум один вопрос в каждой категории OFTEn для агента.
  3. Создайте дополнительные вопросы на основе пяти W (кто, что, где, когда и почему) и одного H (как), чтобы расширить глубину вашей категории OFTEn.
  4. Если применимо, повторите эти шаги для следующего агента.

3. Размеры

Теперь, когда вы разобрались с принципом OFTEn и сформулировали вопросы для включения в свою карту данных, вы готовы получить более глубокое представление о своих вопросах, выполнив первый проход по ней. Для этого мы вводим измерения , представляющие собой высокоуровневые описания различных типов суждений, которые формируются читателями и дают направленное представление о полезности и читаемости карты данных. Другими словами, может ли ваша карта данных помочь читателям сделать обоснованный вывод о вашем наборе данных?

Ответственный

Подотчетная карта данных принадлежит и поддерживается людьми, которые демонстрируют адекватное владение, рефлексию, рассуждение и систематическое принятие решений относительно набора данных и его использования.

Примеры областей

Примеры вопросов

Авторство, ответственность, сохранение, намерения

С [точки зрения] я хочу знать...

...о издателях наборов данных.

...ограничения доступа и политики набора данных.

...объяснения и мотивы создания набора данных.

Полезность или использование

Полезная карта данных содержит сведения, удовлетворяющие информационные потребности читателей, что приводит к ответственному процессу принятия решений, устанавливающему пригодность набора данных для их задач и целей.

Примеры областей

Примеры вопросов

Потребности производителя, потребности агента, потребности пользователя, общественные потребности

С [точки зрения] я хочу знать...

...определения и пояснения технических терминов, используемых в документации (метрики, баллы, отраслевые термины, аббревиатуры).

...ожидания относительно использования набора данных с другими наборами данных или таблицами (проектирование признаков, объединение, выборка и сравнительный анализ).

...предполагаемые области применения набора данных.

Качество

Карта данных высокого качества отражает строгость, целостность и полноту набора данных, часто изложенных в доступной и понятной форме для читателей с разным опытом.

Примеры областей

Примеры вопросов

Валидность, надежность, целостность, воспроизводимость

С [точки зрения] я хочу знать...

...если в наборе данных есть какие-либо известные закономерности (корреляции, смещения или перекосы).

...любые процессы проверки наборов данных, объяснения и их результаты.

...какие меры конфиденциальности и безопасности были применены к набору данных.

Воздействие или последствия использования

Карта данных, которая адекватно описывает влияние использования набора данных, устанавливает ожидания относительно результатов при использовании и управлении набором данных и признает любые последствия первого и второго порядка, которые могут отрицательно повлиять на цели читателей.

Примеры областей

Примеры вопросов

Эффективность, релевантность, групповая выгода, последствия отклонений

С [точки зрения] я хочу знать...

...прошлое использование и связанная с ним эффективность набора данных (например, обученные модели)

...политики, связанные с набором данных (например, лицензирование)

...если в наборе данных имеются какие-либо известные закономерности (корреляции, смещения или перекосы).

Риски и рекомендации

Карта данных, которая предлагает хорошие рекомендации, информирует читателей об известных и потенциальных рисках и ограничениях, вытекающих из происхождения, представления, использования или контекста использования, а также предоставляет достаточно информации и альтернатив, чтобы помочь читателям принимать ответственные решения.

Примеры областей

Примеры вопросов

Величина риска, меры по снижению, рекомендации, групповой вред

С [точки зрения] я хочу знать...

...безопасность (риски, ограничения и компромиссы) использования набора данных.

...любое социокультурное, географическое или экономическое представление людей в наборе данных.

...если в наборе данных или его документации отсутствуют атрибуты.

Краткое содержание

С помощью измерений вы можете оценить свой набор вопросов, чтобы убедиться, что он соответствует вашим целям и желаемым результатам. Даже если вы ещё не дали исчерпывающего ответа на вопрос в своей карточке данных, лучше всего выявить любые ошибки, прежде чем углубляться в процесс документирования набора данных.

В следующей таблице обобщены пять измерений:

Этап

Описание

Подотчетность

Заявления, выражающие продуманные, разумные и систематические решения различных заинтересованных сторон относительно доверия к набору данных.

Утилита

Предоставляет сведения, которые удовлетворяют потребности читателей в ответственном процессе принятия решений и устанавливает пригодность вариантов использования с точки зрения их целей.

Качество

Обобщает строгость, целостность и полноту набора данных, представленных в форме, доступной для многих читателей.

Воздействие и последствия

Информация, которая помогает читателям достичь желаемых результатов при использовании и управлении набором данных, а также признает последствия, которые могут негативно повлиять на их цели.

Риски и рекомендации

Оповещает читателей об известных и потенциальных рисках, связанных с набором данных, которые вытекают из представления, использования или контекста использования.

Используя эти различные типы измерений, вы можете получить представление о качестве контента, читаемости и полезности вашей карточки данных ещё до начала её заполнения. Они помогают определить действия, которые помогут создать более надёжный и продуманный шаблон карточки данных.

4. Оцените свои вопросы с помощью измерений

  1. Начните с одного измерения, а затем определите, какой уровень знаний и опыта необходим для получения обоснованного заключения с учетом сложности вашего набора вопросов.
  2. Предоставьте обоснование и аргументацию того, насколько хорошо этот аспект в настоящее время подтверждается вашим набором вопросов.
  3. Приведите доказательства, подтверждающие вашу точку зрения, приведя один или два примера из вашего списка вопросов.
  4. Если ваше измерение кажется нежелательным, укажите шаги, которые необходимо предпринять для его улучшения или устранения. Если вы работаете с командой заинтересованных сторон, распределите ответственность, если некоторые из них более подготовлены к решению определённых вопросов.
  5. Повторите эти шаги для следующего измерения.

Ниже приведен пример шаблона, который вы можете использовать для оценки своих измерений:

3f33557b62abe5ce.png

Этот процесс оценки может занять от 15 минут до часа в зависимости от количества вопросов, которые вы зададите, и круга заинтересованных сторон, которых вам необходимо учесть при создании вашей карты данных.

5. Поздравления

Поздравляем! Теперь у вас есть возможность проверить вопросы, созданные для вашей карты данных. Теперь вы готовы на них ответить.