1. Приобретение знаний
Темы возникают естественным образом по мере изучения типологии заинтересованных сторон, выявления их уникальных информационных потребностей и применения различных уровней детализации для формулирования вопросов. Чтобы помочь вам отсортировать и структурировать темы вопросов, мы создали структуру получения знаний, которая предоставляет вам надежный, продуманный и воспроизводимый подход к созданию документации по обеспечению прозрачности.
Приобретение знаний — это извлечение, структурирование и организация знаний из одного источника (обычно экспертов), чтобы их можно было использовать, например, в продукте или технологии, над которой вы работаете.
Наша структура называется OFTEn и представляет собой концептуальный инструмент для систематического анализа того, как темы распространяются во всех частях карты данных. Мы создали её на основе детальных индуктивных и дедуктивных исследований прозрачности наборов данных.
Часто
OFTEn — это сокращение для основных этапов жизненного цикла набора данных: происхождение , фактические данные , трансформации , опыт и n = 1 (образцы).
Происхождение
Этап «Истоки» включает в себя различные виды деятельности по планированию, которые определяют конечный результат, такие как определение требований, методов сбора или снабжения, а также решения по проектированию и политике.
Темы, возникающие в результате ответов на вопросы о происхождении, включают в себя следующее:
- Авторы и владельцы
- Мотивации
- Предполагаемые области применения
- Методы сбора
- Лицензии
- Версии
- Источники
- Опечатки
- Ответственные стороны
Факты
Фактический этап представляет собой статистические и другие фактические атрибуты, описывающие набор данных, отклонения от первоначального плана и любой предварительный анализ.
Темы, вытекающие из вопросов фактического типа, включают в себя следующее:
- Количество экземпляров
- Количество функций
- Количество этикеток
- Источник этикеток
- Источник данных
- Разбивка на подгруппы
- Форма черт
- Описание особенностей
- Отсутствуют или дублируются
- Критерий включения
Трансформации
Этап преобразований включает в себя краткое изложение задач маркировки, аннотирования и валидации. В зависимости от набора данных, на этом этапе могут возникать процессы межэкспертной оценки. Кроме того, преобразованиями считаются разработка признаков и внесение изменений для обеспечения конфиденциальности, безопасности или персональной идентифицируемой информации (PII).
Темы, охватывающие вопросы трансформационного типа, включают в себя следующее:
- Рейтинг или аннотация
- Фильтрация
- Обработка
- Проверка
- Статистические свойства
- Синтетические особенности
- Обработка персональных данных
- Чувствительные переменные
- Влияние на справедливость
- Перекосы или предубеждения
Опыт
Этап опыта включает использование данных для решения конкретных задач, прохождение обучения по получению доступа, внесение изменений в соответствии с задачей, получение результатов и сравнение их с другими аналогичными наборами данных, а также отслеживание любого ожидаемого или неожиданного поведения.
Темы, иллюстрирующие вопросы, основанные на опыте, включают следующее:
- Предполагаемая производительность
- Непреднамеренное применение
- Неожиданная производительность
- Предостережения
- Инсайты
- Опыт
- Истории
- Использовать
- Оценка варианта использования
n = 1 (Выборки)
Этап n = 1 (выборки) включает в себя все детали распределения точек данных, демонстрацию примечательных точек данных со специфическими атрибутами и, где это применимо, моделирование результатов на их основе.
Темы, которые демонстрируют вопросы-примеры, включают следующее:
- Примеры или ссылки на типичные примеры и выбросы.
- Примеры, дающие ложноположительные или ложноотрицательные результаты.
- Примеры, демонстрирующие обработку пустых или нулевых значений признаков.
Пример
Например, следующий набор вопросов был составлен с помощью OFTEn:
ВОЗ | Что | Когда | Где | Почему | Как | |
Происхождение | Кто публикует набор данных? Отличаются ли они от владельцев набора данных? | Каковы стимулы для маркировщиков данных, поставщиков и экспертов, работающих с этим набором данных? | Когда был создан этот набор данных? Запущен? | Откуда поступило финансирование? | Зачем был создан этот набор данных? Какой процесс был предшествовавшим? | Как были выбраны методы и сколько сторон было задействовано? |
Факты | О ком эти данные? Являются ли маркировщики репрезентативными представителями людей, о которых идет речь? | Какие подгруппы данных могут повлиять на результаты машинного обучения? | К какому периоду относятся данные? Когда данные устаревают или работают ненормально? | Где можно получить доступ к набору данных? Где данные были собраны или созданы? | Почему были выбраны именно эти показатели? Почему были выбраны именно эти метки? | Сколько уникальных меток существует в наборе данных? Как они были созданы? |
Трансформации | Как обрабатывались персональные данные в этом наборе данных? Могут ли результаты этого набора данных быть использованы для идентификации людей? | Какие методы использовались для очистки или проверки этого набора данных? | Когда и как следует разрабатывать функции? Нужно ли их обновлять? | Коррелируют ли характеристики местоположения с другими чувствительными характеристиками? | Почему выбранные преобразования были применены к набору данных? | Как обрабатываются смещения или личные данные в данных? |
Опыт | Кто может использовать этот набор данных и для каких задач? Требуется ли какое-либо обучение? | Какие методы, результаты или ошибки были обнаружены при использовании набора данных? | При каких обстоятельствах и когда не следует использовать этот набор данных? | Где в мире доступен этот набор данных? Где он использовался? | Почему ожидаемое представление набора данных отличается от наблюдаемого представления? | Насколько дороги данные в разных частях мира? |
n = 1 (Выборки) | Типична ли точка данных или нет? Как ведут себя модели в этом случае? | Каков размер точки данных? Каков процесс получения согласия, редактирования и отзыва для вмешательства в точку данных? | Когда меняется результат по точке данных? Приведите примеры, основанные на контрфактуальных утверждениях. | Какие факторы учитываются в данных? Каковы риски, если прогнозы окажутся неверными? | Почему эта точка данных изображения обрезана определённым образом? Почему в этой точке данных не указаны определённые категории? | Как эта точка данных соотносится с реальными входными данными? Как результат соотносится с реальными выходными данными? |
Мы обнаружили, что карты данных с чёткой базовой структурой OFTEn легко расширяются и обновляются. Благодаря OFTEn карты данных могут со временем расширяться, включая темы, которые обычно исключаются из документации, такие как отзывы от агентов нижнего уровня, заметные различия между версиями, а также специальные аудиты или расследования, проводимые производителями или агентами.
Краткое содержание
В следующей таблице обобщена структура OFTEn и описаны общие этапы жизненного цикла набора данных:
Этап | Описание |
Происхождение | Ранние этапы жизненного цикла набора данных, когда принимаются решения о его создании. |
Факты | Фактические процессы сбора данных и необработанные результаты. |
Трансформации | Необработанные данные преобразуются в пригодную для использования форму с помощью таких операций, как фильтрация, проверка, анализ, форматирование и очистка. |
Опыт | Набор данных тестируется, тестируется или внедряется на практике (экспериментальной, производственной или исследовательской). |
n = 1 (Выборки) | Фактические выборки из набора данных (или виньетки), которые представляют собой нормальные точки данных и выбросы. |
Существует два способа использования OFTEn при создании карты данных:
- OFTEn, используя индуктивный подход, поддерживает взаимодействие с агентами для формулирования вопросов о наборах данных и связанных с ними моделях, критически важных для принятия решений. Мы обнаружили, что когда множество агентов объединяются для мозгового штурма вопросов в рамках OFTEn-структуры, это позволяет получить информацию, необходимую для принятия целенаправленных решений.
- Дедуктивно OFTEn можно использовать для оценки точности представления набора данных картой данных, что оказывает формирующее влияние на документацию и сам набор данных. Например, наборы данных на ранних стадиях разработки больше склоняются к источникам и фактам, тогда как наборы данных на зрелых стадиях разработки, как ожидается, будут склоняться к опыту.
С помощью OFTEn вы можете провести мозговой штурм и проверить, насколько ваши вопросы охватывают жизненный цикл вашего набора данных, что гарантирует полноту и упорядоченность вашего контента. OFTEn не только помогает выявить избыточность в создаваемых вами типах вопросов, но и заполняет любые пробелы, которые могут возникнуть по ходу работы.
2. Формулируйте вопросы с помощью OFTEn
- Подумайте о некоторых из ваших информационных путешествий заинтересованных сторон и агентов (ИИА), которые вы сформулировали в предыдущем модуле, а затем используйте следующие подсказки, чтобы структурировать свои мысли.
- Если некоторые из ваших вопросов уже попадают в одну из категорий OFTEn, отметьте их соответствующим образом.
- Если ваши вопросы не попадают ни в одну из категорий OFTEn, выберите одного из ваших агентов из предыдущего модуля, а затем создайте как минимум один вопрос в каждой категории OFTEn для агента.
- Создайте дополнительные вопросы на основе пяти W (кто, что, где, когда и почему) и одного H (как), чтобы расширить глубину вашей категории OFTEn.
- Если применимо, повторите эти шаги для следующего агента.
3. Размеры
Теперь, когда вы разобрались с принципом OFTEn и сформулировали вопросы для включения в свою карту данных, вы готовы получить более глубокое представление о своих вопросах, выполнив первый проход по ней. Для этого мы вводим измерения , представляющие собой высокоуровневые описания различных типов суждений, которые формируются читателями и дают направленное представление о полезности и читаемости карты данных. Другими словами, может ли ваша карта данных помочь читателям сделать обоснованный вывод о вашем наборе данных?
Ответственный
Подотчетная карта данных принадлежит и поддерживается людьми, которые демонстрируют адекватное владение, рефлексию, рассуждение и систематическое принятие решений относительно набора данных и его использования.
Примеры областей | Примеры вопросов |
Авторство, ответственность, сохранение, намерения | С [точки зрения] я хочу знать... |
Полезность или использование
Полезная карта данных содержит сведения, удовлетворяющие информационные потребности читателей, что приводит к ответственному процессу принятия решений, устанавливающему пригодность набора данных для их задач и целей.
Примеры областей | Примеры вопросов |
Потребности производителя, потребности агента, потребности пользователя, общественные потребности | С [точки зрения] я хочу знать... |
Качество
Карта данных высокого качества отражает строгость, целостность и полноту набора данных, часто изложенных в доступной и понятной форме для читателей с разным опытом.
Примеры областей | Примеры вопросов |
Валидность, надежность, целостность, воспроизводимость | С [точки зрения] я хочу знать... |
Воздействие или последствия использования
Карта данных, которая адекватно описывает влияние использования набора данных, устанавливает ожидания относительно результатов при использовании и управлении набором данных и признает любые последствия первого и второго порядка, которые могут отрицательно повлиять на цели читателей.
Примеры областей | Примеры вопросов |
Эффективность, релевантность, групповая выгода, последствия отклонений | С [точки зрения] я хочу знать... |
Риски и рекомендации
Карта данных, которая предлагает хорошие рекомендации, информирует читателей об известных и потенциальных рисках и ограничениях, вытекающих из происхождения, представления, использования или контекста использования, а также предоставляет достаточно информации и альтернатив, чтобы помочь читателям принимать ответственные решения.
Примеры областей | Примеры вопросов |
Величина риска, меры по снижению, рекомендации, групповой вред | С [точки зрения] я хочу знать... |
Краткое содержание
С помощью измерений вы можете оценить свой набор вопросов, чтобы убедиться, что он соответствует вашим целям и желаемым результатам. Даже если вы ещё не дали исчерпывающего ответа на вопрос в своей карточке данных, лучше всего выявить любые ошибки, прежде чем углубляться в процесс документирования набора данных.
В следующей таблице обобщены пять измерений:
Этап | Описание |
Подотчетность | Заявления, выражающие продуманные, разумные и систематические решения различных заинтересованных сторон относительно доверия к набору данных. |
Утилита | Предоставляет сведения, которые удовлетворяют потребности читателей в ответственном процессе принятия решений и устанавливает пригодность вариантов использования с точки зрения их целей. |
Качество | Обобщает строгость, целостность и полноту набора данных, представленных в форме, доступной для многих читателей. |
Воздействие и последствия | Информация, которая помогает читателям достичь желаемых результатов при использовании и управлении набором данных, а также признает последствия, которые могут негативно повлиять на их цели. |
Риски и рекомендации | Оповещает читателей об известных и потенциальных рисках, связанных с набором данных, которые вытекают из представления, использования или контекста использования. |
Используя эти различные типы измерений, вы можете получить представление о качестве контента, читаемости и полезности вашей карточки данных ещё до начала её заполнения. Они помогают определить действия, которые помогут создать более надёжный и продуманный шаблон карточки данных.
4. Оцените свои вопросы с помощью измерений
- Начните с одного измерения, а затем определите, какой уровень знаний и опыта необходим для получения обоснованного заключения с учетом сложности вашего набора вопросов.
- Предоставьте обоснование и аргументацию того, насколько хорошо этот аспект в настоящее время подтверждается вашим набором вопросов.
- Приведите доказательства, подтверждающие вашу точку зрения, приведя один или два примера из вашего списка вопросов.
- Если ваше измерение кажется нежелательным, укажите шаги, которые необходимо предпринять для его улучшения или устранения. Если вы работаете с командой заинтересованных сторон, распределите ответственность, если некоторые из них более подготовлены к решению определённых вопросов.
- Повторите эти шаги для следующего измерения.
Ниже приведен пример шаблона, который вы можете использовать для оценки своих измерений:
Этот процесс оценки может занять от 15 минут до часа в зависимости от количества вопросов, которые вы зададите, и круга заинтересованных сторон, которых вам необходимо учесть при создании вашей карты данных.
5. Поздравления
Поздравляем! Теперь у вас есть возможность проверить вопросы, созданные для вашей карты данных. Теперь вы готовы на них ответить.