Модуль 1: Спросите

1. Типология заинтересованных сторон

Прежде чем приступить к работе по обеспечению прозрачности документации наборов данных и созданию карт данных, важно определить и пригласить заинтересованных лиц на всех этапах жизненного цикла набора данных. Это упрощает создание карт данных, поскольку предоставляет вам всё необходимое для более тщательного анализа при создании контента.

Чтобы помочь вам изучить и понять, как кросс-функциональные заинтересованные стороны участвуют в жизненном цикле набора данных, мы создали типологию, которая позволяет выявить предположения, часто встречающиеся в отношении отдельных заинтересованных сторон. Наша типология подразделяется на три группы заинтересованных сторон, участвующих в жизненном цикле набора данных: производители, агенты и пользователи.

Эта типология отражает континуум постоянно меняющихся потребностей и ожиданий от наборов данных и их документации. Универсального решения не существует.

Производители

Производители являются создателями наборов данных и документации и отвечают за сбор, владение, запуск и обслуживание наборов данных.

По сути, производителей можно рассматривать как лиц, ответственных за создание и публикацию наборов данных, а также за запуск, принятие и/или успех.

Производителями также могут быть отдельные лица или группы, нанятые для сбора или маркировки данных, а также предоставления консультаций по методам или интерпретации на различных этапах жизненного цикла данных.

В зависимости от контекста производители могут также представлять ваших текущих и будущих членов команды, партнеров, клиентов или платформы хостинга данных — все они отвечают за обслуживание или поддержку наборов данных, развертывание и мониторинг.

Агенты

Агенты — это заинтересованные стороны, которые читают документацию по вашему набору данных или карту данных и другую документацию, связанную с моделями машинного обучения (МО), и имеют право использовать или определять, как они или другие лица могут использовать описанные наборы данных или системы ИИ.

В зависимости от сферы своей деятельности агенты могут выполнять операционную или проверяющую роль, например, исследователь в академической среде, желающий оценить целесообразность использования набора данных, или специалист по данным в группе разработчиков продукта, желающий определить общую пригодность набора данных с точки зрения интеграции продукта.

Это различие важно, поскольку в число рецензентов входят заинтересованные стороны, которые могут никогда напрямую не использовать набор данных, но всё же взаимодействовать с картой данных, например, отраслевые консультанты, журналисты-расследователи, представители сообщества и юридические лица. Агенты могут обладать или не обладать техническими знаниями для работы с информацией, представленной в типичной документации по набору данных, но часто имеют доступ к экспертным знаниям при необходимости.

Пользователи

Пользователи — это отдельные лица и представители, которые взаимодействуют с продуктами, использующими модели, обученные на наборах данных.

Пользователи могут согласиться предоставить свои данные в рамках опыта использования продукта, но им, как правило, требуется существенно иной набор объяснений и элементов управления, основанных на опыте использования продукта, даже когда речь идет о наборах данных.

Краткое содержание

В следующей таблице обобщены группы заинтересованных сторон с указанием их описаний, обязанностей, примеров и общих задач:

Группа заинтересованных сторон

Описание

Обязанности

Примеры

Общие задачи

Производители

Создание наборов данных и/или документации.

Проектирование, создание, тестирование качества, документирование, запуск, внедрение, поддержка и обновление наборов данных.

Исследователи, специалисты по обработке данных и аналитики, инженеры-программисты, а также менеджеры по продуктам и программам

Внедрение наборов данных, раскрытие информации, готовность к будущему, справедливость и безопасность, а также улучшения

Агенты

Оценивать и использовать набор данных для своей работы, продуктов, организаций или сообществ.

Использовать карту данных, но не взаимодействовать с самим набором данных.

Инженеры машинного обучения или инженеры по продуктам, исследователи, сторонние поставщики, эксперты в предметной области, отраслевые консультанты, эксперты по политике, поставщики услуг по обработке данных, а также руководители или менеджеры

Управляйте сложностью, будьте ответственны, ищите компромиссы, внедряйте в производство, архивируйте

Пользователи

Взаимодействуйте с продуктами, устройствами и приложениями, созданными агентами, которые используют наборы данных производителя.

По возможности вносить свои данные через продукты и давать полезные сигналы производителям и агентам.

Авторы данных, пользователи продукта и представители групп пользователей

Используйте продукты, изучайте данные и конфиденциальность, оставляйте отзывы и сообщайте о проблемах

2. Составьте карту заинтересованных сторон

Теперь, когда вы немного знакомы с нашей типологией, вы можете проанализировать жизненный цикл своего набора данных, чтобы определить заинтересованных лиц с помощью этого базового задания по картированию . В ходе выполнения задания обратите внимание на то, кто может взаимодействовать с набором данных или его документацией. Также подумайте о том, какой вклад заинтересованные лица могут внести в карты данных.

Чтобы составить карту заинтересованных сторон, выполните следующие шаги:

  1. Перечислите производителей , которые будут создавать карты данных.

9019cf76931e3ae5.png

  1. Перечислите агентов , которые будут читать и использовать карты данных.

a6c5bfc2fadd8cb5.png

  1. Перечислите пользователей , которые будут использовать или на которых повлияет набор данных, описанный в Карте данных.

210d18c6ec533955.png

  1. Используйте следующий шаблон для создания карты заинтересованных сторон, их ролей в создании карт данных и назначения этих карт. Эта карта даст вам представление о последующих потребностях в документировании наборов данных и позволит назначать приоритеты и обязанности на протяжении всего процесса документирования наборов данных.

d24cf1a113189a25.png

3. Агентские информационные поездки (AIJ)

Составив карту заинтересованных сторон, вы можете определить, какую важную информацию следует донести до агентов — ваших основных заинтересованных сторон — в вашей карте данных, чтобы вы могли настроить их на успех.

Обычно опыт взаимодействия человека с технологией называется пользовательским путешествием (user journey). Однако мы говорим об агенте, которому необходимо получить достаточно информации о наборе данных для принятия обоснованного решения, поэтому мы называем этот опыт информационным путешествием агента (AIJ) .

Цель AIJ — понять следующее:

  • Задачи, для которых агентам может понадобиться набор данных.
  • Информация, необходимая агентам для выполнения своих задач.
  • Процесс, посредством которого агенты выводят информацию.

К AIJ относятся следующие:

51ce23c7a9aaa9e4.png

Пример

Например, предположим, что один из ваших агентов — специалист по анализу данных. AIJ для специалиста по анализу данных может выглядеть следующим образом:

Как специалист по данным , я хочу знать структуру набора данных , поэтому я спрашиваю...

...какой формат данных?

... какова модальность набора данных?

...сколько объектов содержится в наборе данных?

... сколько функций спроектировано?

...какие признаки сильно коррелируют?

...есть ли зависимости в структуре?

Вот еще один пример агента, который может работать в сфере продуктовой политики и устанавливать руководящие принципы, связанные с производством и разработкой продукта:

Как политический советник , я хочу знать , как данные могут быть использованы не по назначению , поэтому я спрашиваю...

... каково было предполагаемое использование набора данных?

...какое приложение послужило толчком к созданию набора данных?

...какие известные опасные или рискованные применения набора данных?

...каков риск для конкретных групп?

...какое влияние предполагаемое использование этого набора данных оказывает на избирательные округа?

... как можно обратиться за помощью?

4. Напишите свои AIJ

  1. Напишите несколько AIJ, используя следующие подсказки:

ab594f2e5ce86029.png

  1. Обратите внимание, что вы учитываете не только интересы заинтересованных сторон, но и некоторые первоначальные вопросы, на которые, по вашему мнению, они хотели бы получить ответы, ознакомившись с вашей картой данных. Это означает, что вы стали на шаг ближе к окончательному набору вопросов, которые следует включить в вашу карту данных.

5. Оптика

Вы, возможно, заметили использование терминов «перспектива» , «линза» и «область охвата» для описания AIJ. Хотя эти термины были определены ранее, на самом деле они являются частью направляющей метафоры, которую мы называем «оптика». Мы создали их, чтобы помочь вам представить, как ваши агенты могут прийти к пониманию вашего набора данных.

Области применения

В оптике микроскопы используют линзы и зеркала для обнаружения, наблюдения, увеличения, отражения и даже тестирования материалов. В контексте наборов данных это отличная метафора, поскольку вы фокусируетесь и формулируете вопросы, чтобы выявить очевидные и неочевидные, видимые и невидимые аспекты.

Мы называем это «областями» (scopes) — способом последовательного задания ряда вопросов для понимания наборов данных. Объединяя области с разной степенью детализации, вы можете создавать контент, который поможет вашим агентам сформировать целостное представление о наборах данных посредством отчётов о прозрачности.

В следующей таблице приведены три типа областей действия в нашей структуре, а также описание, пример и назначение каждой из них:

Объем

Описание

Пример

Цель

Телескопический

Вопросы об атрибутах , часто встречающихся в разных наборах данных. Они отмечают характеристики .

Содержит ли этот набор данных персональные данные (PII)?

Представьте и задайте контекст для дополнительной информации, которая поможет вашим агентам ориентироваться в вашей карте данных или артефакте прозрачности.

Перископический

Вопросы об атрибутах, специфичных для набора данных производителя. Они описывают наблюдения .

Сколько объектов содержат персональные данные?

Обычно зарезервировано для предоставления оперативной информации, такой как форма и размер набора данных, или функциональной информации, такой как источники или намерения.

Микроскопический

Вопросы о ненаблюдаемых аспектах наборов данных, таких как решения, процессы и воздействия. Они требуют объяснений .

Каким образом персональные данные были анонимизированы в этом наборе данных?

Получите подробные объяснения решений или обобщите более длинные процессуальные документы, которые регулируют ответы на соответствующие перископические и телескопические вопросы.

Важно учитывать эти три типа телескопов при создании карты данных. Карта данных, содержащая только телескопы, описывает лишь очевидную информацию о вашем наборе данных и не несёт никакой особой ценности. Карта данных, содержащая только перископы, может оказаться слишком технической, не раскрывая контекста, релевантности или важности. Карта данных, содержащая только микроскопы, может привести к тому, что агенты легко потеряются в деталях и упустят из виду общую картину.

Именно поэтому мы обнаружили, что интерпретация карты данных существенно зависит от наличия или отсутствия этих уровней областей. Эти вопросы позволяют агентам и производителям оценивать риски, планировать меры по их снижению и, при необходимости, выявлять возможности для более эффективного создания наборов данных. Вместе телескопы, перископы и микроскопы предоставляют полезную информацию, позволяющую различным заинтересованным сторонам ориентироваться в вашей карте данных, не теряясь и не дезориентируясь.

Пример

В разделе «Информационные путешествия агентов» (AIJ) вы видели несколько примеров AIJ, в том числе один для специалиста по анализу данных. Если внимательно рассмотреть этот пример, можно обнаружить, что некоторые из этих вопросов можно сгруппировать по областям применения, включая следующие вопросы:

Как специалист по данным , я хочу знать структуру набора данных , поэтому я спрашиваю...

Телескопический

...какой формат данных?

... какова модальность набора данных?

Перископический

...сколько объектов содержится в наборе данных?

... сколько функций спроектировано?

Микроскопический

...какие признаки сильно коррелируют?

...есть ли зависимости в структуре?

Весьма вероятно, что вы уже придумали для своих агентов некоторые телескопические, перископические и микроскопические вопросы.

6. Реструктурируйте свои AIJ с помощью областей

  • Чтобы реструктурировать AIJ с областями действия, используйте следующий пример подсказки:

2b6e2a7a041060f4.png

7. Поздравления

Поздравляем! Вы начали создавать карточку данных. Теперь вы готовы оценить свои вопросы.