모듈 1: 질문

1. 이해관계자 유형

데이터 세트 문서화 투명성 노력을 시작하고 데이터 카드를 만들기 전에 데이터 세트 수명 주기 전반의 이해관계자를 식별하고 초대하는 것이 중요합니다. 이렇게 하면 콘텐츠를 만들 때 더 강력한 고려사항을 만드는 데 필요한 모든 것을 갖추게 되므로 데이터 카드를 더 쉽게 만들 수 있습니다.

다양한 분야의 이해관계자가 데이터 세트의 수명 주기 프로세스에 참여하는 방식을 살펴보고 이해할 수 있도록 개별 이해관계자에 대해 자주 발생하는 가정을 파악할 수 있는 유형을 만들었습니다. Google의 유형은 데이터 세트의 수명 주기에 관련된 세 가지 이해관계자 그룹(생산자, 에이전트, 사용자)으로 나뉩니다.

이 유형은 데이터 세트와 해당 문서에 대한 요구사항과 기대치가 지속적으로 변화하는 연속체를 나타냅니다. 모든 경우에 적합한 솔루션은 없습니다.

프로듀서

생산자는 데이터 세트와 문서를 생성하며 데이터 세트 수집, 소유권, 출시, 유지보수를 담당합니다.

기본적으로 프로듀서는 데이터 세트의 제작 및 게시, 출시, 채택 또는 성공을 담당하는 사람이라고 생각하면 됩니다.

생산자는 데이터를 수집하거나 라벨을 지정하고 데이터 수명 주기의 다양한 지점에서 방법이나 해석에 관한 조언을 제공하기 위해 모집된 개인 또는 그룹일 수도 있습니다.

컨텍스트에 따라 생산자는 현재 및 향후 팀 구성원, 파트너, 고객 또는 데이터 호스팅 플랫폼을 나타낼 수도 있으며, 이들은 모두 데이터 세트 유지관리 또는 유지, 배포, 모니터링을 담당합니다.

상담사

에이전트는 데이터 세트 문서 또는 데이터 카드, 기타 머신러닝 (ML) 모델 관련 문서를 읽고 설명된 데이터 세트 또는 AI 시스템을 사용하거나 다른 사용자가 이를 사용하는 방법을 결정할 권한이 있는 이해관계자입니다.

도메인에 따라 상담사는 데이터세트의 적절한 사용량을 측정하려는 학술 환경의 연구원이나 제품 통합과 관련된 데이터세트의 전반적인 적합성을 확인하려는 제품팀의 데이터 과학자와 같은 운영 또는 검토자 역할을 할 수 있습니다.

이러한 구분은 중요합니다. 검토자에는 데이터 세트를 직접 사용하지는 않지만 업계 컨설턴트, 탐사 보도 기자, 커뮤니티 대표, 법인 등 데이터 카드를 사용하는 이해관계자가 포함되기 때문입니다. 상담사는 일반적인 데이터 세트 문서에 표시된 정보를 탐색할 수 있는 기술 전문 지식을 보유할 수도 있고 보유하지 않을 수도 있지만, 필요한 경우 전문 지식에 액세스할 수 있는 경우가 많습니다.

사용자

사용자는 데이터 세트로 학습된 모델을 사용하는 제품과 상호작용하는 개인 및 담당자입니다.

사용자는 제품 환경의 일부로 데이터를 제공하는 데 동의할 수 있지만, 데이터 세트의 경우에도 제품 환경에 기반한 상당히 다른 설명과 제어가 필요합니다.

요약

다음 표에는 설명, 책임, 예, 일반적인 작업별로 이해관계자 그룹이 요약되어 있습니다.

이해관계자 그룹

설명

책임

예시

일반적인 작업

프로듀서

데이터 세트 또는 문서를 만듭니다.

데이터 세트를 설계, 생성, 품질 테스트, 문서화, 출시, 채택, 유지관리, 업데이트합니다.

연구원, 데이터 과학자 및 분석가, 소프트웨어 엔지니어, 제품 및 프로그램 관리자

데이터 세트 채택, 공개, 미래 대비, 공정성 및 보안, 개선사항

에이전트

작업, 제품, 조직 또는 커뮤니티에 데이터 세트를 평가하고 사용합니다.

데이터 카드를 사용하지만 데이터 세트 자체와는 상호작용하지 않을 수 있습니다.

ML 또는 제품 엔지니어, 연구원, 서드 파티 공급업체, 주제 전문가, 업계, 컨설턴트, 정책 전문가, 데이터 서비스 제공업체, 리더십 또는 관리

복잡성 관리, 책임감, 절충, 프로덕션에 배포, 보관

사용자

생산자의 데이터 세트를 사용하는 에이전트가 만든 제품, 기기, 앱과 상호작용합니다.

제품을 통해 데이터를 제공하고 생산자 및 에이전트에게 유용한 신호를 제공할 수 있습니다.

데이터 제공자, 제품 사용자, 사용자 집단 대표

제품 사용, 데이터 및 개인 정보 보호 이해, 의견 제공, 우려사항 제기

2. 이해관계자 매핑

이제 Google의 유형에 대해 어느 정도 알게 되었으므로 이 기본 매핑 활동을 통해 데이터 세트의 수명 주기를 검토하여 이해관계자를 파악할 수 있습니다. 활동을 진행하면서 데이터 세트 또는 관련 문서와 상호작용할 수 있는 사용자를 기록해 두세요. 또한 이해관계자가 데이터 카드에 어떻게 기여할 수 있는지 고려하세요.

이해관계자를 매핑하려면 다음 단계를 따르세요.

  1. 데이터 카드를 만들 생산자를 나열합니다.

9019cf76931e3ae5.png

  1. 데이터 카드를 읽고 사용할 상담사를 나열합니다.

a6c5bfc2fadd8cb5.png

  1. 데이터 카드에 설명된 데이터 세트를 사용하거나 데이터 세트의 영향을 받는 사용자를 나열합니다.

210d18c6ec533955.png

  1. 다음 템플릿을 사용하여 이해관계자, 데이터 카드 생성 시의 역할, 데이터 카드의 목적을 보여주는 지도를 만드세요. 이 지도를 통해 데이터 세트 문서화의 다운스트림 요구사항을 파악하고 데이터 세트 문서화 프로세스 전반에 걸쳐 우선순위와 책임을 할당할 수 있습니다.

d24cf1a113189a25.png

3. 상담사 정보 여정 (AIJ)

이해관계자를 파악한 후에는 상담사(기본 이해관계자)가 성공할 수 있도록 데이터 카드에 전달해야 할 필수 정보를 결정할 수 있습니다.

일반적으로 사용자가 기술과 상호작용할 때 경험하는 것을 사용자 여정이라고 합니다. 하지만 여기서는 정보에 입각한 결정을 내리기 위해 데이터 세트에 관한 충분한 정보를 획득해야 하는 에이전트에 대해 이야기하고 있으므로 이러한 환경을 에이전트 정보 여정 (AIJ)이라고 합니다.

AIJ의 목표는 다음을 이해하는 것입니다.

  • 에이전트가 데이터 세트를 원할 수 있는 작업입니다.
  • 에이전트가 작업을 완료하는 데 필요한 정보입니다.
  • 에이전트가 정보를 추론하는 프로세스입니다.

AIJ에는 다음이 포함됩니다.

51ce23c7a9aaa9e4.png

예를 들어 상담사 중 한 명이 데이터 과학자라고 가정해 보겠습니다. 데이터 과학자의 AIJ는 다음과 같을 수 있습니다.

데이터 과학자로서 데이터 세트의 구조를 알고 싶어서 다음과 같이 질문합니다.

... 데이터 형식은 무엇인가요?

... 데이터 세트의 모달리티는 무엇인가요?

... 데이터 세트에는 몇 개의 특징이 있나요?

... 추출된 특성은 몇 개인가요?

... 어떤 기능이 강한 상관관계를 갖나요?

... 구조에 종속 항목이 있는 경우

제품 정책을 담당하고 제품 생산 및 개발과 관련된 가이드라인을 설정하는 상담사의 또 다른 예는 다음과 같습니다.

정책 보좌관으로서 데이터가 어떻게 오용될 수 있는지 알고 싶어서 다음과 같이 질문합니다.

... 데이터 세트의 의도된 용도는 무엇이었나요?

... 데이터 세트 생성을 유도한 애플리케이션은 무엇인가요?

... 데이터 세트의 알려진 위험한 애플리케이션은 무엇인가요?

... 특정 그룹에 미치는 위험은 무엇인가요?

... 이 데이터 세트의 의도된 사용이 유권자에게 어떤 영향을 미치나요?

... 어떻게 구제 조치를 요청할 수 있나요?

4. AIJ 작성

  1. 다음 프롬프트를 기반으로 AIJ를 몇 개 작성해 줘.

ab594f2e5ce86029.png

  1. 이때 이해관계자를 염두에 둘 뿐만 아니라 데이터 카드를 읽고 이해관계자가 궁금해할 만한 질문을 떠올리는 것이 중요합니다. 즉, 데이터 카드에 포함해야 하는 최종 질문 세트에 한 걸음 더 가까워졌습니다.

5. 광학

AIJ를 구성하는 데 관점, 렌즈, 범위라는 용어가 사용되는 것을 확인하셨을 수 있습니다. 이러한 용어는 앞서 정의했지만 실제로는 광학이라고 하는 안내 메타포의 일부입니다. 이러한 프롬프트는 에이전트가 데이터 세트를 이해하는 방법을 생각해 보는 데 도움이 되도록 만들어졌습니다.

범위

광학에서 스코프는 렌즈와 거울을 사용하여 소재를 포착, 관찰, 확대, 반사하고 테스트하기도 합니다. 데이터 세트의 맥락에서 이 비유는 명확한 측면, 명확하지 않은 측면, 보이는 측면, 보이지 않는 측면을 드러내기 위해 질문에 집중하고 질문을 구성한다는 점에서 매우 적절합니다.

이를 범위라고 하며, 데이터 세트를 이해하기 위해 일련의 질문을 연속으로 할 수 있는 수단입니다. 다양한 세부사항의 범위를 스택하면 상담사가 투명성 보고서를 통해 데이터 세트를 일관되게 이해하는 데 도움이 되는 콘텐츠를 만들 수 있습니다.

다음 표에는 프레임워크의 세 가지 범위 유형과 각 유형의 설명, 예시, 목적이 나와 있습니다.

범위

설명

목적

텔레스코프

여러 데이터 세트에서 일반적으로 발견되는 속성에 관한 질문 특성을 태그합니다.

이 데이터 세트에 개인 식별 정보 (PII)가 포함되어 있나요?

상담사가 데이터 카드 또는 투명성 아티팩트를 탐색하는 데 도움이 되는 추가 정보를 소개하고 컨텍스트를 설정합니다.

잠망경

생산자의 데이터 세트에 특정한 속성에 관한 질문 관찰을 설명합니다.

PII를 포함하는 기능은 몇 개인가요?

일반적으로 데이터 세트의 모양과 크기 같은 운영 정보나 소스 또는 의도 같은 기능 정보를 제공하는 데 사용됩니다.

현미경

결정, 프로세스, 영향 등 데이터 세트의 관찰할 수 없는 측면에 관한 질문 설명을 요구합니다.

이 데이터 세트에서 PII는 어떻게 익명처리되었나요?

결정에 대한 자세한 설명을 요청하거나, 해당 잠망경 및 망원경 질문에 대한 대답을 관리하는 긴 프로세스 문서를 요약합니다.

데이터 카드 생성 과정에서 이러한 세 가지 유형의 범위를 고려하는 것이 중요합니다. 망원경만 있는 데이터 카드는 데이터 세트에 관한 명백한 정보만 설명하며 고유한 가치를 추가하지 않습니다. 잠망경만 있는 데이터 카드는 컨텍스트, 관련성 또는 중요성에 관한 세부정보가 없으면 지나치게 기술적일 수 있습니다. 현미경만 있는 데이터 카드는 상담사가 세부정보에 쉽게 빠져 큰 그림을 놓치게 할 수 있습니다.

따라서 데이터 카드의 해석은 이러한 범위 수준의 존재 여부에 큰 영향을 받습니다. 이러한 질문을 통해 에이전트와 프로듀서는 위험을 평가하고, 완화 계획을 세우고, 관련성이 있는 경우 더 나은 데이터 세트 생성 기회를 파악할 수 있습니다. 망원경, 잠망경, 현미경은 여러 이해관계자가 방향을 잃지 않고 데이터 카드를 탐색할 수 있도록 유용한 세부정보를 제공합니다.

상담사 정보 여정 (AIJ) 섹션에서 데이터 과학자를 위한 여정을 비롯한 AIJ의 몇 가지 예를 확인했습니다. 이 예시를 자세히 살펴보면 다음 질문을 포함하여 범위를 기준으로 일부 질문을 그룹화할 수 있습니다.

데이터 과학자로서 데이터 세트의 구조를 알고 싶어서 다음과 같이 질문합니다.

Telescopic

... 데이터 형식은 무엇인가요?

... 데이터 세트의 모달리티는 무엇인가요?

잠망경

... 데이터 세트에는 몇 개의 특징이 있나요?

... 추출된 특성은 몇 개인가요?

현미경

... 어떤 기능이 강한 상관관계를 갖나요?

... 구조에 종속 항목이 있는 경우

상담사를 염두에 두고 이미 망원경, 잠망경, 현미경과 같은 질문을 생각해 보셨을 가능성이 높습니다.

6. 범위를 사용하여 AIJ 재구성

  • 범위를 사용하여 AIJ를 재구성하려면 다음 샘플 프롬프트를 사용하세요.

2b6e2a7a041060f4.png

7. 축하합니다

축하합니다. 데이터 카드를 만들기 시작했습니다. 이제 질문을 평가할 준비가 되었습니다.