모듈 3: 답변

1. 핵심 내용 정의

데이터 카드에 포함할 질문, 즉 독자에게 중요하다고 생각되는 질문을 정했습니다. 하지만 이러한 질문에 답하고 데이터 카드라고 부르는 것만큼 간단하지 않습니다. 최종 데이터 카드가 독자 경험에 최적화되도록 신중하게 고려해야 합니다.

사용자는 데이터 카드를 읽을 때 다음과 같은 매우 구체적인 결정을 내리려고 합니다.

  • 이 데이터 세트가 내 사용 사례에 적합한가요?
  • 다른 사람이 이 데이터 세트를 사용하도록 허용할 수 있나요?
  • 모델에 위험을 추가하지 않고 이 데이터 세트를 안전하게 사용하려면 어떻게 해야 하나요?

독자가 적절한 정보에 효율적으로 액세스할 수 있다면 맥락 내에서 데이터 세트 관련 결정을 내리는 데 매우 능숙합니다. 정보의 중요도 또는 유용성은 독자가 내려야 하는 결정의 유형과 독자의 배경에 따라 달라집니다. 예를 들어 데이터 세트 사용 여부를 결정할 때 규정 준수 담당자는 데이터 세트와 연결된 라이선스를 살펴보지만 엔지니어는 기술 스택을 살펴봅니다. 두 독자 모두 동일한 질문을 하지만 서로 다른 답변을 기대합니다.

데이터 카드는 독자가 확신을 가지고 결정을 내릴 수 있도록 데이터 세트를 포괄적으로 설명해야 합니다. 이러한 포괄적인 설명을 통해 독자가 데이터 카드에서 무엇을 얻기를 원하는지 결정하고, 데이터 카드에 문서화할 정확하고 강력하며 체계적인 정보의 종류를 파악할 수 있습니다. 물론 데이터 카드의 독자가 내려야 하는 모든 결정을 파악하는 것은 불가능합니다.

2. 데이터 카드 계획하기

  • 데이터 카드 독자가 내려야 하는 결정과 데이터 카드에 포함해야 하는 세부정보의 양을 확인하려면 다음 표의 각 카테고리에 대한 질문에 답하세요.

읽기 권한 사용자

결정

목표

관련성

Nuance

주요 잠재고객은 누구인가요?

데이터 세트에 관해 어떤 결정을 내릴까요?

데이터 카드에서 무엇을 원하나요?

목표를 달성하기 위해 데이터 카드에서 어떤 구체적인 콘텐츠가 필요한가요?

독자에 대해 알고 있는 점을 고려할 때 콘텐츠가 얼마나 자세하거나 미묘해야 하나요?

예: 프로덕션 소프트웨어 엔지니어

예: 프로덕션에 있는 머신러닝 (ML) 모델을 테스트하는 데 데이터 세트를 사용해야 하나요?

예: 데이터 세트의 개요를 알려 줘. 구현 방법을 알려 줘.

예: 의도된 용도 및 부적합한 용도, 이전 모델의 사용 및 결과

예: 매우 미묘함 프로덕션 시스템에 통합하기 위한 기술적 사용 및 유용성에 중점을 둡니다.

표를 사용하여 데이터 카드를 평가하고 우선순위가 높은 독자가 데이터 카드를 유용하게 사용할 수 있는지 확인할 수 있습니다. 데이터 카드를 평가하는 방법은 다양하지만 Google에서는 사용성 심각도를 평가하는 방법을 권장합니다.

정확한 정의는 다를 수 있지만 다음 심각도 척도는 우선순위를 고려하지 않고 항목이 얼마나 심각하게 손상되었는지와 문제의 영향을 평가합니다. 여기서 말하는 유용성은 데이터 카드의 사용성을 의미하며, 이 문제가 해결되지 않으면 독자가 데이터 카드를 신뢰하는 정도와 데이터 카드의 유용성에 영향을 미칠 수 있습니다.

  • 이전 표에 있는 각 잠재고객 그룹에 데이터 카드의 상태가 얼마나 유용한지 평가하려면 다음 심각도 척도에 따라 질문에 답하세요.

위반

심각도

수정

독자에게 유용하지 않은 답변은 무엇인가요?

1~5점 중 얼마나 긴급하게 해결해야 하나요? (해당하는 체크박스를 선택하세요.)

  • ☐ 1 = 심각함 데이터 카드가 출시되기 전에 이 문제를 해결하세요.
  • ☐ 2 = 심각한 문제 해결해야 하며 우선순위가 높습니다.
  • ☐ 3 = 경미한 문제 우선순위가 낮습니다.
  • ☐ 4 = 외관 문제만 있습니다. 시간이 허락되면 수정합니다.
  • ☐ 5 = 문제가 아닙니다.

해결 방법은 무엇인가요?

3. 적당한 수준을 목표로 함

첫 번째 데이터 카드를 만들 때 다음 두 가지 중 하나가 발생하는 경우가 많습니다.

  • 정보가 너무 많으면 독자가 압도됩니다.
  • 정보가 너무 적으면 독자가 혼란스러워합니다.

데이터 카드의 크리에이터는 데이터 카드에 포함된 정보를 선별하고 우선순위를 지정해야 합니다. 투명성 아티팩트는 독자가 명확하게 이해할 수 있도록 충분한 맥락을 제공해야 합니다. 그렇지 않으면 다음 단계로 이동할 위치를 알려줍니다.

데이터 세트를 쉽게 이해하고 사용할 수 있도록 정보를 제공해야 합니다. 데이터세트의 복잡성이 증가하여 데이터 카드에 요약해야 하는 정보와 설명의 밀도가 높아지는 경우도 있습니다.

독자의 전문성 수준과 관계없이 누구나 정보 과부하를 경험할 수 있으므로 다음을 포함한 올바른 정보를 제공하는 것이 중요합니다.

  • 제공해야 하는 정보의 종류
  • 제공할 수 있는 정보의 양
  • 세부정보를 확인하세요.

답변은 모든 내용을 자세히 설명하지 않고 최대한 요약해야 하며, 독자가 데이터 세트에 대한 통계를 얻는 데 필요한 맥락을 반영해야 합니다.

휴리스틱

데이터 카드를 읽는 전반적인 경험을 평가하는 데 사용할 수 있는 휴리스틱 세트가 생성되었습니다. Google은 이러한 휴리스틱을 데이터 카드가 성공하고 실제 대규모로 적절하게 채택되기 위해 충족해야 하는 목표로 간주합니다. 다음 표에는 이러한 목표와 설명이 나와 있습니다.

목표

설명

일관성

데이터 카드는 데이터 모달리티나 도메인과 관계없이 서로 비교할 수 있어야 하므로 사용 맥락 내에서 주장을 쉽게 해석하고 검증할 수 있습니다. 일회성 데이터 카드의 배포는 비교적 쉽지만, 채택을 확장할 때는 팀과 조직이 비교 가능성을 유지해야 합니다.

종합적

데이터 세트의 수명 주기에서 마지막 단계로 생성되는 대신 데이터 카드와 데이터 세트를 동시에 쉽게 만들 수 있어야 합니다. 또한 데이터 카드의 필드를 작성하는 책임은 가장 적합한 개인에게 분배되고 할당되어야 합니다. 이를 위해서는 데이터 카드 이상으로 확장되고 데이터 세트의 수명 주기에서 생성되는 다양한 보고서에 적용되는 표준화된 방법이 필요합니다.

이해하기 쉽고 간결함

독자의 숙련도 수준은 다양하며 이는 데이터 카드의 해석에 영향을 미칩니다. 이해관계자의 숙련도가 다른 시나리오에서는 데이터 세트에 대한 가장 강력한 정신적 모델을 가진 개인이 사실상 의사결정자가 됩니다. 마지막으로, 더 긴급하거나 어려운 작업은 '전문가'에게 맡겨져 비전통적인 이해관계자의 의사결정 참여를 줄일 수 있습니다. 이로 인해 다운스트림 및 측면 이해관계자의 상황별 요구사항을 반영하는 중요한 관점이 누락될 위험이 있습니다. 데이터 카드는 숙련도가 가장 낮은 독자에게 효율적으로 전달되어야 하며, 숙련도가 높은 독자가 필요에 따라 더 많은 정보를 찾을 수 있어야 합니다. 콘텐츠와 디자인은 독자를 압도하지 않으면서 독자의 숙고 과정을 촉진하고 의사 결정을 위한 데이터 세트의 공유된 정신적 모델을 향한 이해관계자의 협력을 장려해야 합니다.

4. 휴리스틱 점수 매기기

  • 데이터 카드에 대한 답변을 검토하려면 각 휴리스틱을 평가하기 위해 Google에서 만든 다음 스코어카드를 사용하세요. 마지막으로 데이터 카드의 전체 점수를 집계하여 진행 상황을 파악할 수 있습니다. 또한 의견을 포함하여 각 휴리스틱을 개선하는 데 필요한 추가 컨텍스트와 작업 항목을 파악할 수 있습니다.

휴리스틱

기준

설명

점수

다음 휴리스틱에 따라 완료된 데이터 카드를 자체 점수화합니다.

휴리스틱 기준

데이터 카드를 개선할 수 있는 영역에 특히 유의하세요.

숫자만, 자체 점수 (0~10)

이해 가능
투명성 아티팩트의 디자인과 콘텐츠가 효과적이고, 관련성이 있으며, 대부분의 전문가 및 비전문가 상담사가 이해하기 쉽습니다.

  • 효과적: 대부분의 상담사가 데이터 세트 또는 모델에 관한 합리적인 질문에 적절한 답변을 얻을 수 있습니다.
  • 관련성: 포함된 설명, 시각화, 분석 결과는 대부분의 상담사에게 관련성이 있고 실행 가능합니다.
  • 이해 가능: 전문가와 비전문가 상담사가 정보를 쉽게 이해할 수 있습니다.

.

.

포괄적
데이터 카드를 사용하면 독자가 데이터 세트 또는 모델에 관한 정보, 생성 방식, 사용 전에 알아야 할 중요한 정보를 쉽게 이해할 수 있습니다.

  • 목적성: 데이터 세트의 컨텍스트를 설정하고 모든 이해관계자에게 유용한 정보는 읽기 쉬워야 합니다.
  • 완전함: 정보가 일관되고 완전하며 데이터 세트의 수명 주기에 있는 모든 단계를 적절하게 설명합니다.
  • 심층: 요약은 일반 독자가 읽을 수 있으며 고급 독자를 위해 더 자세한 정보나 사양으로 연결됩니다.

.

.

일관성
데이터 카드는 플랫폼 및 업계 관례를 따르며, 자체적으로 그리고 다른 유사한 투명성 카드 간에 일관성을 유지합니다.

  • 인식 가능: 독자가 정보를 찾을 수 있도록 섹션이 논리적인 순서로 구성되어 있습니다.
  • 표준화됨: 업계 표준 용어를 사용하고 관련이 있는 경우 편차 또는 맞춤설정을 설명합니다.
  • 명확성: 동일한 용어는 사용될 때마다 동일한 개념을 의미합니다.

.

.

간결함
카드의 디자인과 콘텐츠는 방대하고 복잡한 정보를 초보자와 숙련된 독자의 요구사항을 충족하는 의미 있고 이해하기 쉬운 상대적 중요도의 정보로 줄여줍니다.

  • 이해하기 쉬움: 키워드, 키-값 쌍, 시각적 요약의 상대적 의미와 중요도를 쉽게 파악할 수 있습니다.
  • 한눈에 보기: 독자가 데이터 세트를 사용하여 목표를 달성할 수 있는지와 그 방법이 한눈에 명확하게 표시됩니다.
  • 맥락: 데이터 세트의 특성과 뉘앙스를 희생하지 않고 이해할 수 있도록 배경 지식과 맥락이 추출되거나 추상화됩니다.

.

.

총점 = (총 포인트/120)

.

.

/120

5. 사려 깊은 분석

데이터는 특정 목적으로 구조화된 방식으로 캡처된 사람, 문화 또는 비즈니스에 관한 정보입니다. 하지만 반복해서 언급했듯이 모두 미묘한 차이가 있으며 다양한 정도의 여러 차원으로 얽혀 있습니다. 따라서 데이터 세트에서 수행하는 분석은 데이터 세트 자체에 적용된 사고방식을 파악할 수 있는 창을 제공하여 복잡한 부분을 이해하는 데 도움이 됩니다.

예를 들어 사람에 대한 교차 분석을 통해 데이터 세트 내의 인적 요소 조합을 살펴보고 모델이 데이터 세트로 학습된 경우 다른 하위 그룹보다 특정 하위 그룹에서 더 나은 성능을 보이는 등 불균형한 결과를 파악할 수 있습니다. 세분화된 분석은 다양한 요인을 기반으로 데이터 세트를 분류하여 독자가 결과를 예측할 수 있도록 일반적으로 더 큰 집계 데이터에 의해 가려지는 하위 그룹 또는 소외된 인구의 중요한 패턴을 보여줍니다.

이를 통해 교차성 및 세분화된 분석 (IDA)은 데이터 세트에서 명확한 관계를 설정하여 데이터 카드에서 다양한 상황에 따른 여러 가지 그럴듯한 결과를 전달하는 효과적인 방법임을 알 수 있습니다. IDA는 라벨이 민감한 항목과 상관관계가 있는 방식, 데이터 세트에 있는 격차(예: 데이터 세트에 낮에 촬영한 사진만 있음), 이후 AI 모델이 허위 상관관계를 학습하거나 프록시를 선택하게 할 수 있는 변수 간 관계와 같은 데이터 세트의 표현에 관한 중요한 단서를 독자에게 제공할 수 있습니다. 이러한 분석은 사용자에게 영향을 미친 경험이 데이터 세트를 사용하는 제품 또는 서비스와 관련이 있는 실제 상황에 있을 때 더욱 유용해집니다.

예를 들어 데이터 카드에 IDA 결과를 표시하면 독자가 데이터 세트의 하위 집합(슬라이스라고도 함)에서 ML 모델이 어떻게 작동하는지 직관적으로 파악할 수 있습니다. 이렇게 하면 데이터 세트 생성자가 데이터 세트 분석과 데이터 카드 표시에서 더 신중해야 하지만 궁극적으로 이해관계자의 제품 결과를 개선할 수 있습니다.

IDA는 독자가 모델에서 데이터 세트를 사용하는 방법을 더 잘 파악할 수 있도록 지원합니다. 문제가 있는 경우 전문가, 제품팀, 실제 경험이 있는 개인과 협력하여 분석의 프레임을 설정하세요. IDA는 독자에게 설명해야 하거나 독자가 적절하게 해석할 수 있도록 추가 지원이 필요한 맥락에 기반하는 경우가 많습니다.

6. 데이터 분석

데이터 세트를 분석하려면 다음 단계를 따르세요.

  1. 분석을 시작하기 전에 탐색하세요. TensorFlow 데이터 검증 (TFDV) 또는 학습 해석 도구 (LIT)와 같은 도구를 사용하여 데이터 세트의 편향과 불균형을 직관적으로 파악합니다. 결과를 사용하여 분석 설계를 알립니다.
  2. 분석을 신중하게 설계하세요. 분석 결과는 평가 목표, 분석을 수행할 전문 지식 및 리소스에 대한 액세스 권한, 분석을 수행하는 시점과 위치, 분석이 수행되는 AI 모델의 컨텍스트에 큰 영향을 받습니다.
  3. 의도한 사용과 관련된 요소부터 시작하세요. 관심분야 그룹을 만들 때 의도한 사용 사례에 가장 큰 영향을 미칠 수 있는 인구통계, 사회문화적, 행동적, 형태학적 요소를 고려한 후 이를 기반으로 확장하세요.
  4. 신고만 하고 댓글은 달지 마세요. 공정성 분석에 영향을 미치는 요인과 가정은 정량화하기 어려운 역사적, 문화적 특성이 있는 사회적 구성에 존재합니다. 독자를 혼란스럽게 할 수 있는 댓글을 추가하지 않도록 주의하세요. 대신 독자가 자신의 맥락에서 결과를 보정하는 데 도움이 되는 분석을 재현하는 방법을 제공하세요.
  5. 미래를 위한 계획 데이터세트의 표현을 확인하고, 다양한 시나리오에서 값을 일정하게 유지하거나, 분석을 데이터세트와 관련된 추가 요소의 다양한 값과 결합하여 향후 발생할 수 있는 추가 요인을 고려합니다.
  6. 재현할 수 없는 결과에 대한 컨텍스트를 더 많이 제공하세요. 다운스트림 이해관계자가 측정항목을 재현할 수 없는 경우 분석에 관한 충분한 컨텍스트를 제공하세요. 독자가 이 정보를 사용하여 데이터 세트의 장단점을 비교할 수 있다면 데이터 세트에 대한 신뢰를 구축할 수 있습니다.

7. 축하합니다

축하합니다. 데이터 카드에 정답을 제공하는 방법은 여러 가지가 있습니다. 이제 감사를 진행할 수 있습니다.