1. 지식 획득
자연스럽게 테마가 떠오르도록 이해관계자의 유형을 살펴보고, 고유한 정보 요구사항을 파악하고, 다양한 세부사항을 적용하여 질문을 구성하세요. 질문 주제를 분류하고 구조화하는 데 도움이 되도록 투명성 문서를 생성하는 강력하고 신중하며 반복 가능한 접근 방식을 제공하는 지식 획득 프레임워크를 만들었습니다.
지식 획득은 일반적으로 인간 전문가인 한 소스에서 지식을 추출, 구조화, 정리하여 작업 중인 제품이나 기술 등에 사용할 수 있도록 하는 것입니다.
Google의 프레임워크는 OFTEn이라고 하며, 데이터 카드 전체에서 주제가 어떻게 전파되는지 체계적으로 고려하기 위한 개념적 도구입니다. 자세한 귀납적 및 연역적 데이터 세트 투명성 조사를 통해 생성되었습니다.
OFTEn
OFTEn은 데이터 세트 수명 주기의 일반적인 단계인 Origins(출처), Factuals(실제), Transformations(변환), Experience(경험), n = 1(샘플)의 약자입니다.
Origins
Origins 단계에는 요구사항 정의, 수집 또는 소싱 방법, 설계 및 정책 결정과 같이 최종 결과를 결정하는 다양한 계획 활동이 포함됩니다.
출처 유형 질문에서 도출되는 주제는 다음과 같습니다.
- 작성자 및 소유자
- 동기
- 의도된 애플리케이션
- 수집 메서드
- 라이선스
- 버전
- 소스
- 오류
- 책임 당사자
사실
사실 단계는 데이터 세트, 원래 계획과의 편차, 사전 랭글링 분석을 설명하는 통계적 속성 및 기타 사실적 속성을 나타냅니다.
사실형 질문에서 도출되는 테마는 다음과 같습니다.
- 인스턴스 수
- 기능 수
- 라벨 수
- 라벨 출처
- 데이터 소스
- 하위 그룹 분류
- 기능의 모양
- 기능 설명
- 누락 또는 중복
- 포함 기준
변환
변환 단계에는 라벨 지정, 주석 달기 또는 유효성 검사 작업의 요약이 포함됩니다. 데이터 세트에 따라 평가자 간 조정 프로세스가 여기서 발생할 수 있습니다. 또한 개인 정보 보호, 보안 또는 개인 식별 정보 (PII)를 처리하기 위해 적용된 특성 엔지니어링 및 수정사항도 변환으로 간주됩니다.
변환 유형 질문을 포착하는 테마는 다음과 같습니다.
- 평점 또는 주석
- 필터링
- 처리 중
- 유효성 검사
- 통계 속성
- 합성 특성
- PII 처리
- 민감한 변수
- 공정성에 미치는 영향
- 왜곡 또는 편향
경력
경험 단계에서는 특정 작업에 데이터를 사용하고, 액세스 교육을 받고, 작업에 맞게 수정하고, 결과를 획득하고, 다른 유사한 데이터 세트와 비교하고, 예상되거나 예상치 못한 동작을 기록합니다.
경험 유형 질문을 설명하는 테마는 다음과 같습니다.
- 의도된 성능
- 의도하지 않은 애플리케이션
- 예상치 못한 성능
- 주의사항
- 통계
- 즐길 거리
- 스토리
- 사용
- 사용 사례 평가
n = 1 (샘플)
n = 1 (샘플) 단계에서는 분포 데이터 포인트의 세부사항, 특정 속성이 있는 주목할 만한 데이터 포인트의 데모, 해당하는 경우 데이터 포인트의 결과 모델링이 포함됩니다.
샘플 유형 질문에서 보여주는 테마는 다음과 같습니다.
- 일반적인 예와 이상치의 예 또는 링크
- 거짓양성 또는 거짓음성을 생성하는 예
- null 또는 0 특성 값의 처리를 보여주는 예시
예
예를 들어 다음 질문 세트는 OFTEn으로 정렬되었습니다.
누가 | 대상 | 일시 | 장소 | 이유 | 방법 | |
출처 | 데이터 세트를 게시하는 사람은 누구인가요? 데이터 세트 소유자와 다른가요? | 이 데이터 세트에 사용되는 데이터 라벨러, 제공업체, 전문가에게 제공되는 인센티브는 무엇인가요? | 이 데이터 세트는 언제 생성되었나요? 출시됨 | 자금은 어디에서 나왔나요? | 이 데이터 세트가 생성된 이유는 무엇인가요? 이전에는 어떤 절차를 거쳤나요? | 방법은 어떻게 결정되었으며 몇 개의 당사자가 참여했나요? |
사실 | 데이터는 누구에 관한 것인가요? 라벨러가 데이터에 있는 사람들을 대표하나요? | 머신러닝 결과에 영향을 미칠 수 있는 데이터의 하위 그룹은 무엇인가요? | 데이터가 나타내는 기간은 언제인가요? 데이터가 만료되거나 비정상적으로 실행되는 경우 | 데이터 세트에 액세스할 수 있는 위치 데이터가 수집되거나 생성된 위치는 어디인가요? | 보고된 측정항목이 선택된 이유는 무엇인가요? 특정 라벨이 선택된 이유는 무엇인가요? | 데이터 세트에 고유 라벨이 몇 개 있나요? 이러한 결과는 어떻게 생성되나요? |
변환 | 이 데이터 세트에서 개인 식별 정보는 어떻게 처리되었나요? 이 데이터 세트의 결과를 사용하여 개인을 식별할 수 있나요? | 이 데이터 세트를 정리하거나 확인하는 데 어떤 방법이 사용되었나요? | 기능은 언제 어떻게 설계해야 하나요? 이러한 정보가 업데이트되어야 하나요? | 위치 기능이 다른 민감한 기능과 관련이 있나요? | 선택한 변환이 데이터 세트에 적용된 이유는 무엇인가요? | 데이터에서 편향이나 개인 식별 정보는 어떻게 처리되나요? |
경험 | 누가 이 데이터 세트를 사용할 수 있으며 어떤 작업을 할 수 있나요? 필요한 교육이 있나요? | 데이터 세트를 사용했을 때 발견된 방법, 결과 또는 오류는 무엇인가요? | 어떤 상황에서 언제 이 데이터 세트를 사용하면 안 되나요? | 이 데이터 세트는 전 세계 어디에서 액세스할 수 있나요? 어디에 사용되었나요? | 데이터 세트의 예상 표현이 관찰된 표현과 다른 이유는 무엇인가요? | 전 세계에서 데이터 비용은 얼마나 비싼가요? |
n = 1 (샘플) | 데이터 포인트가 일반적인가요, 아니면 비정상적인가요? 여기에서 모델은 어떻게 작동하나요? | 데이터 포인트의 크기는 얼마인가요? 데이터 포인트에 개입하기 위한 동의, 수정, 철회 절차는 무엇인가요? | 데이터 포인트의 결과는 언제 변경되나요? 반사실적 결과를 통해 예시를 보여주나요? | 데이터 포인트에 어떤 요소가 포함되어 있나요? 예측에 문제가 발생하면 어떤 위험이 따르나요? | 이 이미지 데이터 포인트가 특정 방식으로 잘린 이유는 무엇인가요? 이 데이터 포인트에 특정 카테고리가 입력되지 않는 이유는 무엇인가요? | 이 데이터 포인트는 실제 입력과 어떤 관련이 있나요? 결과는 실제 출력과 어떤 관련이 있나요? |
기본 OFTEn 구조가 명확한 데이터 카드는 확장하고 업데이트하기 쉬운 것으로 확인되었습니다. OFTEn을 사용하면 시간이 지남에 따라 데이터 카드에 일반적으로 문서에서 제외되는 주제(예: 다운스트림 상담사의 의견, 버전 간의 주목할 만한 차이점, 제작자 또는 상담사의 임시 감사 또는 조사)가 포함될 수 있습니다.
요약
다음 표에는 OFTEn 프레임워크가 요약되어 있으며 데이터 세트의 수명 주기에 있는 일반적인 단계가 설명되어 있습니다.
단계 | 설명 |
출처 | 데이터 세트를 만들기로 결정하는 데이터 세트 수명 주기의 초기 단계입니다. |
사실 | 실제 데이터 수집 프로세스 및 원시 출력입니다. |
변환 | 원시 데이터는 필터링, 유효성 검사, 파싱, 형식 지정, 정리와 같은 작업을 통해 사용할 수 있는 형식으로 변환됩니다. |
경험 | 데이터 세트가 실제로 테스트, 벤치마킹 또는 배포됩니다 (실험, 프로덕션 또는 연구). |
n = 1 (샘플) | 정상 데이터 포인트와 이상치를 나타내는 데이터 세트의 실제 샘플(비네트) |
데이터 카드를 만들 때 OFTEn을 사용하는 방법에는 두 가지가 있습니다.
- 귀납적으로 OFTEn은 에이전트와 함께 의사 결정에 중요한 데이터 세트 및 관련 모델에 관한 질문을 공식화하는 활동을 지원합니다. 많은 상담사가 OFTEn 구조로 질문을 브레인스토밍하면 타겟팅된 의사 결정에 필요한 정보가 드러납니다.
- 연역적으로 OFTEn을 사용하여 데이터 카드가 데이터 세트를 정확하게 나타내는지 평가할 수 있으며, 이는 문서와 데이터 세트에 형성적 영향을 미칩니다. 예를 들어 초기 단계 데이터 세트는 출처와 사실에 더 치우쳐 있는 반면, 성숙한 데이터 세트는 경험에 더 치우쳐 있을 것으로 예상됩니다.
OFTEn을 사용하면 질문이 데이터 세트의 수명 주기를 얼마나 잘 다루는지 브레인스토밍하고 확인할 수 있으므로 콘텐츠가 결국 포괄적이고 간소화됩니다. 이 기능은 생성하는 질문 유형의 중복을 찾는 데 도움이 될 뿐만 아니라 진행 중에 발견할 수 있는 격차도 해결해 줍니다.
2. OFTEn을 사용하여 질문 프레임
- 이전 모듈에서 공식화한 일부 이해관계자 및 상담사 정보 여정 (AIJ)을 생각해 본 다음 다음 프롬프트를 사용하여 생각을 구조화하세요.
- 질문 중 일부가 이미 OFTEn 카테고리 중 하나에 적합한 경우 해당 카테고리로 라벨을 지정합니다.
- 질문이 OFTEn 카테고리 중 하나에 속하지 않는 경우 이전 모듈에서 상담사를 선택한 다음 OFTEn 카테고리별로 상담사에 대한 질문을 하나 이상 만드세요.
- 5W (누가, 무엇을, 어디서, 언제, 왜)와 1H (어떻게)를 기반으로 질문을 추가하여 OFTEn 카테고리의 깊이를 확장합니다.
- 해당하는 경우 다음 상담사에 대해 이 단계를 반복합니다.
3. 측정기준
이제 OFTEn을 이해하고 데이터 카드에 포함할 질문을 만들었으므로 데이터 카드를 처음부터 끝까지 살펴보고 질문에 관한 유용한 정보를 파악할 수 있습니다. 이를 위해 Google에서는 독자가 내리는 다양한 유형의 판단에 대한 개략적인 설명을 제공하는 측정기준을 도입하여 데이터 카드의 유용성과 가독성에 대한 방향성 통계를 제공합니다. 즉, 데이터 카드가 독자가 데이터 세트에 대해 정보를 바탕으로 결론을 내리는 데 도움이 되는가?
Accountable
책임 있는 데이터 카드는 데이터 세트와 그 사용에 관해 적절한 소유권, 성찰, 추론, 체계적인 의사 결정을 보여주는 사람이 소유하고 유지관리합니다.
예시 지역 | 질문 예시 |
저작권, 책임, 유지관리, 의도 | [관점]에서 데이터 세트 게시자에 대해 알고 싶어... |
유틸리티 또는 사용
유용한 데이터 카드는 독자의 정보 요구를 충족하는 세부정보를 제공하므로, 독자가 자신의 작업과 목표에 데이터 세트가 적합한지 판단하는 책임감 있는 의사결정 과정을 거치도록 지원합니다.
예시 지역 | 질문 예시 |
생산자 요구사항,에이전트 요구사항, 사용자 요구사항, 사회적 요구사항 | [관점]에서 다음을 알고 싶습니다. |
품질
고품질 데이터 카드는 데이터 세트의 엄격성, 무결성, 완전성을 요약하며, 다양한 배경의 독자가 이해하기 쉬운 방식으로 전달되는 경우가 많습니다.
예시 지역 | 질문 예시 |
타당성,신뢰성, 무결성, 재현성 | [관점]에서 다음과 같은 사항을 알고 싶습니다. |
사용의 영향 또는 결과
데이터 세트 사용의 영향을 적절하게 설명하는 데이터 카드는 데이터 세트를 사용하고 관리할 때의 결과에 대한 기대치를 설정하고 독자의 목표에 부정적인 영향을 미칠 수 있는 1차 또는 2차 결과를 인정합니다.
예시 지역 | 질문 예시 |
효과, 관련성, 그룹 혜택,편차의 영향 | [관점]에서 다음을 알고 싶습니다. |
위험 및 권장사항
좋은 추천을 제공하는 데이터 카드는 출처, 표현, 사용 또는 사용 맥락에서 비롯되는 알려진 위험과 잠재적 위험 및 제한사항을 독자에게 알리고, 독자가 책임감 있는 절충을 할 수 있도록 충분한 정보와 대안을 제공합니다.
예시 지역 | 질문 예시 |
위험 크기, 완화, 권장사항, 그룹 피해 | [관점]에서 다음을 알고 싶습니다. |
요약
측정기준을 사용하면 질문 세트를 평가하여 목표 및 원하는 결과와 일치하는지 확인할 수 있습니다. 아직 데이터 카드에서 질문에 답변하지 않았더라도 데이터 세트 문서화 프로세스를 너무 깊이 진행하기 전에 실수를 파악하는 것이 좋습니다.
다음 표에는 5가지 측정기준이 요약되어 있습니다.
단계 | 설명 |
책임성 | 데이터 세트에 대한 신뢰와 관련하여 다양한 이해관계자의 성찰적이고 합리적이며 체계적인 결정을 표현하는 문장입니다. |
유틸리티 | 독자의 책임 있는 의사결정 프로세스 요구사항을 충족하는 세부정보를 제공하고 목표와 관련된 사용 사례 적합성을 확립합니다. |
품질 | 많은 독자가 이해할 수 있는 방식으로 전달되는 데이터 세트의 엄격성, 무결성, 완전성을 요약합니다. |
영향 및 결과 | 독자가 데이터 세트를 사용하고 관리할 때 원하는 결과를 달성하는 데 도움이 되는 정보와 목표에 부정적인 영향을 미칠 수 있는 결과를 알려줍니다. |
위험 및 권장사항 | 표현, 사용 또는 사용 맥락에서 비롯되는 데이터 세트와 관련된 알려진 위험과 잠재적 위험을 독자에게 알립니다. |
이러한 다양한 유형의 측정기준을 사용하면 데이터 카드를 작성하기 전에도 콘텐츠 품질, 가독성, 유용성에 관한 통계를 파악할 수 있습니다. 더 강력하고 세련된 데이터 카드 템플릿에 기여하는 작업 항목을 식별하는 데 도움이 됩니다.
4. 측정기준으로 질문 평가하기
- 단일 차원으로 시작한 다음 질문 세트의 복잡성을 기반으로 정보에 입각한 결론에 도달하는 데 필요한 유창성과 전문성을 결정합니다.
- 해당 질문 세트가 현재 측정기준을 얼마나 잘 지원하는지에 대한 근거와 이유를 제공합니다.
- 질문 세트에서 한두 개의 예시 질문을 통해 근거를 뒷받침하는 증거를 제공하세요.
- 측정기준이 바람직하지 않은 경우 단점을 개선하거나 해결하기 위해 취해야 하는 단계를 기록합니다. 이해관계자 팀과 함께 작업하는 경우 특정 질문에 더 잘 답변할 수 있는 이해관계자에게 책임을 할당하세요.
- 다음 측정기준에 대해 이 단계를 반복합니다.
다음은 차원 평가를 캡처하는 데 사용할 수 있는 템플릿의 예시입니다.
이 평가 프로세스는 생성하는 질문의 수와 데이터 카드에 고려해야 하는 다양한 이해관계자에 따라 15분에서 1시간까지 걸릴 수 있습니다.
5. 축하합니다
축하합니다. 데이터 카드에 대해 만든 질문을 검사할 수 있습니다. 이제 질문에 답할 수 있습니다.