양질의 데이터 분석

작성자: 패트릭 라일리

특별한 감사 인사: Diane Tang, Rehan Khan, Elizabeth Tucker, Amir Najmi, Hilary Hutchinson, Joel Darnauer, Dale Neal, Aner Ben-Artzi, Sanders Kleinfeld, David Westbrook, Barry Rosenberg

기록

개요

데이터 더미에서 진실과 통찰력을 얻는 것은 강력하지만 오류가 발생하기 쉬운 작업입니다. 최고의 데이터 분석가와 데이터에 충실한 엔지니어는 데이터를 기반으로 신뢰할 수 있는 발표를 할 수 있다는 평판을 쌓습니다. 하지만 신뢰를 얻기 위해 무엇을 하고 있는 걸까요? 신중하다, 방법론적과 같은 형용사를 종종 듣게 되는데, 가장 조심하고 체계적인 애널리스트는 실제로 무엇을 하나요?

특히 Google에서 정기적으로 수집하는 데이터의 유형을 고려할 때 이는 간단한 질문이 아닙니다. 일반적으로 매우 큰 데이터 세트를 사용할 뿐만 아니라 데이터 세트도 매우 풍부합니다. 즉, 데이터의 각 행에는 일반적으로 많은 속성이 있습니다. 이것을 특정 사용자의 이벤트 시퀀스와 결합하면 수많은 방법으로 데이터를 볼 수 있습니다. 이를 연구자가 모든 데이터 포인트를 살펴보는 것이 간단한 전형적인 학계 심리학 실험과 비교해 보세요. Google의 대규모 고차원 데이터 세트로 인해 발생하는 문제는 대부분의 과학적 연구에서 나타나는 문제와는 상당히 다릅니다.

이 문서에서는 신중하고 체계적인 애널리스트가 대규모의 고차원 데이터 세트에 사용하는 아이디어와 기법을 요약합니다. 이 문서에서는 로그 및 실험 분석의 데이터를 중점적으로 다루지만 이러한 기법의 대다수가 보다 광범위하게 적용됩니다.

문서의 나머지 부분은 데이터 분석의 다양한 측면을 다루는 세 가지 섹션으로 구성됩니다.

  • 기술: 데이터 조작 및 조사에 대한 아이디어와 기술입니다.
  • 프로세스: 데이터에 접근하는 방법, 물어볼 질문, 확인할 사항에 대한 권장사항입니다.
  • 사고방식: 타인과 협력하고 유용한 정보를 전달하는 방법

기술

데이터를 검사하는 몇 가지 기법을 살펴보겠습니다.

배포 살펴보기

대부분의 실무자는 요약 측정항목 (예: 평균, 중앙값, 표준 편차 등)을 사용하여 분포에 관해 전달합니다. 하지만 일반적으로 히스토그램, 누적 분포 함수 (CDF), 분위수-분위수 (Q-Q) 도표 등을 생성하여 훨씬 풍부한 분포 표현을 검사해야 합니다. 이렇게 풍부한 표현을 통해 멀티모달 동작 또는 중요한 이상점 클래스와 같은 데이터의 중요한 특징을 감지할 수 있습니다.

이상점 고려

이상점은 탄광에서 보다 근본적인 분석 문제를 나타내는 카나리아가 될 수 있으므로 이상점을 주의 깊게 조사합니다. 데이터에서 이상점을 제외하거나 이를 '비정상적인' 카테고리로 묶는 것은 괜찮지만 데이터가 해당 카테고리에 속하게 된 이유를 알고 있어야 합니다.

예를 들어 클릭수가 가장 낮은 쿼리를 살펴보면 계산하지 못한 요소의 클릭수가 표시될 수 있습니다. 클릭수가 가장 많은 쿼리를 살펴보면 계산해서는 안 되는 클릭수가 나타날 수 있습니다. 반면 절대 설명할 수 없는 이상점이 있을 수 있으므로 이 작업에 할애하는 시간을 신중하게 정해야 합니다.

노이즈 고려

무작위성은 존재하므로 우리를 속일 것입니다. 어떤 사람들은 "Google은 데이터가 너무 많아서 노이즈가 사라집니다."라고 생각합니다. 하지만 이는 사실이 아닙니다. 생성하는 모든 데이터 숫자 또는 요약에는 신뢰 구간 및 p-values과 같은 측정을 통해 이 추정치에 대한 신뢰도 개념이 수반되어야 합니다.

예시 보기

새 분석 코드를 생성할 때마다 기본 데이터의 예와 코드가 이러한 예를 해석하는 방법을 살펴봐야 합니다. 이 단계를 수행하지 않으면 복잡성이 있는 작동 코드를 생성하는 것이 거의 불가능합니다. 분석은 유용한 요약을 생성하기 위해 기본 데이터에서 많은 세부정보를 추상화합니다. 개별 예의 전체 복잡성을 살펴보면 요약이 합리적이라는 확신을 얻을 수 있습니다.

이러한 예를 샘플링하는 방법이 중요합니다.

  • 기본 데이터를 분류하는 경우 각 클래스에 속한 예를 살펴보세요.
  • 더 큰 클래스라면 더 많은 샘플을 살펴보세요.
  • 숫자 (예: 페이지 로드 시간)를 계산할 때는 측정 공간 전반에 걸친 지점과 극단적인 예 (가장 빠른 5%, 가장 느린 5%)를 살펴보세요.

데이터 분할

분할이란 데이터를 하위 그룹으로 나누고 각 하위 그룹의 측정항목 값을 별도로 확인하는 것을 의미합니다. 일반적으로 브라우저, 언어, 도메인, 기기 유형 등의 측정기준을 세분화합니다. 근본적인 현상이 하위 그룹 간에 다르게 작동할 가능성이 있는 경우 데이터를 슬라이스하여 실제로 그런지 확인해야 합니다. 슬라이싱으로 다른 결과가 나올 것이라고 예상하지 않더라도 몇 개의 슬라이스를 통해 내부 일관성을 확인하면 올바른 값을 측정하고 있다는 확신을 가질 수 있습니다. 경우에 따라 특정 슬라이스에 잘못된 데이터나 손상된 사용자 상호작용이 있거나 어떤 식으로든 근본적으로 다를 수 있습니다.

두 그룹을 비교하기 위해 데이터를 슬라이스할 때마다 (예: 실험군과 대조군 또는 '시간 A'와 '시간 B' 비교) 항상 혼합된 변화를 알고 있어야 합니다. 믹스 시프트는 각 그룹의 슬라이스 데이터 양이 다른 경우입니다. 심슨의 역설과 기타 혼동이 발생할 수 있습니다. 일반적으로 슬라이스의 데이터 양이 두 그룹에서 동일한 경우 안전하게 비교할 수 있습니다.

실질적인 중요성 고려

데이터의 양이 많으면 통계적 유의성에만 집중하거나 데이터의 모든 세부사항에 초점을 맞추고 싶을 수 있습니다. 그러나 'X 값이 Y보다 0.1% 더 크다는 것이 사실이지만 중요한가요?'라고 자문해 보아야 합니다. 이는 데이터의 일부를 이해하거나 분류할 수 없는 경우에 특히 중요할 수 있습니다. 로그에서 사용자 에이전트 문자열 중 일부를 파악할 수 없는 경우 해당 문자열이 데이터의 0.1% 또는 10% 에 해당하는지 여부에 따라 해당 사례를 조사해야 할 정도가 달라집니다.

또는 데이터의 양이 적은 경우도 있습니다. 많은 변화가 통계적으로 유의미해 보이지 않지만 이러한 변화가 '중립적'이라고 주장하는 것과는 다릅니다. '여전히 실질적으로 유의미한 변화가 있을 가능성이 얼마나 되나요?'라고 자문해 보아야 합니다.

시간 경과에 따른 일관성 확인

시간이 지남에 따라 시스템이 진화함에 따라 기본 데이터에 많은 방해가 발생하기 때문에 거의 항상 시간 단위별로 데이터를 분할해야 합니다. (일반적으로 일수를 사용하지만 다른 시간 단위가 유용할 수도 있습니다.) 기능이나 새로운 데이터 수집을 처음 실행할 때 실무자들은 모든 것이 예상대로 작동하는지 신중하게 확인하는 경우가 많습니다. 그러나 시간이 지남에 따라 많은 손상이나 예기치 않은 동작이 발생할 수 있습니다.

특정 날짜 또는 요일 집합이 이상점이라고 해서 해당 데이터를 삭제해야 한다는 의미는 아닙니다. 이 데이터를 삭제하기 전에 해당 날짜 또는 요일이 다른 인과적 이유를 알아내기 위한 후크로 사용할 수 있습니다.

또한 일별 데이터를 살펴보면 결국 신뢰 구간이나 통계적 유의성에 대한 주장으로 이어지는 데이터의 편차를 파악할 수 있습니다. 이것이 일반적으로 엄격한 신뢰 구간 계산을 대체하지는 않지만, 일별 그래프만으로는 통계적으로 유의미하게 변동이 심한 경우가 많습니다.

필터링 확인 및 집계

거의 모든 대규모 데이터 분석은 다양한 단계에서 데이터를 필터링하는 것으로 시작됩니다. 미국 사용자만, 웹 검색 또는 광고가 포함된 검색만 고려할 수도 있습니다. 어떤 경우든 귀하는 다음을 준수해야 합니다.

  • 어떤 필터링을 하고 있는지 확인하고 명확하게 명시합니다.
  • 각 단계에서 필터링되는 데이터의 양을 계산합니다.

후자를 계산하는 가장 좋은 방법은 제외하는 모집단을 포함하여 모든 측정항목을 계산하는 것입니다. 그런 다음 이 데이터를 보고 '스팸 필터링이 삭제한 검색어의 비율은?'과 같은 질문에 답할 수 있습니다. (필터링하는 이유에 따라 이러한 유형의 분석이 불가능할 때도 있습니다.)

비율에는 명확한 분자와 분모가 있어야 합니다.

가장 흥미로운 측정항목은 기본 측정값의 비율입니다. 분자와 분모의 정확한 정의에 흥미로운 필터링이나 다른 데이터 선택 항목이 숨겨져 있는 경우가 종종 있습니다. 예를 들어 다음 중 '사용자당 검색어 수'는 실제로 무엇을 의미하나요?

  • 쿼리 / 쿼리가 있는 사용자
  • 검색어 / 오늘 Google을 방문한 사용자
  • 쿼리 / 활성 계정이 있는 사용자 (예, 활성을 정의해야 함)

여기서 명확한 답변을 제공하면 자신과 다른 사용자가 혼란을 느끼는 것을 방지할 수 있습니다.

또 다른 특별한 경우는 일부 데이터에 대해서만 계산할 수 있는 측정항목입니다. 예를 들어 '클릭할 시간'은 일반적으로 '클릭이 발생했다는 점을 감안할 때 클릭할 시간'을 의미합니다. 이와 같은 측정항목을 볼 때마다 해당 필터링을 확인하고 비교 중인 그룹 간 필터링의 변화를 찾아야 합니다.

프로세스

이 섹션에는 데이터에 접근하는 방법, 데이터에 관해 물어볼 질문, 확인할 항목에 대한 권장사항이 포함되어 있습니다.

별도의 유효성 검사, 설명, 평가

저는 데이터 분석은 서로 관련된 다음 세 가지 단계가 있다고 생각합니다.

  1. 검증1: 데이터가 일관성이 없고, 올바르게 수집되었으며, 내가 생각하는 작업을 반영한다고 생각하나요?
  2. 설명: 이 데이터의 객관적 해석은 무엇인가요? 예: '사용자가 X로 분류된 검색어 수가 줄어듭니다', '실험 그룹에서 X와 Y 사이의 시간이 1% 더 깁니다.', '더 적은 수의 사용자가 결과 페이지로 이동합니다.'
  3. 평가: 설명이 주어졌을 때 데이터가 사용자, Google 또는 전 세계를 위해 선한 일을 하고 있음을 알 수 있는가?

이 단계를 분리하면 다른 사용자와 더 쉽게 합의에 도달할 수 있습니다. 설명은 모든 사용자가 데이터에 대해 동의할 수 있는 내용이어야 합니다. 평가는 훨씬 더 많은 논쟁을 촉발할 수 있습니다. 설명과 평가를 분리하지 않으면 원하는 데이터의 해석만 볼 가능성이 훨씬 높습니다. 또한 일반적으로 다른 특성 및 측정항목과의 철저한 비교를 통해 측정항목의 규범적 값을 확립하려면 상당한 투자가 필요하기 때문에 평가가 훨씬 더 어려운 경향이 있습니다.

이 단계는 선형으로 진행되지 않습니다. 데이터를 탐색하면서 단계 사이를 오갈 수 있지만 언제든지 현재 어느 단계에 있는지 명확히 파악해야 합니다.

실험 및 데이터 수집 설정 확인

데이터를 살펴보기 전에 데이터가 수집된 환경을 이해해야 합니다. 실험에서 가져온 데이터인 경우 실험의 구성을 확인합니다. 새로운 클라이언트 계측에서 생성된 경우 최소한 데이터가 수집되는 방식을 대략적으로 이해해야 합니다. 비정상적이거나 잘못된 구성 또는 인구 제한(예: Chrome에서만 유효한 데이터)을 발견할 수 있습니다. 여기에서 주목할 만한 사항은 나중에 이론을 구축하고 검증하는 데 도움이 될 수 있습니다. 이때 다음과 같은 사항을 고려해 보시기 바랍니다.

  • 실험이 진행 중이라면 직접 실행해 봅니다. 그렇게 할 수 없다면 적어도 동작의 스크린샷이나 설명을 살펴보세요.
  • 실험 기간 (공휴일, 대규모 출시 등)에 비정상적인 점이 있었는지 확인합니다.
  • 실험 대상 사용자 집단을 확인합니다.

변경하면 안 되는 항목 확인

'유효성 검사' 단계에서 관심 있는 질문에 실제로 답하기 전에 (예: '얼굴 사진을 추가한 것이 클릭수가 증가했나요? 아니면 클릭수가 감소했나요?) 실험에 영향을 미칠 수 있는 데이터의 다른 변동성을 배제합니다. 예를 들면 다음과 같습니다.

  • 사용자 수가 변화했나요?
  • 영향을 받은 검색어의 수가 모든 하위 그룹에 표시되나요?
  • 오류율이 변경되었나요?

이러한 질문은 실험/대조군을 비교할 때나 시간 경과에 따른 추세를 검토할 때 모두 적합합니다.

표준 첫 번째, 맞춤 두 번째

새로운 기능과 데이터를 살펴볼 때 이 새로운 기능의 새롭거나 특별한 측정항목을 바로 확인하고 싶을 수도 있습니다. 하지만 표준 측정항목이 변경될 것으로 예상되더라도 항상 표준 측정항목을 먼저 확인해야 합니다. 예를 들어 페이지에 새 범용 블록을 추가하는 경우 새 결과에 대한 맞춤 측정항목을 자세히 살펴보기 전에 '웹 검색결과 클릭'과 같은 표준 측정항목에 미치는 영향을 이해해야 합니다.

표준 측정항목은 커스텀 측정항목보다 훨씬 더 잘 검증되고 정확할 가능성이 높습니다. 커스텀 측정항목이 표준 측정항목과 맞지 않는다면 커스텀 측정항목이 잘못될 가능성이 높습니다.

2회 이상 측정

특히 새로운 현상을 포착하려는 경우 같은 근본적인 요소를 여러 방법으로 측정해 보세요. 그런 다음 이러한 여러 측정이 일관적인지 확인합니다. 여러 측정을 사용하면 측정 또는 로깅 코드의 버그, 기본 데이터의 예기치 않은 기능 또는 중요한 필터링 단계의 버그를 식별할 수 있습니다. 측정에 다른 데이터 소스를 사용할 수 있으면 더 좋습니다.

재현 가능성 확인

시간 경과에 따른 슬라이싱과 일관성 모두 재현 가능성을 확인하는 특정 예입니다. 특정 현상이 중요하고 의미 있는 경우에는 다양한 사용자 집단과 시간에 걸쳐 이 현상을 확인해야 합니다. 하지만 재현성을 확인하는 것은 이 두 가지 검사를 수행하는 것 이상의 의미가 있습니다. 데이터 모델을 빌드하는 경우 기본 데이터의 작은 변동에도 이러한 모델을 안정적으로 유지해야 합니다. 다양한 시간 범위 또는 데이터의 무작위 하위 샘플을 사용하면 이 모델의 안정성/재현 가능성도 알 수 있습니다.

모델을 재현할 수 없다면 데이터를 생성한 기본 프로세스에 관한 기본적인 내용을 캡처하고 있지 않을 수 있습니다.

이전 측정값과의 일관성 확인

종종 이전에 계산된 것과 유사한 측정항목을 계산하게 됩니다. 사용자 집단을 서로 다르게 측정하더라도 측정항목을 이전에 보고된 측정항목과 비교해야 합니다.

예를 들어 특정 모집단의 쿼리 트래픽을 확인하는 경우 평균 페이지 로드 시간이 5초인데 모든 사용자에 대한 과거 분석에서 평균 페이지 로드 시간이 2초였다면 조사가 필요합니다. 귀하의 수치가 이 집단에 적합할 수도 있지만 이제 검증하기 위해서는 더 많은 작업을 해야 합니다.

정확한 합의를 할 필요는 없지만, 어느 정도의 상황에 처해야 합니다. 그렇지 않은 경우 자신을 완전히 이해할 수 있을 때까지 틀렸다고 가정합니다. 가장 놀라운 데이터는 멋지고 새로운 통찰력이 아닌 오류로 밝혀질 것입니다.

새 측정항목을 먼저 이전 데이터/기능에 적용해야 합니다.

새로운 데이터 소스를 수집하여 새 측정항목을 만들고 새로운 것을 학습하려고 하면 새 측정항목이 적절한지 알 수 없습니다. 새 측정항목을 사용할 때는 먼저 알려진 기능 또는 데이터에 적용해야 합니다. 예를 들어 사용자 만족도에 관한 새로운 측정항목이 있다면 이 측정항목이 만족도에 가장 도움이 되는 가장 좋은 기능을 알려주는지 확인해야 합니다. 사용자의 관심을 페이지로 유도하는 새로운 측정항목이 있다면 이 측정항목이 시선 추적이나 평가자 연구를 통해 이미지가 페이지 관심 유도에 미치는 영향에 관해 확인된 결과와 일치하는지 확인하세요. 이렇게 하면 새로운 것을 배울 때 검증이 제공됩니다.

가설을 세우고 증거를 찾습니다.

일반적으로 복잡한 문제에 대한 데이터 분석은 반복됩니다.2 데이터의 이상치, 추세 또는 기타 특성을 발견합니다. 자연스럽게 이 데이터를 설명하기 위한 이론을 개발하게 됩니다. 단순히 이론을 세우고 그것이 사실이라고 주장하지 마세요. 이 이론을 확정/부인하기 위한 증거를 (데이터 내부 또는 외부에서) 찾아보세요. 예를 들면 다음과 같습니다.

  • 학습 추세처럼 보이는 항목이 있으면 빈도가 높은 사용자에게 가장 강하게 나타나는지 확인하세요.
  • 일부 기능의 출시로 인해 이상치가 발생했다고 판단되면 해당 기능이 출시된 집단만 이상치의 영향을 받는지 확인합니다. 또는 변경사항의 정도가 출시에 대한 기대치와 일치하는지 확인하세요.
  • 언어에서 사용자 증가율이 변하는 경우 해당 사용자 인구 변경율을 검증하는 외부 소스를 찾아보세요.

훌륭한 데이터 분석에는 이야기할 스토리가 있습니다. 올바른 이야기인지 확인하려면 스스로에게 이야기한 다음 틀렸다는 증거를 찾아야 합니다. 이렇게 하는 한 가지 방법은 '말하고 있는 이야기를 검증/무효화하기 위해 어떤 실험을 실행할 것인가?'라고 자문하는 것입니다. 이러한 실험을 할 수 없거나 할 수 없는 경우에도 보유하고 있는 데이터로 검증하는 방법에 대한 아이디어를 얻을 수 있습니다.

좋은 소식은 이러한 이론과 가능한 실험을 통해 특정 특성이나 데이터를 학습하려는 시도를 초월하는 새로운 연구 분야로 이어질 수 있다는 것입니다. 그런 다음 이 데이터뿐만 아니라 모든 종류의 향후 분석을 위한 새로운 측정항목과 기법을 도출하는 영역으로 들어갑니다.

엔드 투 엔드 반복의 탐색적 분석 이점

탐색적 분석을 수행할 때는 전체 분석을 최대한 많이 반복하세요. 일반적으로 신호 수집, 처리, 모델링 등의 여러 단계를 거쳐야 합니다. 초기 신호의 첫 번째 단계를 완벽하게 만드는 데 너무 오래 걸리면 같은 시간 내에 더 많은 반복을 할 기회를 놓치게 됩니다. 또한 마지막에 데이터를 살펴보면서 방향을 바꾸는 발견을 할 수도 있습니다. 따라서 초기에는 완벽함이 아니라 합당한 결과를 얻는 데 중점을 두어야 합니다. 직접 메모를 남기고 필터링 단계 및 파싱할 수 없거나 이례적인 요청과 같은 사항을 확인하세요. 단, 탐색적 분석을 시작할 때 이러한 항목을 모두 삭제하려고 시간을 낭비하지 마세요.

의견 확인

일반적으로 사용자 성공에 관해 다양한 측정항목을 정의합니다. 예를 들어 사용자가 결과를 클릭했는가? 그런 다음 해당 데이터를 시스템에 다시 피드하면 (실제로 여러 위치에서 진행함) 평가 혼동의 기회가 많이 생깁니다.

시스템에 다시 제공되는 측정항목은 변경사항을 평가하기 위한 기반으로 사용할 수 없습니다. 클릭수가 많은 광고를 더 많이 게재한다면 '클릭수 증가'가 '더 많은' 것을 의미하기는 하지만, 사용자 만족도가 '더 많다'고 판단하는 기준이 '더 많은 클릭수'를 기준으로 삼을 수는 없습니다. 또한 데이터를 제공하면서 조정한 변수를 그대로 적용하면 안 됩니다.

사고방식

이 섹션에서는 다른 사용자와 협력하고 유용한 정보를 전달하는 방법을 설명합니다.

데이터 분석은 데이터나 기법이 아닌 질문으로 시작합니다.

데이터 분석에는 늘 동기가 있습니다. 요구사항을 질문 또는 가설로 작성하면 수집해야 할 데이터를 수집하고 발생 가능한 데이터 격차에 대해 고려하는 데 도움이 됩니다. 물론 데이터를 살펴보면서 질문하는 것도 진화해야 합니다. 그러나 질문 없이 분석하면 목적이 없어집니다.

좋아하는 기법을 찾은 다음 이 기법이 작동하는 문제의 부분만 찾아내는 함정을 피하세요. 명확한 질문을 만들면 이러한 함정을 피하는 데 도움이 됩니다.

회의적이고 용맹하게 만들기

데이터로 작업할 때 얻게 되는 통찰력의 챔피언이 되는 동시에 이에 대해 회의하는 사람이 되어야 합니다. 지금 보고 있는 데이터에서 흥미로운 현상을 찾을 수 있기를 바랍니다 흥미로운 현상을 발견하면 다음과 같이 자문해 보세요.

  • 이 프로젝트가 얼마나 멋진지 보여주기 위해 또 어떤 데이터를 수집할 수 있을까요?
  • 그것을 무효화할 어떤 것을 찾을 수 있습니까?”

특히 특정 답을 원하는 사람을 위해 분석을 수행하는 경우 (예: '내 이 기능이 멋지다!')는 실수를 하지 않도록 회의적인 태도를 보여야 합니다.

상관관계 != 인과관계

데이터에 관한 이론을 만들 때 'X가 Y를 유발한다'는 어설션을 하는 경우가 많습니다(예: '페이지 속도가 느려져서 사용자의 클릭수가 줄어든다'). xkcd도 단순히 상관관계로 인해 인과관계를 설정할 수 없다는 사실을 알고 있습니다. 일반적으로 인과관계 이론의 유효성을 검증하는 방법을 생각해 보면 일반적으로 인과관계의 신뢰성을 짐작할 수 있습니다.

때때로 사람들은 A와 B 사이에 인과 관계가 없더라도 한 신호가 다른 신호에 대한 좋은 지표 또는 프록시가 될 수 있도록 우연의 근간이 되는 무언가가 있어야 한다고 주장함으로써 유의미한 상관관계를 유지하려고 할 때가 있습니다. 이 영역은 여러 가설 테스트 문제에 위험합니다. xkcd도 알고 있는 바와 같이 충분한 실험과 충분한 측정기준이 제공되면 일부 신호가 특정 실험에 맞게 조정됩니다. 그렇다고 해서 미래에 동일한 신호가 정렬될 것이라는 의미는 아니므로, 'A와 B를 모두 유발하는 숨겨진 효과 C가 있습니다'와 같은 인과적 이론을 고려할 의무는 동일하여 이것이 얼마나 타당한지 검증할 수 있습니다.

데이터 애널리스트는 데이터를 소비하려는 사람들을 위해 이러한 인과적 질문을 자주 탐색해야 합니다. 이러한 소비자에게 인과관계에 대해 말할 수 있는 내용과 언급해서는 안 되는 것을 명확히 해야 합니다.

동종 업체와 외부 소비자를 먼저 공유합니다.

이전의 요점은 적절한 종류의 건전성 검사와 검증을 할 수 있는 몇 가지 방법을 제안했습니다. 하지만 동료와 공유하는 것이 이러한 모든 것을 강요하는 가장 좋은 방법 중 하나입니다. 특히 소비자에게는 일반적으로 주제가 있기 때문에 숙련된 동료는 데이터 소비자와 질적으로 다른 피드백을 제공할 수 있습니다. 피어는 분석을 통해 여러 지점에서 유용합니다. 동료가 알고 있는 점, 측정해야 할 사항과 관련된 제안사항, 이 분야의 과거 연구를 초기 단계에서 확인할 수 있습니다. 마지막으로 동료들은 이상한 점, 불일치, 기타 혼란을 지적하는 데 매우 능숙합니다.

현재 보고 있는 데이터에 대해 잘 아는 동료로부터 피드백을 받는 것이 이상적이지만 일반적인 데이터 분석 경험만 있어도 매우 가치가 있습니다.

무지와 실수를 예상하고 수용하기

데이터에서 배울 수 있는 것에는 많은 한계가 있습니다. 네이트 실버는 신호와 노이즈에서 확실성의 한계를 인정해야만 예측 정확도를 높일 수 있다는 확고한 근거를 제시합니다. 무지를 인정하는 것은 일반적으로 즉시 보상이 주어지지는 않습니다. 당시에는 기분이 좋지 않지만 장기적으로는 여러분과 팀에 큰 도움이 됩니다. 실수를 하고 나중에 (또는 너무 늦은 경우) 발견하는 것은 기분이 더 나쁘지만, 실수에 적극적으로 대처하면 존중받을 수 있습니다. 이러한 존중은 신뢰와 영향력으로 이어집니다.

맺음말

좋은 데이터 분석을 수행하기 위한 많은 작업은 분석 사용자에게 즉시 명확하지 않습니다. 모집단 크기를 신중하게 확인하고 브라우저에서 일관된 효과를 확인했다면 이 데이터를 바탕으로 결정을 내리려는 사람들이 인지하지 못할 수 있습니다. 또한 이는 대부분의 사람들에게 좋은 데이터 분석이 필요 이상으로 오래 걸리는 이유를 설명합니다 (특히 최종 출력만 표시되는 경우). 애널리스트로서 우리가 해야 할 일 중 하나는 데이터 기반 통찰력을 소비자에게 점진적으로 교육하여 이러한 단계가 무엇이고 왜 중요한지에 대한 것입니다.

이러한 모든 데이터 조작과 탐색의 필요성으로 인해 좋은 데이터 분석 언어 및 환경을 위한 요구 사항도 제시됩니다. 데이터를 검사하는 데 사용할 수 있는 많은 도구가 있습니다. 위에서 설명한 다양한 기법에 더 적합한 여러 도구와 언어가 더 적합합니다. 적절한 도구를 선택하는 것은 애널리스트에게 중요한 스킬입니다. 가장 익숙한 도구의 기능에 제한되어서는 안 됩니다. 특정 도구를 적용하는 것이 아니라 유용한 정보를 제공해야 합니다.

 


  1. 이를 '초기 데이터 분석'이라고도 합니다. 데이터 분석에 관한 위키백과 문서 를 참고하세요.

  2. 기술적으로는 확인적 분석이 아닌 탐색적 분석을 수행하는 경우에만 반복적이어야 합니다.