요약 보고서의 노이즈 이해하기

노이즈의 의미, 추가되는 위치, 측정 작업에 미치는 영향을 알아보세요.

요약 보고서는 집계 가능한 보고서를 집계한 결과입니다. 집계 가능한 보고서가 수집기에 의해 일괄 처리되고 집계 서비스에 의해 처리되면 무작위 데이터인 노이즈가 결과 요약 보고서에 추가됩니다. 사용자 개인 정보 보호를 위해 노이즈가 추가됩니다. 이 메커니즘의 목표는 개인 정보 차등 보호 측정을 지원할 수 있는 프레임워크를 보유하는 것입니다.

노이즈가 최종 요약 보고서에 추가됩니다.

요약 보고서의 노이즈 소개

오늘날에는 노이즈를 추가하는 것이 보통 광고 측정의 일부가 아니지만, 대부분의 경우 노이즈가 추가되어도 결과를 해석하는 방식은 크게 달라지지 않습니다.

다음과 같이 생각하는 것이 도움이 될 수 있습니다. 특정 데이터 조각에 노이즈가 없다면 확신을 가지고 결정을 내릴 수 있을까요?

예를 들어 캠페인 A의 전환수가 15회이고 캠페인 B의 전환수가 16회라는 점을 고려할 때 광고주가 캠페인 전략 또는 예산을 변경하는 데 확신을 가질 수 있을까요?

답이 '아니요'라면 노이즈는 관련이 없습니다.

다음과 같은 방식으로 API 사용을 구성하는 것이 좋습니다.

  1. 위 질문에 대한 답은 '예'입니다.
  2. 노이즈는 특정 데이터를 기반으로 의사 결정을 내리는 능력에 큰 영향을 주지 않는 방식으로 관리됩니다. 예상 최소 전환수에 대해 수집된 측정항목의 노이즈를 특정 % 미만으로 유지하는 방법은 다음과 같습니다.

본 섹션과 다음 섹션에서는 2.

핵심 개념

집계 서비스는 요약 보고서가 요청될 때마다 각 요약 값에 한 번(즉, 키당 한 번) 노이즈를 추가합니다.

이러한 노이즈 값은 아래에 설명된 특정 확률 분포에서 무작위로 가져옵니다.

노이즈에 영향을 미치는 모든 요소는 두 가지 기본 개념에 의존합니다.

  1. 노이즈 분포(아래 세부정보 참조)는 요약 값(낮음 또는 높음)에 관계없이 동일합니다. 따라서 요약 값이 클수록 이 값에 비해 노이즈가 미칠 수 있는 영향이 적습니다.

    예를 들어 집계된 총 구매 금액 20,000달러와 집계된 총 구매 가격 200달러 모두에 동일한 분포에서 선택된 노이즈가 적용된다고 가정해 보겠습니다.

    이 분포의 노이즈가 대략 -100과 +100 사이에서 다양하다고 가정해 보겠습니다.

    • 요약 구매 금액이 20,000달러인 경우 노이즈는 0~100/20,000=0.5% 사이입니다.
    • 요약 구매 가격이 200달러인 경우 노이즈는 0~100/200=50% 사이입니다.

    따라서 노이즈는 200달러 가치보다 집계된 구매 가치 20,000달러에 더 낮은 영향을 미칠 가능성이 높습니다. 상대적으로 20,000달러이면 노이즈가 덜할 가능성이 큽니다. 즉, 신호 대 노이즈 비율이 더 높을 가능성이 큽니다.

    집계된 값이 높을수록 노이즈에 미치는 영향이 상대적으로 낮습니다.

    이는 다음 섹션에서 설명하는 몇 가지 중요한 실용적인 의미를 갖습니다. 이 메커니즘은 API 설계의 일부이며 실질적인 함의는 장기적인 영향을 미칩니다. 광고 기술이 다양한 집계 전략을 설계하고 평가할 때 계속해서 중요한 역할을 할 것입니다.

  2. 노이즈는 요약 값과 관계없이 동일한 분포에서 추출되지만 이 분포는 여러 매개변수에 따라 달라집니다. 이러한 매개변수 중 하나인 epsilon은 오리진 트라이얼이 진행되는 동안 광고 기술에 의해 변경되어 다양한 유용성/개인 정보 보호 조정을 평가할 수 있습니다. 그러나 epsilon을 조정하는 기능은 일시적인 것으로 간주합니다. 사용 사례 및 잘 작동하는 epsilon의 가치에 대한 의견을 보내주시기 바랍니다.

애드테크 회사에서 노이즈가 추가되는 방식을 직접 제어할 수는 없지만, 노이즈가 측정 데이터에 미치는 영향에는 영향을 미칠 수 있습니다. 다음 섹션에서는 노이즈가 실제로 어떤 영향을 받는지 자세히 알아보겠습니다.

시작하기 전에 노이즈가 적용되는 방식을 자세히 살펴보겠습니다.

확대: 노이즈 적용 방법

노이즈 분포 1개

노이즈는 다음 매개변수를 사용하여 라플라스 분포에서 가져옵니다.

  • 0의 평균 (μ)입니다. 이는 노이즈 값이 0일 가능성이 가장 높고 (노이즈가 추가되지 않음), 노이즈 값이 원래 값보다 작을수록 더 작을 수 있다는 의미입니다 (이를 비편향이라고도 함).
  • 배율 매개변수: b = CONTRIBUTION_BUDGET / epsilon
    • CONTRIBUTION_BUDGET는 브라우저에 정의되어 있습니다.
    • epsilon는 집계 서버에서 고정되어 있습니다.

다음 다이어그램은 μ=0, b = 20인 라플라스 분포의 확률 밀도 함수를 보여줍니다.

μ=0, b = 20인 라플라스 분포의 확률 밀도 함수

무작위 노이즈 값, 하나의 노이즈 분포

광고 기술이 두 개의 집계 키 key1과 key2에 관한 요약 보고서를 요청한다고 가정해 보겠습니다.

집계 서비스는 동일한 노이즈 분포에 따라 두 가지 노이즈 값 x1과 x2를 선택합니다. x1은 key1의 요약 값에 추가되고 x2는 key2의 요약 값에 추가됩니다.

다이어그램에는 노이즈 값이 동일한 것으로 나와 있습니다. 이는 단순화된 것입니다. 실제로는 노이즈 값이 분포에서 무작위로 추출되기 때문에 노이즈 값이 달라집니다.

이는 노이즈 값이 모두 동일한 분포에서 나왔으며 적용되는 요약 값과는 별개임을 보여줍니다.

노이즈의 기타 속성

노이즈는 빈 값 (0)을 포함하여 모든 요약 값에 적용됩니다.

빈 요약 값이라도 노이즈가 적용될 수 있습니다.

예를 들어 특정 키의 실제 요약 값이 0인 경우에도 이 키의 요약 보고서에 표시되는 노이즈 요약 값은 0이 될 가능성이 높습니다.

노이즈는 양수 또는 음수일 수 있습니다.

양의 노이즈와 음의 노이즈의 예

예를 들어 사전 노이즈 구매 금액이 327,000인 경우 노이즈는 +6,000 또는 -6,000이 될 수 있습니다 (임의의 예시 값임).

노이즈 평가

노이즈의 표준 편차 계산

노이즈의 표준 편차는 다음과 같습니다.

b*sqrt(2) = (CONTRIBUTION_BUDGET / epsilon)*sqrt(2)

epsilon = 10인 경우 노이즈의 표준 편차는 다음과 같습니다.

b*sqrt(2) = (CONTRIBUTION_BUDGET / epsilon)*sqrt(2) = (65,536/10)*sqrt(2) = 9,267

측정 차이가 큰 경우 평가하기

집계 서비스를 통해 각 값 출력에 추가된 노이즈의 표준 편차를 알 수 있으므로, 비교에 적절한 임곗값을 결정하여 관찰된 차이가 노이즈로 인한 것인지 확인할 수 있습니다.

예를 들어 값에 추가된 노이즈가 대략 +/- 10 (조정을 고려함)이고 두 캠페인 간의 가치 차이가 100을 넘으면 각 캠페인 간에 측정된 값의 차이가 노이즈만으로 인한 것이 아니라고 결론을 내릴 수 있습니다.

참여 및 의견 공유

이 API에 참여하여 실험해 보세요.

다음 단계