Entender o ruído nos relatórios de resumo

Saiba o que significa o ruído, onde ele é adicionado e como ele afeta suas iniciativas de medição.

Os relatórios de resumo são o resultado da agregação de relatórios agregáveis. Quando os relatórios agregáveis são agrupados por um coletor e processados pelo serviço de agregação, o ruído, uma quantidade aleatória de dados, é adicionado aos relatórios de resumo resultantes. O ruído é adicionado para proteger a privacidade do usuário. O objetivo desse mecanismo é ter um framework que ofereça suporte à medição de privacidade diferenciada.

O ruído é adicionado ao relatório do resumo final.

Introdução ao ruído nos relatórios de resumo

Embora a adição de ruído não faça parte da medição de anúncios atualmente, em muitos casos, o ruído adicionado não muda substancialmente a forma como você interpreta os resultados.

Pode ajudar pensar sobre isso da seguinte maneira: Você estaria confiante para tomar uma decisão com base em um determinado dado se eles não fossem ruidosos?

Por exemplo, um anunciante estaria confiante em mudar a estratégia ou os orçamentos da campanha considerando que a Campanha A teve 15 conversões e a Campanha B, 16?

Se a resposta for não, o ruído é irrelevante.

O que você deve fazer é configurar o uso da API de modo que:

  1. A resposta para a pergunta acima é sim.
  2. O ruído é gerenciado de uma maneira que não afeta significativamente sua capacidade de tomar uma decisão com base em determinados dados. Faça o seguinte: para um número mínimo esperado de conversões, mantenha o ruído na métrica coletada abaixo de uma determinada porcentagem.

Nesta seção e nas próximas, vamos descrever estratégias para alcançar 2.

Principais conceitos

O serviço de agregação adiciona ruído uma vez a cada valor de resumo, ou seja, uma vez por chave, sempre que um relatório de resumo é solicitado.

Esses valores de ruído são extraídos aleatoriamente de uma distribuição de probabilidade específica, discutida abaixo.

Todos os elementos que afetam o ruído dependem de dois conceitos principais.

  1. A distribuição de ruído (detalhes abaixo) é a mesma, independentemente do valor do resumo, seja baixo ou alto. Portanto, quanto maior o valor do resumo, menor é a probabilidade de impacto do ruído em relação a esse valor.

    Por exemplo, suponha que um valor de compra total agregado de US $20 mil e um valor de compra total agregado de US $200 estejam sujeitos ao ruído selecionado na mesma distribuição.

    Vamos supor que o ruído dessa distribuição varie aproximadamente entre -100 e +100.

    • Para o valor de compra resumido de US $20 mil, o ruído varia entre 0 e 100/20 mil=0,5%.
    • Para o valor de compra resumido de US $200, o ruído varia entre 0 e 100/200=50%.

    Portanto, é provável que o ruído tenha um impacto menor no valor de compra agregado de US $20.000 do que no valor de US $200. Relativamente falando, US$ 20.000 provavelmente será menos barulhento,ou seja, provavelmente terá uma proporção sinal-ruído mais alta.

    Valores agregados mais altos têm um impacto de ruído relativamente menor.

    Isso tem algumas implicações práticas importantes que serão descritas na próxima seção. Esse mecanismo faz parte do design da API, e as implicações práticas são de longo prazo. Elas vão continuar tendo um papel importante quando as adtechs projetam e avaliam várias estratégias de agregação.

  2. O ruído é extraído da mesma distribuição, independente do valor do resumo, mas essa distribuição depende de vários parâmetros. Um desses parâmetros, épsilon, pode ser alterado por adtechs durante o teste de origem concluído para avaliar vários ajustes de utilidade/privacidade. No entanto, considere a capacidade de ajustar épsilon como temporária. Seus comentários sobre casos de uso e valores de épsilon que funcionam bem são bem-vindos.

Embora uma empresa de adtech não tenha controle direto das maneiras como o ruído é adicionado, ele pode influenciar o impacto dele nos dados de medição. Nas próximas seções, vamos nos aprofundar em como o ruído pode ser influenciado na prática.

Antes disso, vamos analisar a forma como o ruído é aplicado.

Aumentando o zoom: como o ruído é aplicado

Uma distribuição de ruído

O ruído é extraído da distribuição de Laplace, com os seguintes parâmetros:

  • Uma média (μ) de 0. Isso significa que o valor de ruído mais provável é 0 (nenhum ruído adicionado) e que o valor com ruído tem a mesma probabilidade de ser menor do que o original quanto de ser maior (isso às vezes é chamado de não enviesado).
  • Um parâmetro de escala de b = CONTRIBUTION_BUDGET / epsilon.
    • CONTRIBUTION_BUDGET está definido no navegador.
    • epsilon foi corrigido no servidor de agregação.

O diagrama a seguir mostra a função de densidade de probabilidade para uma distribuição de Laplace com μ=0, b = 20:

Função de densidade de probabilidade para uma distribuição de Laplace com μ=0, b = 20

Valores de ruído aleatórios, uma distribuição de ruído

Vamos supor que uma adtech solicite relatórios de resumo para duas chaves de agregação, key1 e key2.

O serviço de agregação seleciona dois valores de ruído x1 e x2, seguindo a mesma distribuição de ruído. x1 é adicionado ao valor de resumo da chave1, e x2 é adicionado ao valor de resumo da chave2.

Nos diagramas, representaremos os valores de ruído como idênticos. Essa é uma simplificação. Na realidade, os valores de ruído variam, porque são extraídos aleatoriamente da distribuição.

Isso mostra que todos os valores de ruído vêm da mesma distribuição e são independentes do valor de resumo ao qual são aplicados.

Outras propriedades do ruído

O ruído é aplicado a todos os valores de resumo, incluindo os vazios (0).

Mesmo os valores de resumo vazios estão sujeitos a ruído.

Por exemplo, mesmo que o valor verdadeiro do resumo de uma determinada chave seja 0, o valor de resumo com ruído que você verá no relatório de resumo para essa chave (provavelmente) não será 0.

O ruído pode ser um número positivo ou negativo.

Exemplos de ruído positivo e negativo.

Por exemplo, para um valor de compra de 327 mil antes do ruído, o ruído pode ser +6.000 ou -6.000 (esses são valores de exemplo arbitrários).

Como avaliar ruídos

Como calcular o desvio padrão do ruído

O desvio padrão do ruído é:

b*sqrt(2) = (CONTRIBUTION_BUDGET / epsilon)*sqrt(2)
Exemplo

Com épsilon = 10, o desvio padrão do ruído é:

b*sqrt(2) = (CONTRIBUTION_BUDGET / epsilon)*sqrt(2) = (65,536/10)*sqrt(2) = 9,267

Avaliar quando as diferenças nas medições são significativas

Como você sabe o desvio padrão do ruído adicionado a cada valor gerado pelo serviço de agregação, pode determinar limites apropriados para comparação e determinar se as diferenças observadas podem ser causadas pelo ruído.

Por exemplo, se o ruído adicionado a um valor for aproximadamente +/- 10 (considerando o escalonamento) e a diferença no valor entre duas campanhas for superior a 100, é provável que a diferença no valor medido entre cada campanha não seja causada apenas pelo ruído.

Interaja e compartilhe feedback

Participe e experimente essa API.

Próximas etapas