Laboratório de ruído

Sobre este documento

Ao ler este artigo, você vai:

  • Entenda quais estratégias devem ser criadas antes de gerar relatórios de resumo.
  • Conhecer o Noise Lab, uma ferramenta que ajuda a entender os efeitos de vários parâmetros de ruído e que permite a exploração e a avaliação rápidas de várias estratégias de gerenciamento de ruído.
Captura de tela do Noise Lab
Laboratório de ruído

Envie feedback

Embora este documento resuma alguns princípios para trabalhar com relatórios de resumo, há várias abordagens para o gerenciamento de ruído que podem não se refletir aqui. Sugestões, adições e perguntas são bem-vindas!

  • Para fornecer feedback público sobre estratégias de gerenciamento de ruído, sobre utilidade ou privacidade da API (épsilon) e compartilhar suas observações ao simular com o Noise Lab: comente sobre este problema
  • Para enviar feedback público sobre o Noise Lab (faça uma pergunta, informe um bug, solicite um recurso): Crie um novo problema aqui
  • Para enviar feedback público sobre outro aspecto da API, siga estas instruções: Crie um novo problema aqui.

Antes de começar

  1. Leia Attribution Reporting: relatórios de resumo e Visão geral do sistema completo do Attribution Reporting para uma introdução.
  2. Verifique Noções básicas sobre ruído e Noções básicas sobre chaves de agregação para aproveitar o guia da melhor forma possível.

Decisões de design

Princípio do design básico

Existem diferenças fundamentais entre o funcionamento de cookies de terceiros e dos relatórios de resumo. Uma diferença importante é o ruído adicionado aos dados de medição nos relatórios de resumo. Outra é a forma como os relatórios são programados.

Para acessar dados de medição do relatório resumido com uma proporção sinal-ruído mais alta, as plataformas de demanda (DSPs) e os provedores de medição de anúncios precisam trabalhar com os anunciantes para desenvolver estratégias de gerenciamento de ruído. Para desenvolver essas estratégias, as DSPs e os provedores de medição precisam tomar decisões de design. Essas decisões giram em torno de um conceito essencial:

Embora os valores de ruído de distribuição sejam extraídos, absolutamente falando, só depende de dois parâmetros⏤épsilon e do orçamento de contribuição⏤, você tem vários outros controles à sua disposição que vão afetar as proporções de sinal-ruído dos seus dados de medição resultantes.

Esperamos que um processo iterativo leve às melhores decisões, mas cada variação delas vai levar a uma implementação um pouco diferente. Portanto, essas decisões precisam ser tomadas antes de gravar cada iteração de código (e antes de exibir anúncios).

Decisão: granularidade da dimensão

Teste no Laboratório de ruídos

  1. Acesse o modo Avançado.
  2. No painel lateral "Parâmetros", procure "Seus dados de conversão".
  3. Respeite os parâmetros padrão. Por padrão, a contagem diária de conversões atribuíveis é 1.000. Em média, cerca de 40 por bucket se você usar a configuração padrão (dimensões padrão, número padrão de valores diferentes possíveis para cada dimensão, estratégia principal A). O valor é 40 na entrada Média diária de contagem de conversões atribuíveis POR BUCKET.
  4. Clique em "Simular" para executar uma simulação com os parâmetros padrão.
  5. No painel lateral "Parâmetros", procure "Dimensões". Renomeie Geografia como Cidade e mude o número de valores diferentes possíveis para 50.
  6. Observe como isso altera a média diária de conversões atribuíveis POR BUCKET. Agora é muito mais baixo. Isso ocorre porque, se você aumentar o número de valores possíveis nessa dimensão sem alterar mais nada, vai aumentar o número total de buckets sem mudar quantos eventos de conversão serão incluídos em cada bucket.
  7. Clique em "Simular".
  8. Observe as proporções de ruído da simulação resultante: as proporções de ruído agora são maiores do que na simulação anterior.

Considerando o princípio de design principal, pequenos valores de resumo têm maior probabilidade de ter mais ruído do que valores de resumo grandes. Portanto, sua escolha de configuração afeta quantos eventos de conversão atribuídos terminam em cada bucket (também conhecida como chave de agregação), e essa quantidade afeta o ruído nos relatórios de resumo de saída final.

Uma decisão de design que afeta o número de eventos de conversão atribuídos em um único bucket é a granularidade da dimensão. Considere os seguintes exemplos de chaves de agregação e as dimensões delas:

  • Abordagem 1: uma estrutura principal com dimensões aproximadas: País x campanha de anúncios (ou o maior bucket de agregação da campanha) x Tipo de produto (de 10 tipos de produto possíveis)
  • Abordagem 2: uma estrutura-chave com dimensões granulares: Cidade x ID do criativo x Produto (de 100 produtos possíveis)

Cidade é uma dimensão mais granular que País, ID do criativo é mais granular que Campaign, e Produto é mais específico que Tipo de produto. Portanto, a Abordagem 2 terá um número menor de eventos (conversões) por bucket (= por chave) na saída do relatório de resumo do que a Abordagem 1. Como o ruído adicionado à saída é independente do número de eventos no bucket, os dados de medição nos relatórios de resumo terão mais ruído na Abordagem 2. Para cada anunciante, teste várias compensações de granularidade no design da chave para ter o máximo de utilidade nos resultados.

Decisão: principais estruturas

Teste no Laboratório de ruídos

No modo Simples, a estrutura de chave padrão é usada. No modo Avançado, é possível testar diferentes estruturas principais. Alguns exemplos de dimensões estão incluídos, que também podem ser modificados.

  1. Acesse o modo Avançado.
  2. No painel lateral "Parâmetros", procure "Estratégia de chave". A estratégia padrão, chamada A na ferramenta, usa uma estrutura de chave granular que inclui todas as dimensões: região geográfica x ID da campanha x categoria do produto.
  3. Clique em "Simular".
  4. Observe as proporções de ruído da simulação resultante.
  5. Mude a estratégia "Key" para B. Isso exibe mais controles para você configurar a estrutura da sua chave.
  6. Configure a estrutura da chave da seguinte maneira:
    1. Número de estruturas principais: 2
    2. Estrutura de chave 1 = Geografia x Categoria de produto.
    3. Estrutura principal 2 = ID da campanha x categoria do produto.
  7. Clique em "Simular".
  8. Agora você vai receber dois relatórios de resumo por tipo de meta de medição (dois para o número de compras e dois para o valor da compra), considerando que você está usando duas estruturas principais distintas. Observe as proporções de ruído.
  9. Você também pode fazer isso com suas próprias dimensões personalizadas. Para isso, procure os dados que você quer acompanhar: dimensões. Considere remover as dimensões de exemplo e criar as suas próprias usando os botões "Adicionar/Remover/Redefinir" abaixo da última dimensão.

Outra decisão de design que afetará o número de eventos de conversão atribuídos em um único bucket são as estruturas principais que você decide usar. Considere os seguintes exemplos de chaves de agregação:

  • Uma estrutura-chave com todas as dimensões; vamos chamar essa estratégia-chave A.
  • Duas estruturas principais, cada uma com um subconjunto de dimensões. Vamos chamar essa estratégia principal B.
Diagrama:

A Estratégia A é mais simples, mas talvez você precise agrupar (soma) os valores de resumo com ruído que incluem relatórios de resumo para acessar determinados insights. Ao somar esses valores, você também está somando o ruído. Com a Estratégia B, os valores de resumo expostos nos relatórios de resumo podem já fornecer as informações necessárias. Isso significa que a Estratégia B provavelmente levará a melhores relações sinal-ruído do que a Estratégia A. No entanto, o ruído pode já ser aceitável com a Estratégia A, então você ainda pode optar por favorecer a Estratégia A por simplificar. Saiba mais no exemplo detalhado que descreve essas duas estratégias.

O gerenciamento de chaves é um assunto profundo. Várias técnicas elaboradas podem ser consideradas para melhorar a proporção sinal-ruído. Um deles está descrito em Gerenciamento avançado de chaves.

Decisão: frequência de lotes

Teste no Laboratório de ruídos

  1. Acesse o modo simples ou avançado (os dois modos funcionam da mesma maneira quando se trata da frequência de lotes).
  2. No painel lateral Parâmetros, procure Sua estratégia de agregação > Frequência de lote. Isso se refere à frequência de lotes de relatórios agregáveis que são processados com o serviço de agregação em um único job.
  3. Observe a frequência de lotes padrão: por padrão, uma frequência diária de lotes é simulada.
  4. Clique em "Simular".
  5. Observe as proporções de ruído da simulação resultante.
  6. Altere a frequência dos lotes para semanal.
  7. Observe as proporções de ruído da simulação resultante: as proporções de ruído agora são menores (melhores) do que na simulação anterior.

Outra decisão de design que afetará o número de eventos de conversão atribuídos em um único bucket é a frequência de lotes que você decide usar. A frequência de lotes é a frequência com que você processa relatórios agregáveis.

Um relatório programado para agregação com mais frequência (por exemplo, a cada hora) terá menos eventos de conversão incluídos do que o mesmo relatório com uma programação de agregação menos frequente (por exemplo, a cada semana). Como resultado, o relatório por hora vai incluir mais ruído.``` tem menos eventos de conversão incluídos do que o mesmo relatório com uma programação de agregação menos frequente (por exemplo, a cada semana). Como resultado, o relatório por hora terá uma proporção sinal-ruído menor do que o relatório semanal, todo o restante é igual. Teste os requisitos de geração de relatórios em várias frequências e avalie as proporções sinal-ruído para cada uma delas.

Saiba mais em Lote e Agregar em períodos mais longos.

Decisão: variáveis de campanha que afetam as conversões atribuíveis

Teste no Laboratório de ruídos

Embora isso possa ser difícil de prever e possa ter variações significativas, além dos efeitos de sazonalidade, tente estimar o número de conversões diárias atribuídas ao único toque à potência mais próxima de 10: 10, 100, 1.000 ou 10.000.

  1. Acesse o modo Avançado.
  2. No painel lateral "Parâmetros", procure "Seus dados de conversão".
  3. Respeite os parâmetros padrão. Por padrão, a contagem diária de conversões atribuíveis é 1.000. Em média, cerca de 40 por bucket se você usar a configuração padrão (dimensões padrão, número padrão de valores diferentes possíveis para cada dimensão, estratégia principal A). O valor é 40 na entrada Média diária de contagem de conversões atribuíveis POR BUCKET.
  4. Clique em "Simular" para executar uma simulação com os parâmetros padrão.
  5. Observe as proporções de ruído da simulação resultante.
  6. Agora defina a contagem diária de conversões que podem ser atribuídas a 100. Isso diminui o valor da contagem média diária de conversões atribuíveis POR BUCKET.
  7. Clique em "Simular".
  8. As proporções de ruído agora são maiores: isso porque, quando você tem menos conversões por bucket, mais ruído é aplicado para manter a privacidade.

Uma distinção importante é o número total de conversões possíveis de um anunciante em comparação com o número total de conversões atribuídas possíveis. Esse último é o que afeta o ruído nos relatórios de resumo. As conversões atribuídas são um subconjunto do total de conversões sujeitas a variáveis de campanha, como orçamento e segmentação de anúncios. Por exemplo, você esperaria um número maior de conversões atribuídas para uma campanha publicitária de US $10 milhões em comparação com uma campanha publicitária de US $10 mil, todo o restante é igual.

Importante:

  • Avalie as conversões atribuídas em relação a um modelo de atribuição de toque único de dispositivo, já que elas estão no escopo dos relatórios de resumo coletados com a API Attribution Reporting.
  • Considere a contagem de cenário do pior e do melhor cenário para conversões atribuídas. Por exemplo, se todo o restante for igual, considere os orçamentos de campanha mínimo e máximo possíveis para um anunciante e, em seguida, projete conversões atribuíveis para os dois resultados como entradas na sua simulação.
  • Se você estiver considerando usar o Sandbox de privacidade do Android, considere as conversões atribuídas em várias plataformas no cálculo.

Decisão: usar o escalonamento

Teste no Laboratório de ruídos

  1. Acesse o modo Avançado.
  2. No painel lateral "Parâmetros", procure Sua estratégia de agregação > Escalonamento. Está definido como Sim por padrão.
  3. Para entender os efeitos positivos do escalonamento na taxa de ruído, primeiro defina "Scaling" como "No".
  4. Clique em "Simular".
  5. Observe as proporções de ruído da simulação resultante.
  6. Defina o dimensionamento para Sim. O Noise Lab calcula automaticamente os fatores de escalonamento a serem usados de acordo com os intervalos (valores médios e máximos) das metas de medição do cenário. Em uma configuração real do sistema ou do teste de origem, implemente seu próprio cálculo para fatores de escalonamento.
  7. Clique em "Simular".
  8. As proporções de ruído agora são menores (melhores) nesta segunda simulação. Isso ocorre porque você está usando o escalonamento.

Dado o princípio principal de design, o ruído adicionado é uma função do orçamento de contribuição.

Portanto, para aumentar as proporções sinal-ruído, é possível transformar os valores coletados durante um evento de conversão escalonando-os em relação ao orçamento de contribuição e removendo-os após a agregação. Use o escalonamento para aumentar a proporção sinal-ruído.

Decisão: número de metas de medição e divisão do orçamento de privacidade

Isso está relacionado ao escalonamento. Leia Como usar o escalonamento.

Teste no Laboratório de ruídos

Uma meta de medição é um ponto de dados distinto coletado em eventos de conversão.

  1. Acesse o modo Avançado.
  2. No painel lateral "Parâmetros", procure os dados que você quer acompanhar: metas de medição. Por padrão, você tem duas metas de medição: valor da compra e contagem de compras.
  3. Clique em "Simular" para executar uma simulação com as metas padrão.
  4. Clique em "Remover". Essa ação remove a última meta de medição (nesse caso, contagem de compras).
  5. Clique em "Simular".
  6. As proporções de ruído para o valor da compra agora são menores (melhor) para essa segunda simulação. Isso ocorre porque você tem menos metas de medição, então sua única meta de medição agora recebe todo o orçamento de contribuição.
  7. Clique em "Redefinir". Agora você tem novamente duas metas de medição: valor da compra e contagem de compras. O Noise Lab calcula automaticamente os fatores de escalonamento a serem usados de acordo com os intervalos (valores médios e máximos) das metas de medição do cenário. Por padrão, o Noise Lab divide o orçamento igualmente entre as metas de medição.
  8. Clique em "Simular".
  9. Observe as proporções de ruído da simulação resultante. Anote os fatores de escalonamento exibidos na simulação.
  10. Agora, vamos personalizar a divisão do orçamento de privacidade para conseguir proporções sinal-ruído melhores.
  11. Ajustar a porcentagem do orçamento atribuída a cada meta de medição. Considerando os parâmetros padrão, a meta de medição 1, ou seja, o valor de compra, tem um intervalo muito maior (entre 0 e 1.000) do que a meta de medição 2, ou seja, o número de compras (entre 1 e 1, ou seja, sempre igual a 1). Por isso, ela precisa de "mais espaço para escalonar". O ideal seria atribuir mais orçamento de contribuição à meta de medição 1 do que à meta de medição 2, para que ela possa ser escalonada verticalmente com mais eficiência (consulte "Escalonamento").
  12. Atribua 70% do orçamento à meta de medição 1. Atribua 30% à meta de medição 2.
  13. Clique em "Simular".
  14. Observe as proporções de ruído da simulação resultante. Para o valor de compra, as taxas de ruído agora são notavelmente menores (melhores) do que na simulação anterior. Em relação ao número de compras, eles permanecem praticamente o mesmo.
  15. Continue ajustando o orçamento dividido entre as métricas. Observe como isso afeta o ruído.

É possível definir suas próprias metas de medição personalizadas com os botões Adicionar/Remover/Redefinir.


Se você medir um ponto de dados (meta de medição) em um evento de conversão, como contagem de conversões, esse ponto poderá receber todo o orçamento de contribuição (65.536). Se você definir várias metas de medição em um evento de conversão, como contagem de conversões e valor de compra, esses pontos de dados precisarão compartilhar o orçamento de contribuição. Isso significa que você tem menos margem para ampliar seus valores.

Portanto, quanto mais metas de medição você tiver, menor será a proporção sinal-ruído (ruído maior).

Outra decisão a ser tomada em relação às metas de medição é a divisão do orçamento. Se você dividir o orçamento de contribuição igualmente em dois pontos de dados, cada um deles terá um orçamento de 65.536/2 = 32.768. Isso pode ou não ser ideal, dependendo do valor máximo possível para cada ponto de dados. Por exemplo, se você estiver medindo a contagem de compras que tem um valor máximo de 1 e um valor de compra com um mínimo de 1 e um máximo de 120, o valor da compra se beneficiaria de ter "mais espaço" para ser escalonado, ou seja, receber uma proporção maior do orçamento de contribuição. Você vai conferir se algumas metas de medição precisam ser priorizadas em relação a outras em relação ao impacto do ruído.

Decisão: gerenciamento de outliers

Teste no Laboratório de ruídos

Uma meta de medição é um ponto de dados distinto coletado em eventos de conversão.

  1. Acesse o modo Avançado.
  2. No painel lateral "Parâmetros", procure Sua estratégia de agregação > Escalonamento.
  3. Verifique se o Escalonamento está definido como Sim. O Noise Lab calcula automaticamente os fatores de escalonamento a serem usados com base nos intervalos (valores médios e máximos) fornecidos para as metas de medição.
  4. Vamos supor que a maior compra já feita foi de US $2.000, mas que a maioria das compras acontece no intervalo de US $10 a US$ 120. Primeiro, vejamos o que acontece se usarmos uma abordagem de escalonamento literal (não recomendado): insira US $2.000 como o valor máximo para purchaseValue.
  5. Clique em "Simular".
  6. Observe que as proporções de ruído são altas. Isso ocorre porque nosso fator de escalonamento é calculado atualmente com base em US $2.000, quando, na realidade, a maioria dos valores de compra é notavelmente menor que isso.
  7. Agora, vamos usar uma abordagem de escalonamento mais pragmática. Mude o valor máximo de compra para US $120.
  8. Clique em "Simular".
  9. Observe que as proporções de ruído são menores (melhores) nesta segunda simulação.

Para implementar o escalonamento, você normalmente calcula um fator de escalonamento com base no valor máximo possível de um determinado evento de conversão. Saiba mais neste exemplo.

No entanto, evite usar um valor máximo literal para calcular esse fator de escalonamento, porque isso pioraria a proporção sinal-ruído. Em vez disso, remova os outliers e use um valor máximo pragmático.

O gerenciamento de outliers é um assunto profundo. Várias técnicas elaboradas podem ser consideradas para melhorar a proporção sinal-ruído. Uma delas é descrita em Gerenciamento avançado de outliers.

Próximas etapas

Agora que você avaliou várias estratégias de gerenciamento de ruído para seu caso de uso, está pronto para começar a testar relatórios de resumo, coletando dados de medição reais por um teste de origem. Leia os guias e as dicas para testar a API.

Apêndice

Tour rápido pelo Noise Lab

O Noise Lab ajuda a avaliar e comparar rapidamente as estratégias de gerenciamento de ruído. Use-a para fazer o seguinte:

  • Entenda os principais parâmetros que podem afetar o ruído e o efeito que eles têm.
  • Simule o efeito do ruído nos dados de medição de saída, para diferentes decisões de projeto. Ajustar os parâmetros de design até alcançar uma proporção sinal-ruído que funcione para seu caso de uso.
  • Compartilhe seu feedback sobre a utilidade dos relatórios de resumo: quais valores de parâmetros épsilon e ruído funcionam para você? Onde estão os pontos de inflexão?

Pense nisso como uma etapa de preparação. O Noise Lab gera dados de medição para simular os resultados de relatórios resumidos com base na sua entrada. Ele não armazena nem compartilha dados.

Há dois modos diferentes no Laboratório de ruído:

  1. Modo simples: entenda os princípios básicos dos controles de ruído.
  2. Modo avançado: teste diferentes estratégias de gerenciamento de ruído e avalie qual delas gera as melhores proporções de sinal-ruído para seus casos de uso.

Clique nos botões no menu superior para alternar entre os dois modos (1. na captura de tela abaixo).

Modo simples
  • Com o modo Simple, você controla parâmetros (encontrados no lado esquerdo ou 2. na captura de tela abaixo), como Epsilon, e vê como eles afetam o ruído.
  • Cada parâmetro tem uma dica (um botão `?`). Clique neles para ver uma explicação de cada parâmetro (3. na captura de tela abaixo).
  • Para começar, clique no botão "Simular" e observe a saída (4. na captura de tela abaixo).
  • Na seção Saída, é possível ver vários detalhes. Alguns elementos têm um "?" ao lado. Reserve um tempo para clicar em cada "?" e veja uma explicação das várias informações.
  • Na seção Saída, clique no botão de alternância "Detalhes", se você quiser ver uma versão expandida da tabela (5. na captura de tela abaixo).
  • Abaixo de cada tabela de dados na seção de saída, há uma opção de fazer o download da tabela para uso off-line. Além disso, no canto inferior direito, há uma opção para fazer o download de todas as tabelas de dados (6. na captura de tela abaixo).
  • Teste configurações diferentes para os parâmetros na seção "Parâmetros" e clique em "Simular" para ver como elas afetam a saída:
    Ruído
    Interface do Noise Lab para o modo Simples
    .
Modo avançado
  • No Modo avançado, você tem mais controle sobre os parâmetros. É possível adicionar metas e dimensões de medição personalizadas (1. e 2. na captura de tela abaixo).
  • Role para baixo na seção "Parâmetros" e veja a opção "Estratégia principal". Isso pode ser usado para testar diferentes estruturas de chave (3. na captura de tela abaixo)
    • Para testar diferentes estruturas principais, mude a estratégia principal para "B".
    • Insira o número de estruturas principais diferentes que você quer usar (o padrão é "2")
    • Clique em "Gerar estruturas principais"
    • Você verá opções para especificar as estruturas de chave clicando nas caixas de seleção ao lado das chaves que quer incluir em cada estrutura de chave.
    • Clique em "Simular" para conferir o resultado.
      O modo avançado mostra controles de metas e dimensões de medição a serem acompanhados, destacados na barra lateral.
      Interface do ruído do laboratório para o modo Avançado.
      O "Modo avançado" também é uma opção de estratégia principal na seção "Parâmetros" da barra lateral.
      Interface do Noise Lab para o modo avançado.

Métricas de ruído

Conceito central

O ruído é adicionado para proteger a privacidade individual do usuário.

Um valor de ruído alto indica que buckets/chaves são esparsos e contêm contribuições de um número limitado de eventos sensíveis. Isso é feito automaticamente pelo Noise Lab para permitir que as pessoas se "escondam na multidão" ou, em outras palavras, protege a privacidade dessas pessoas limitadas com uma quantidade maior de ruído.

Um valor de baixo ruído indica que a configuração dos dados foi projetada de maneira que já permita que as pessoas se "escondam na multidão". Isso significa que os buckets contêm contribuições de um número suficiente de eventos para garantir que a privacidade do usuário individual esteja protegida.

Essa instrução é verdadeira para o erro percentual médio (APE) e RMSRE_T (erro relativo da raiz quadrada média com um limite).

APE (erro percentual médio)

APE é a proporção do ruído sobre o sinal, ou seja, o verdadeiro valor do resumo.p> Valores de APE menores significam melhores relações sinal-ruído.

Fórmula

Para um determinado relatório de resumo, a APE é calculada da seguinte forma:

A equação de APE. É obrigatório usar valores absolutos, já que o ruído pode ser negativo.

Verdadeiro é o valor verdadeiro do resumo. APE é a média do ruído sobre cada valor de resumo real, calculada com base em todas as entradas em um relatório de resumo. No Laboratório de ruído, esse valor é multiplicado por 100 para chegar a uma porcentagem.

Prós e contras

Buckets com tamanhos menores têm um impacto desproporcional sobre o valor final do APE. Isso pode levar a erros na avaliação do ruído. Foi por isso que adicionamos outra métrica, RMSRE_T, que é projetada para reduzir essa limitação de APE. Veja mais detalhes nos exemplos.

Programar

Revise o código-fonte para o cálculo da APE.

RMSRE_T (erro relativo da raiz quadrada média com limite)

RMSRE_T (raiz do erro relativo médio quadrado com limite) é outra medida de ruído.

Como interpretar RMSRE_T

Valores de RMSRE_T mais baixos significam melhores relações sinal-ruído.
Por exemplo, se uma proporção de ruído aceitável para seu caso de uso for de 20% e o RMSRE_T for 0,2, você vai ter a certeza de que os níveis de ruído se enquadram no intervalo aceitável.

Fórmula

Para um determinado relatório de resumo, a RMSRE_T é calculada da seguinte forma:

Fórmula
A equação de RMSRE_T. É obrigatório usar valores absolutos, já que o ruído pode ser negativo.
Prós e contras

O RMSRE_T é um pouco mais complexo de compreender do que o APE. No entanto, ele tem algumas vantagens que o tornam, em alguns casos, mais adequado do que o APE para análise de ruído em relatórios de resumo:

  • O RMSRE_T é mais estável. "T" é um limite. "T" é usado para dar menos peso no cálculo de RMSRE_T para buckets que têm menos conversões e, portanto, são mais sensíveis ao ruído devido ao tamanho pequeno. Com T, a métrica não aumenta em intervalos com poucas conversões. Se T for igual a 5, um valor de ruído tão baixo quanto 1 em um bucket com 0 conversões não será mostrado como muito acima de 1. Em vez disso, ele será limitado a 0,2, o que equivale a 1/5, já que T é igual a 5. Ao dar menos peso a buckets menores, que são, portanto, mais sensíveis ao ruído, essa métrica é mais estável e, portanto, facilita a comparação de duas simulações.
  • RMSRE_T facilita a agregação. Conhecer o RMSRE_T de vários buckets, junto com as contagens reais, permite calcular o RMSRE_T de sua soma. Isso também permite otimizar para RMSRE_T para esses valores combinados.

Embora a agregação seja possível para a APE, a fórmula é bastante complicada, porque envolve o valor absoluto da soma dos ruídos de Laplace. Isso dificulta a otimização do APE.

Programar

Revise o código-fonte para o cálculo de RMSRE_T.

Exemplos

Relatório de resumo com três intervalos:

  • bucket_1 = ruído: 10, trueSummaryValue: 100
  • bucket_2 = ruído: 20, trueSummaryValue: 100
  • bucket_3 = ruído: 20, trueSummaryValue: 200

APE = (0,1 + 0,2 + 0,1) / 3 = 13%

RMSRE_T = sqrt( ( (10/max(5,100))^2  + (20/max(5,100))^2 +
(20/max(5,200))^2) / 3) =  sqrt( (0.01 + 0.04 + 0.01) / 3) =  0.14 

Relatório de resumo com três intervalos:

  • bucket_1 = ruído: 10, trueSummaryValue: 100
  • bucket_2 = ruído: 20, trueSummaryValue: 100
  • bucket_3 = ruído: 20, trueSummaryValue: 20

APE = (0,1 + 0,2 + 1) / 3 = 43%

RMSRE_T = sqrt( ( (10/max(5,100))^2  + (20/max(5,100))^2 +
(20/max(5,20))^2) / 3)  =  sqrt( (0.01 + 0.04 + 1.0) / 3) =  0.59

Relatório de resumo com três intervalos:

  • bucket_1 = ruído: 10, trueSummaryValue: 100
  • bucket_2 = ruído: 20, trueSummaryValue: 100
  • bucket_3 = ruído: 20, trueSummaryValue: 0

APE = (0,1 + 0,2 + Infinito) / 3 = Infinito

RMSRE_T = sqrt( ( (10/max(5,100))^2  + (20/max(5,100))^2  +
(20/max(5,0))^2) / 3) =  sqrt( (0.01 + 0.04 + 16.0) / 3) =  2.31

Gerenciamento avançado de chaves

Uma empresa de medição de anúncios ou DSP pode ter milhares de clientes de publicidade no mundo todo, abrangendo vários setores, moedas e possíveis preços de compra. Isso significa que criar e gerenciar uma chave de agregação por anunciante provavelmente será altamente impraticável. Além disso, será difícil selecionar um valor agregável máximo e um orçamento de agregação que possa limitar o impacto do ruído nesses milhares de anunciantes globais. Em vez disso, vamos considerar os seguintes cenários:

Estratégia principal A

O provedor de adtech decide criar e gerenciar uma chave para todos os clientes de publicidade. Em todos os anunciantes e moedas, o intervalo de compras varia de compras de baixo volume, sofisticadas a grandes volumes e mais simples. Isso resulta na seguinte chave:

Chave (várias moedas)
Valor agregável máximo 5.000.000
Faixa do valor de compra [120 - 5000000]
Estratégia principal B

O provedor de adtech decide criar e gerenciar duas chaves em todos os clientes de publicidade. Ele decide separar as chaves por moeda. Em todos os anunciantes e todas as moedas, o intervalo de compras varia de compras de baixo volume e de alta qualidade a grandes volumes e compras mais simples. Separando por moeda, eles criam duas chaves:

Chave 1 (USD) Chave 2 (¥)
Valor agregável máximo USD 40.000 ¥ 5.000.000
Faixa do valor de compra [120 – 40.000] [15.000 - 5.000.000]

A estratégia chave B terá menos ruído no resultado do que a estratégia A, porque os valores das moedas não são distribuídos de maneira uniforme entre as moedas. Por exemplo, considere como as compras denominadas em ¥ e em combinação com compras expressas em USD vão alterar os dados subjacentes e gerar ruído no resultado.

Estratégia principal C

O provedor de adtech decide criar e gerenciar quatro chaves em todos os clientes de publicidade e separá-las por moeda x setor do anunciante:

Chave 1
(USD x anunciantes de joias de alta qualidade)
Chave 2
(¥ x anunciantes de joias de luxo)
Chave 3
(USD x anunciantes de lojas de roupas)
Chave 4
(¥ x anunciantes varejistas de roupas)
Valor agregável máximo USD 40.000 ¥ 5.000.000 US$ 500 ¥ 65.000
Faixa do valor de compra [10.000 - 40.000] [1.250.000 - 5.000.000] [120 a 500] [15.000 - 65.000]

A estratégia principal C terá menos ruído no resultado do que a estratégia B, porque os valores de compra do anunciante não são distribuídos de maneira uniforme entre os anunciantes. Por exemplo, considere como a combinação de compras de joias sofisticadas e de bonés de beisebol alteram os dados subjacentes e o resultado barulhento.

Considere criar valores agregados máximos compartilhados e fatores de escalonamento compartilhados para semelhanças entre vários anunciantes a fim de reduzir o ruído no resultado. Por exemplo, você pode testar diferentes estratégias abaixo para seus anunciantes:

  • Uma estratégia separada por moeda (USD, ¥, CAD etc.)
  • Uma estratégia separada por setor do anunciante (seguro, automotivo, varejo etc.)
  • Uma estratégia separada por intervalos de valor de compra semelhantes ([100], [1000], [10000] etc.)

Ao criar estratégias importantes com base em semelhanças de anunciante, as chaves e o código correspondente são mais fáceis de gerenciar, e a proporção sinal-ruído fica maior. Teste diferentes estratégias com diferentes semelhanças de anunciantes para descobrir pontos de inflexão na maximização do impacto do ruído em relação ao gerenciamento de código.


Gerenciamento avançado de outliers

Vamos considerar um cenário com dois anunciantes:

  • Anunciante A:
    • Em todos os produtos no site do anunciante A, as possibilidades de preço de compra são entre [US$ 120 - US$ 1.000] , por uma faixa de US $880.
    • Os preços de compra são distribuídos uniformemente na faixa de US $880, sem outliers fora de dois desvios padrão do preço médio de compra.
  • Anunciante B:
    • Em todos os produtos no site do anunciante B, as possibilidades de preço de compra são entre [US$ 120 - US$ 1.000] , por uma faixa de US $880.
    • Os preços de compra variam muito na faixa de US $120 a US$ 500, com apenas 5% das compras na faixa de US $500 a US$ 1.000.

Considerando os requisitos de orçamento de contribuição e a metodologia com que o [ruído é aplicado](/privacy-sandbox/relevance/attribution-reporting/understanding-noise/#how-noise-is-applied) aos resultados finais, o Anunciante B terá, por padrão, uma saída mais barulhenta do que o Anunciante A, já que o Anunciante B tem maior potencial de impacto nos cálculos subjacentes.

É possível atenuar isso com uma configuração de chave específica. Teste estratégias de chaves que ajudam a gerenciar dados de outliers e distribuir os valores de compra de maneira mais uniforme no intervalo de compra da chave.

Para o anunciante B, você pode criar duas chaves separadas para capturar dois intervalos diferentes de valor de compra. Nesse exemplo, a adtech observou que os outliers aparecem acima do valor de compra de US $500. Tente implementar duas chaves diferentes para esse anunciante:

  • Estrutura da chave 1 : chave que captura apenas as compras no intervalo de US $120 a US$ 500 (cobrindo aproximadamente 95% do volume total de compra).
  • Estrutura da chave 2: chave que captura apenas compras acima de US $500 (cobrindo aproximadamente 5% do volume total de compra).

A implementação dessa estratégia principal precisa gerenciar melhor o ruído para o anunciante B e ajudar a maximizar a utilidade para ele a partir dos relatórios de resumo. Com os novos intervalos menores, as chaves A e B agora têm uma distribuição mais uniforme dos dados em cada chave em comparação com a chave única anterior. Isso resultará em menos impacto na saída de cada chave do que na chave única anterior.