瞭解摘要報表中的雜訊

瞭解雜訊代表的意義、這些信號的意義,以及對成效評估的影響。

摘要報表是可匯總報表的匯總結果。 收集器批次處理可匯總報表並由匯總服務處理時,系統會在摘要報表中加入雜訊 (隨機數量) 的雜訊。為保護使用者隱私,裝置會加入雜訊。這個機制旨在提供可支援差異化隱私評估作業的架構。

最終摘要報表會加入雜訊。

摘要報表雜訊簡介

加入雜訊通常並非現今廣告評估的一部分,但在多數情況下,加入雜訊不會大幅改變您解讀結果的方式。

您可以透過下列方式思考: 如果資料不夠吵雜,您認為根據某些資料做出決策嗎?

舉例來說,如果廣告活動 A 獲得了 15 次轉換,廣告活動 B 獲得了 16 次轉換,廣告客戶有信心修改廣告活動策略或預算。

如果答案為「否」,則雜訊並無關聯。

建議您以下列方式設定 API 使用方式:

  1. 上方問題的答案是「是」。
  2. 噪音管理的方式不會大幅影響您根據特定資料做出決策的能力,您可以像這樣:在預期轉換次數下限的情況下,建議您將收集指標中的雜訊控制在一定百分比以下。

在本節和後續環節中,我們會概述達到 2 目標的策略。

核心概念

匯總服務會在每次要求摘要報表時,在每個摘要值 (也就是每個鍵一次) 加入雜訊一次。

這些雜訊值是由特定機率分佈隨機擷取,詳情請參閱下文。

所有影響雜訊的元素都仰賴兩個主要概念。

  1. 雜訊分佈情形 (詳見下文) 無論摘要值為何,無論摘要值為何都一樣。因此,相較於這個值,摘要值越高,雜訊所造成的影響就越少。

    舉例來說,假設總購物總金額為 $20,000 美元,總購物總金額為 $200 美元,則適用相同的分佈情形。

    我們假設這些分佈情形的雜訊大約介於 -100 和 +100 之間。

    • 以 $20,000 美元的匯總購物價值計算,雜訊介於 0 到 100/20,000=0.5% 之間。
    • 以 $200 美元的匯總購物價值計算,雜訊介於 0 到 100/200=50% 之間。

    因此,雜訊對 $20,000 美元的匯總購物價值所造成的影響可能會低於 $200 美元。相對而言,$20,000 美元的雜訊可能較少,因此信號雜訊比率可能較高。

    匯總值越大,雜訊的影響就越低。

    這會有一些重要的實際影響,我們將在下一節中說明。這項機制是 API 設計的一部分,實際的影響長期下來可能會有實際的影響。廣告技術人員在設計及評估各種匯總策略時,也將繼續扮演關鍵角色。

  2. 雖然雜訊來自於同一分佈情形 (不論匯總值為何),但分佈取決於多個參數。在結束的來源試用期間,廣告技術可能會修改其中一個參數 epsilon,藉此評估各項公用程式/隱私權調整。不過,請思考是否能暫時調整 Epsilon。我們歡迎您提供意見,分享自己的用途和適合的 Epsilon 價值觀。

雖然廣告技術公司無法直接控制加入雜訊的方式,但可能會影響雜訊對評估資料的影響。在接下來的章節中,我們將深入探討雜訊在實務中可能造成的影響。

正式操作前,讓我們先進一步瞭解雜訊的套用方式。

放大:雜訊的套用方式

單一雜訊分佈

雜訊取自 Laplace 分佈,其中包含下列參數:

  • 平均值 (μ)。也就是說,最可能的雜訊值為 0 (沒有加入雜訊),且雜訊值有可能比原始值更小 (有時稱為「無偏誤」)。
  • b = CONTRIBUTION_BUDGET / epsilon縮放參數
    • 瀏覽器已定義「CONTRIBUTION_BUDGET」。
    • 已修正匯總伺服器中的 epsilon

下圖顯示 Laplace 分佈以 μ=0,b = 20 的機率密度函式:

Laplace 分佈情形的機率密度函式,μ=0,b = 20

隨機雜訊值,單一雜訊分佈

假設廣告技術要求使用兩個匯總鍵 (key1 和 key2) 產生摘要報表。

匯總服務會依照相同的雜訊分配方式,選取兩個雜訊值 x1 和 x2。在 key1 的匯總值中加入 x1,並在 key2 的匯總值中加入 x2。

在圖表中,我們會以相同的雜訊值表示。這只是簡化的;實際上,雜訊值會隨分佈隨機而隨機繪製而不同。

這表示雜訊值全都來自相同的分佈,而且與套用的摘要值無關。

雜訊的其他性質

系統會將雜訊套用至每個摘要值,包括空白值 (0)。

即使是空白的摘要值,也可能會出現雜訊。

舉例來說,即使特定鍵的真實摘要值是 0,此鍵的摘要報表中顯示的雜訊摘要值 (很有可能) 並非 0。

雜訊可以是正數或負數。

正值和負面雜訊示例。

舉例來說,如果前噪音的購買金額是 327,000,雜訊可能會是 +6,000 或 -6,000 (這些都是任意範例值)。

正在評估雜訊

計算雜訊的標準差

雜訊的標準差如下:

b*sqrt(2) = (CONTRIBUTION_BUDGET / epsilon)*sqrt(2)
範例

使用 Epsilon = 10 時,雜訊的標準差為:

b*sqrt(2) = (CONTRIBUTION_BUDGET / epsilon)*sqrt(2) = (65,536/10)*sqrt(2) = 9,267

在成效評估出現顯著差異時進行評估

由於您知道匯總服務為每個值輸出加入的雜訊標準差,因此可以決定適當的閾值來進行比較,判斷觀察到的差異是否為幹擾因素所導致。

舉例來說,如果加入的雜訊約為 +/- 10 (須考量資料規模),而兩個廣告活動的值差異超過 100,我們可確信各廣告活動測量到的值差異並非單靠雜訊所造成。

交流及分享意見回饋

您可以參與這個 API 並進行實驗

後續步驟