Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

ノイズインジェクション

ノイズインジェクションは、データベースにクエリを実行する際にユーザーのプライバシーを保護するために使用される技術です。これは、クエリの集計 SELECT 句にランダムノイズを追加することで機能します。このノイズによりユーザーのプライバシーが保護される一方で、ある程度の正確な結果が得られ、差分チェックの必要性がなくなり、出力に必要な集計しきい値が削減されます。いくつかの制限があるものの、既存のクエリのほとんどはノイズモードで実行できます。

ノイズインジェクションを使用する利点を学ぶ

差分チェックが適用されない: ノイズインジェクションを使用してクエリを実行すると、Ads Data Hub では、前の結果セットとの類似性による行のフィルタリングが行われません。この特長により、ユーザーのプライバシーを保護しながら、包括的なデータを取得できます。

トラブルシューティングが簡素化される: 行は集計要件によってのみ省略されるため、クエリのトラブルシューティングと調整が簡単になります。

新しい構文を学習する必要がない: 差分チェックの代わりにノイズを使用するために、新しいクエリ構文を学習したり、プライバシー概念に精通したりする必要はありません。

結果の精度が報告される: ジョブが成功すると、ノイズの影響を受けた可能性のあるデータの合計パーセンテージが表示されます。

ノイズがプライバシー要件に与える影響を学ぶ

差分チェック: ノイズインジェクションは、Ads Data Hub の既存の差分チェックに依存しません。ノイズインジェクションを使用する場合、差分チェックは無効になります。

集計要件: ノイズインジェクションでは、インプレッションデータを出力するには約 20 人以上のユニークユーザー、クリックデータまたはコンバージョンデータを出力するには約 10 人以上のユニークユーザーが必要です。

静的チェック: 影響はありません。

予算とクエリ制限: 差分チェックと同様に、ノイズインジェクションでは、同じデータセットに対して同じクエリを実行できる回数に上限が設定されます。同じ集計結果を 1 つのクエリ内で再計算するか、複数のクエリ実行にわたって再計算すると、データセット内の頻繁にクエリされる日付にアクセスできなくなる可能性があります。これは、スライディングウィンドウクエリを実行する場合、または同じリクエストを複数回実行する場合に発生する可能性があります。詳しくは、繰り返し結果をご覧ください。

プライバシーチェックについて詳しくは、こちらをご覧ください。

ノイズインジェクションが結果に与える影響を理解する

Ads Data Hub では、開示リスク（個人ユーザーに関する情報が第三者に知られるリスク）を軽減するために、プライバシーと実用性のバランスをとりながらノイズが注入されます。

Ads Data Hub のノイズインジェクションにより、クエリ結果が次のように変換されます。

集計結果における「外れ値」ユーザーの貢献度を境界内に収めます。各集計における各ユーザーの貢献度を合計し、最小および最大のクランプ境界に各貢献度が収まるようにします。
範囲内にあるユーザーごとの貢献度を集計します。
各集計結果（各行の各集計関数呼び出しの結果）にノイズが追加されます。このランダムノイズのスケールは、クランプ境界に比例します。
ノイズが加えられた各行のユーザー数が集計され、ユーザー数が少なすぎる行が削除されます。これは差分チェックモードの k-匿名性と似ていますが、ノイズを使用しているため、同じデータセット上で実行されているジョブにより異なる行が削除される可能性があります。また、ノイズモードでは、集計要件が低い（正確に 50 行ではなく約 20 行）ため、削除される行が少なくなります。

最終結果となるデータセットでは、ノイズが加えられた各行が集計され、小さなグループが除外されています。これにより、返された結果で個々のユーザーの影響がマスクされます。

集計クランプについて

Ads Data Hub のノイズインジェクションでは、暗黙的または明示的な集計クランプを使用して、外れ値の貢献度を制限します。ユースケースに応じて、使用するクランプのタイプを選択できます。

暗黙的なクランプ

暗黙的なクランプを使用するために特別な SQL 構文は必要ありません。デフォルトで適用されます。暗黙的な境界はデータ自体から導出され、各集計に対して決定されます。一部の集計値の範囲が他の値の範囲よりも広い場合、暗黙的な境界では必要に応じて集約ごとに異なる境界を推測できます。これにより、通常、エラーが少なくなります。COUNT(DISTINCT user_id) は、ユーザーごとの貢献度を自動的に 1 にクランプします。

明示的なクランプ

明示的なクランプでは、指定された範囲内に各ユーザーからの合計貢献度が収められます。明示的な境界は、すべての集計に均一に適用され、リテラル値である必要があります。境界が一般的にわかっている場合は、明示的なクランプの方が良い結果が得られることがあります。たとえば、0〜100 の境界の年齢は、ほとんどの人の年齢がこの範囲内にあるため、公開情報が反映されます。

Ads Data Hub には、明示的なクランプ用の補足的な ADH.ANON 集計関数が用意されています。明示的なクランプを使用するには、下限と上限を表す整数を追加して、サポート対象の各集計関数の境界を設定します。次に例を示します。

SELECT
campaign_name,
-- Set lower and upper bounds to 0 and 1, respectively
ADH.ANON_COUNT(*, contribution_bounds_per_group => (0,1))
FROM data
GROUP BY 1

ノイズインジェクションを使用してクエリを実行する

レポートを開きます。
[プライバシーノイズの設定] をクリックし、[ノイズを使用] に切り替えます。
クエリを実行します。
追加されたノイズの影響を確認します。
省略可: クエリを調整して、ノイズの影響を軽減します。

ノイズの影響を確認する

ジョブが正常に完了すると、Ads Data Hub のプライバシーの概要に結果の信頼性が表示されます。信頼性は、ノイズの影響を大きく受ける可能性のある出力内のセルの割合に基づいています。結果テーブルの値に追加されたノイズのスケールがセル内の結果の 5% を超える場合、その値は影響を受けていると見なされます。

影響を受けている出力データセットのプライバシーの概要には、影響が最も大きい列から順番にノイズが最も多い 10 列が、それに対応するノイズへの貢献度とともにリストされます。以下の表は、ノイズの影響ラベルの内訳です。

影響を受けた結果の割合（%）	インジケーターの色	効果
5% 未満	緑	影響が小さい
5%～ 15%	黄	影響が中程度
15%～ 25%	Orange	大規模な影響
25% 以上	赤	影響が非常に大きい

[ホーム] ページで、最近のレポートジョブのプライバシーの概要をプレビューすることもできます。特定のジョブのプライバシーをプレビューするには、[最近のアクティビティ] のジョブカードにあるプライバシーのヒントアイコン privacy_tip にカーソルを合わせます。

クエリを調整する

集計結果に貢献するユーザーがほとんどいない場合、集計はノイズの影響を受けやすくなります。これは、小規模なユーザーセットから集計が計算される場合や、一部のユーザーが結果に影響を与えない場合（COUNTIF 関数を使用する場合など）に発生する可能性があります。ノイズレポートに基づいてクエリを調整することで、影響を受ける結果の割合を減らすことができます。

一般的なガイドラインは次のとおりです。

期間を延長します。
グループ化の基となるパラメータの数を減らしたり COUNTIF を COUNT で置き換えたりすなど、クエリを書き直してデータの粒度を下げます。
ノイズの多い列を削除します。
妥当な境界を選択できる場合は、明示的なクランプを試してください。

サポート対象の集計関数

次の集計関数ではノイズの使用がサポートされています。

SUM(...)
COUNT(*)
COUNT(...)
COUNTIF(...)
COUNT(DISTINCT ...)
APPROX_COUNT_DISTINCT(...)
AVG(...)

DISTINCT キーワードは COUNT 関数でのみサポートされています。Ads Data Hub テーブルの user_id 列への直接参照、または user_id か NULL を返す式（COUNT(DISTINCT IF(..., user_id, NULL)) など）で使用する場合、COUNT DISTINCT 関数と APPROX_COUNT_DISTINCT(...) 関数は、ユーザーごとの貢献度を 1 にクランプすることで計算されます。COUNT DISTINCT が user_id 以外の列を参照する場合、暗黙的なクランプを使用して APPROX_COUNT_DISTINCT で近似されます。

補足的な集計関数

Ads Data Hub では、通常の集計関数に加えて、明示的なクランプをサポートする補足的な ADH.ANON 集計関数が導入されています。これらのアグリゲータは、BigQuery の差分プライベート集計関数と同じ構文を使用しますが、WITH DIFFERENTIAL_PRIVACY 句は必要ありません。

ADH.ANON_SUM( ..., [ contribution_bounds_per_group => (lower_bound, upper_bound) ] )
ADH.ANON_COUNT( *, [ contribution_bounds_per_group => (lower_bound, upper_bound) ] )
ADH.ANON_COUNT( ..., [ contribution_bounds_per_group => (lower_bound, upper_bound) ] )
ADH.ANON_AVG( ..., [ contribution_bounds_per_group => (lower_bound, upper_bound) ] )
ADH.ANON_PERCENTILE_CONT( ..., percentile, contribution_bounds_per_row => (lower_bound, upper_bound) )
ADH.ANON_COUNT_DISTINCT( ..., [ max_contributions_per_group => upper_bound ] )

ADH.ANON_SUM、ADH.ANON_COUNT、ADH.ANON_AVG パラメータ:

contribution_bounds_per_group: ユーザーあたりの貢献度は、GROUP BY キーで定義された各パーティションに対してクランプされます。上限と下限は、ユーザーごとに値を集計した後、グループごとに値に適用されます。
lower_bound: 集計に含める最小値を表す数値リテラル。
upper_bound: 集計に含める最大値を表す数値リテラル。

ADH.ANON_PERCENTILE_CONT パラメータ:

percentile: 計算するパーセンタイル。[0, 1] の範囲内のリテラル。
contribution_bounds_per_row: ユーザーあたりの貢献度は、行ごと（レコードごと）にクランプされます。パーセンタイルには明示的なクランプ境界が必要であるため、補助関数としてのみサポートされます。
lower_bound: 集計に含める最小値を表す数値リテラル。
upper_bound: 集計に含める最大値を表す数値リテラル。

ADH.ANON_COUNT_DISTINCT パラメータ:

max_contributions_per_group: ユーザーあたりの貢献度は、GROUP BY キーで定義された各パーティションに対してクランプされます。上限は、ユーザーごとに値を集計した後のグループあたりのユーザー貢献度の最大値を制限します。
upper_bound: 集計に含める最大値を表す数値リテラル。

最小値と最大値を計算する

MIN 関数と MAX 関数はノイズ集計で直接サポートされていませんが、これらの結果を計算する代替方法が用意されていることがよくあります。

イベント日などのグループ化キーとして使用できる値の MIN または MAX がある場合は、まずその値で GROUP BY を実行してから、MIN/MAX を計算できます。これにより、集計のしきい値を超える最小値または最大値が返されます。

例:

WITH campaign_date_ranges AS (
  SELECT campaign_id, MIN(event_date) AS min_date, MAX(event_date) AS max_date
  FROM (
    # Aggregation thresholding will be applied here
    SELECT DISTINCT
      campaign_id,
      DATE(query_id.time_usec, @time_zone) AS event_date
    FROM adh.google_ads_impressions
  )
)
SELECT campaign_id, num_impressions, min_date, max_date
FROM (
  # Noise and aggregation thresholding will be applied here
  SELECT campaign_id, COUNT(*) AS num_impressions
  FROM adh.google_ads_impressions
)
JOIN campaign_date_ranges USING(campaign_id)

また、境界がわかっている粒度の値の MIN または MAX がある場合は、PERCENTILE_CONT と明示的な境界を使用して、近似結果を取得できます。

例:

SELECT
  campaign_id,
  COUNT(*) AS num_impressions,
  ADH.ANON_PERCENTILE_CONT(
    query_id.time_usec, 0,
    contribution_bounds_per_row => (@min_timestamp, @max_timestamp))
    AS min_timestamp,
  ADH.ANON_PERCENTILE_CONT(
    query_id.time_usec, 1,
    contribution_bounds_per_row => (@min_timestamp, @max_timestamp))
    AS max_timestamp
FROM adh.google_ads_impressions

整数の結果について

Ads Data Hub は上記の集計関数に自動的にノイズを挿入しますが、関数の署名は変更されません。INT64 の COUNT や SUM などの関数は INT64 を返すため、ノイズが含まれた結果の小数部分は四捨五入されます。丸められた数値は通常、結果とノイズのサイズに比べると無視できる程度のものです。

結果に小数点の粒度が必要な場合は、INT64 を返す関数を作成せずに、たとえば、入力を FLOAT64 にキャストする SUM を使用します。

負の結果について

原則として、値が非常に小さいノイズは、クエリで意味的に不可能である場合でも、負の数になる可能性があります。期待される動作を維持するため、COUNT と COUNTIF のすべての形式は自動的にゼロにクランプされるため、負の結果が返されることはありません。SUM などの別の関数で同じ動作が必要な場合は、GREATEST(0, SUM(...)) を使用して結果を手動でクランプできます。

通常、この変更は無視できる程度ですが、全体的な結果にわずかな正のバイアスが生じます。

一般公開グループ

GROUP BY 句を使用すると、クエリの匿名化された結果がグループごとに集計されます。集計のしきい値処理が適用され、個々のユーザーデータが保護されるように、グループに十分な数のユーザーが存在することが保証されます。どのグループをリリースできるかを判断するプロセスは「パーティション選択」と呼ばれます。

多くの場合、グループは一般に知られています。たとえば、ブラウザのバージョン、曜日、地域でグループ化する場合、グループ化キーの値が事前にわかっていれば、ユーザーデータに依存しません。この場合、出力にグループが存在するかどうかによってユーザーに関する新しい情報が得られないため、パーティションの選択を省略できます。

Ads Data Hub は、公開グループの対象となるクエリを特定し、これらのクエリに集計しきい値を適用しません。つまり、出力行はフィルタリングされません。ユーザー数が少ない場合に算出された結果は、ノイズの影響を大きく受ける可能性があります。

パブリックグループの対象となるには、すべてのグループ化キーが事前にわかっていることを保証するようにクエリを構造化する必要があります。グループ化列は次の条件を満たす必要があります。

これらは、一般公開テーブル（Ads Data Hub のユーザーデータを含まないテーブルまたは SELECT 句）から取得されます。
一意の値を適用するために SELECT DISTINCT が適用されています。
これらの列は、個々の列すべてに OUTER JOIN を使用してクエリに結合されます。

クエリが公開グループの対象となる場合、Ads Data Hub の UI に「結合は公開グループをサポートしており、集計のしきい値の対象外です」という検証メッセージが表示されます。

公開グループのクエリの例:

SELECT age_group_id, COUNT(*) FROM adh.google_ads_impressions
RIGHT OUTER JOIN (SELECT DISTINCT age_group_id FROM adh.age_group)
ON demographics.age_group = age_group_id
GROUP BY age_group_id

SELECT age_group_id, COUNT(*) FROM adh.google_ads_impressions
RIGHT OUTER JOIN (SELECT DISTINCT * FROM UNNEST([1, 2, 3]) AS age_group_id)
ON demographics.age_group = age_group_id
GROUP BY age_group_id

最初の例では、保護された adh.google_ads_impressions table が、age_group_id 列にユーザーデータを含まない adh.age_group テーブルと結合されています。同じ公開テーブルの age_group_id 列が GROUP BY 句に表示されます。

同様に、2 番目の例では、保護された adh.google_ads_impressions テーブルが、UNNEST([1, 2, 3]) として明示的に指定された公開テーブルと結合されています。どちらの例でも、グループ化キー age_group_id は公開テーブルから取得されます。

複数のグループ化アイテムを指定することもできます。例:

SELECT campaign_id, COUNT(*) FROM adh.google_ads_impressions
RIGHT OUTER JOIN (SELECT DISTINCT campaign_id, customer_id FROM adh.google_ads_campaign)
USING (campaign_id, customer_id)
GROUP BY campaign_id, customer_id

SELECT p.campaign_id, p.browser, COUNT(*) FROM adh.google_ads_impressions AS i
RIGHT OUTER JOIN (
 SELECT DISTINCT * FROM UNNEST([1, 2]) AS campaign_id
 CROSS JOIN UNNEST(['Chrome', 'Other']) AS browser
) AS p
 ON i.campaign_id = p.campaign_id AND i.browser = p.browser
GROUP BY campaign_id, browser;

公開グループのクエリでフィルタリングがないことは、繰り返し実行されるクエリにメリットがあります。出力は常に同じ固定グループ化キーの値に対して返されるためです。これは、たとえば定期的なダッシュボードの作成に特に役立ちます。

注意点: 公開テーブルに非常に多くのグループ化キー値が提供されている場合、データがほとんどまたはまったくない行が多数取得される可能性があります。これらの行はすべて、ノイズの影響が大きいと報告されます。この場合は、対象の値のみを含むキーの小さなリストを明示的に指定することを検討してください。

GROUP BY ROLLUP

GROUP BY ROLLUP は、GROUP BY 句を拡張して、グループ化リストで定義された階層に基づいて小計と合計を表す追加の行を含めます。Ads Data Hub では、GROUP BY ROLLUP はノイズインジェクションを使用する場合にのみ使用できます。構文は、標準の BigQuery 仕様に準拠しています。

一般公開グループでの合計の一貫性

ノイズインジェクションを使用すると、ノイズは集計の各レベルで個別に適用されます。つまり、合計が完全に一致するとは限らないため、小計の合計が総計と一致しないことがあります（たとえば、都市の数の合計がリージョンの合計と一致しないことがあります）。

GROUP BY ROLLUP を公開グループと組み合わせて使用すると、Ads Data Hub は結果の不整合を解消します。これは、しきい値処理によって結果がフィルタリングされないためです。たとえば、都市の数はそれぞれのリージョンの数に合計されます。（注: 整数結果の場合、浮動小数点数の丸め誤差により、わずかな差異が生じる可能性があります）。

ROLLUP で公開グループを使用するメリット

一貫性のある集計: 小計と総計が一致するようにします。
精度が向上: 整合性プロセスにより、データ全体の精度が向上します。ロールアップ階層の上位レベル（国レベルの集計など）は、より大きなデータセットに基づいており、相対的なノイズの影響が小さくなる傾向があります。上位レベルのより安定した情報は、ノイズが多く粒度の高いレベル（都市レベルの集計など）の品質を調整して改善するために使用されます。

これらのメリットを活かすため、可能な限り、公開グループで GROUP BY ROLLUP を使用することを強くおすすめします。

公開グループを使用した ROLLUP の例:

ROLLUP を単一のキーに置き換えます。

表を使用する場合:

SELECT country_code, COUNT(1) AS count
FROM adh.google_ads_impressions
RIGHT OUTER JOIN
 (SELECT DISTINCT country_code FROM adh.city)
 ON location.country = country_code
GROUP BY ROLLUP (country_code);

インラインリストを使用する場合:

SELECT country_code, COUNT(1) AS count
FROM adh.google_ads_impressions
RIGHT OUTER JOIN
 (SELECT DISTINCT * FROM UNNEST(['US', 'CA', 'CN', 'MX']) AS country_code)
 ON location.country = country_code
GROUP BY ROLLUP (country_code);

結果の例:

country_code	count
CN	6155
CA	16439
米国	256695
MX	10780
null	290067

country_code の NULL を含む行は、総合計を表します。個々の国のカウントの合計（290069）は、合計行（290067）に非常に近い値です。このわずかな差は、丸め処理によるものです。

複数のグループ化キーを含む ROLLUP:

SELECT p.campaign_id, p.browser, COUNT(*) as count
FROM adh.google_ads_impressions AS i
RIGHT OUTER JOIN (
 SELECT DISTINCT * FROM UNNEST([1, 2]) AS campaign_id
 CROSS JOIN UNNEST(['Chrome', 'Other']) AS browser
) AS p
 ON i.campaign_id = p.campaign_id AND i.browser = p.browser
GROUP BY ROLLUP (campaign_id, browser);

結果の例:

campaign_id	browser	count	注
1	Chrome	...
1	その他	...
2	Chrome	...
2	その他	...
1	null	...	campaign_id = 1 の小計
2	null	...	campaign_id = 2 の小計
null	null	...	総計

グループ化可能な商品セットを含む ROLLUP:

ロールアップ階層内で複数の列を 1 つの単位として扱うには、それらを括弧で囲みます（例: ROLLUP ((column1, column2), column3)）。これにより、ペア (campaign_id, browser) が単一のエンティティとしてロールアップされます。

GROUP BY ROLLUP ((campaign_id, browser)) は、次の小計を生成します。

(campaign_id, browser) - 最も粒度の細かいデータ
() - 合計

(campaign_id) のみの中間小計は作成されません。

SELECT p.campaign_id, p.browser, COUNT(*) AS count
FROM adh.google_ads_impressions AS i
RIGHT OUTER JOIN (
 SELECT DISTINCT * FROM UNNEST([1, 2]) AS campaign_id
 CROSS JOIN UNNEST(['Chrome', 'Other']) AS browser
) AS p
 ON i.campaign_id = p.campaign_id AND i.browser = p.browser
GROUP BY ROLLUP ((campaign_id, browser));

結果の例:

campaign_id	browser	count	注
1	Chrome	...
1	その他	...
2	Chrome	...
2	その他	...
null	null	...	総計

注意: ROLLUP を使用して階層レベルを多くしたり、グループ化キーの個別の値を多くしたりすると、出力行が大量に生成される可能性があります。これにより、Ads Data Hub の重複結果の上限によりエラーが発生する可能性があります。階層レベルの数とグループ化キーのカーディナリティは、比較的小さくすることをおすすめします。

サポートされているクエリパターン

重要: Ads Data Hub のほとんどの標準的なベストプラクティスは、ノイズインジェクションを使用するクエリにも適用されます。特に、同じデータの繰り返しクエリに関するガイダンスをご確認ください。

このセクションでは、ノイズインジェクションを使用してクエリを実行するときにサポートされるクエリパターンについて説明します。

ユーザーレベルの集計

ユーザーレベルでの無制限の集計は、差分チェックモードの場合と同じ方法でサポートされます。ノイズは、複数のユーザーにわたるデータを結合する集計にのみ注入されます。user_id で明示的にグループ化する集計、または user_id でパーティショニングする分析関数はノイズを受け取らず、どの関数も許可されます。user_id ごとに明示的にグループ化されていないユーザーレベルの集計（例: GROUP BY impression_id）は、ユーザー間の集計として扱われるため、ノイズが追加されます。

external_cookie ごとにグループ化するだけでは十分ではありません。external_cookie を使用して *_match テーブルと顧客所有のテーブルを結合することはできますが、単一ユーザーの集計は、external_cookie 列だけでなく user_id 列で明示的にグループ化する必要があります。

集計関数の例:

WITH user_paths AS (
  # Grouping by user_id, no noise needed, all functions allowed
  SELECT user_id, STRING_AGG(campaign_id, ">" ORDER BY query_id.time_usec) AS path
  FROM adh.google_ads_impressions
  GROUP BY 1
)
# Noise applied here to num_users
SELECT path, COUNT(*) AS num_users
FROM user_paths
GROUP BY 1;

分析関数の例:

WITH events AS (
  # Partitioning by user_id, no noise needed, all functions allowed
  SELECT
    campaign_id,
    ROW_NUMBER() OVER(PARTITION BY user_id ORDER BY query_id.time_usec) AS index
  FROM adh.google_ads_impressions
)
# Noise applied here to first_impressions
SELECT campaign_id, COUNT(*) AS first_impressions
FROM events
WHERE index = 1
GROUP BY 1;

並行集計

クロスユーザーの各集計は、独立してノイズを受け取ります。このような複数の集計は、1 つのステートメントで実行し、JOIN または UNION を使用して結果を 1 つのテーブルに結合できます。

例:

WITH result_1 AS (
  # Noise applied here to num_impressions
  SELECT campaign_id, COUNT(*) AS num_impressions
  FROM adh.google_ads_impressions
  GROUP BY 1
), result_2 AS (
  # Noise applied here to num_clicks
  SELECT campaign_id, COUNT(*) AS num_clicks
  FROM adh.google_ads_creative_conversions
  GROUP BY 1
)
SELECT * FROM result_1 JOIN result_2 USING(campaign_id)

この集計は、差分チェックモードでは回避する必要がありますが、ノイズモードでは各並行集計は個別にノイズ処理とフィルタ処理が行われるため、問題となりません。

未集計データと結合された集計データ

Ads Data Hub では user_id でパーティショニングされた分析ウィンドウのみがサポートされているため、これらの結果を個別に集計し、自己結合してから再度集計することが一般的な回避策です。これらのクエリはノイズモードでサポートされており、プライバシー要件が早めに解決されるため、多くの場合、差分チェックモードよりもパフォーマンスが向上します。

例:

WITH campaign_totals AS (
  # Noise applied here to campaign_imps
  SELECT campaign_id, COUNT(*) AS campaign_imps
  FROM adh.google_ads_impressions
  GROUP BY 1
)
# Noise applied here to imps
SELECT campaign_id, demographics, campaign_imps, COUNT(*) AS imps
FROM adh.google_ads_impressions JOIN campaign_totals USING(campaign_id)
GROUP BY 1,2,3

ノイズモードでは、AVG(campaign_imps) などの集計結果の再集計が推奨されていません。

サポートされていないクエリパターン

このセクションでは、ノイズインジェクションを使用するクエリ実行でサポートされていないクエリパターンについて説明します。

当日のデータのクエリ

ノイズモードクエリでは、当日のデータのクエリはサポートされません。（差分チェックモードでは推奨されていません）。現在の日付は、ノイズインジェクションを使用するクエリでは選択できません。

繰り返し結果

Ads Data Hub のノイズモードでは、同じ集計を繰り返す頻度が制限されています。この制限に達すると、データセット内の頻繁にクエリされる日付にノイズモードクエリを実行できなくなる可能性があります。以下は、この問題がどのように発生するかを示す例です。

クエリの繰り返しは、期間の重複など、同じパラメータまたは非常に類似したパラメータを使用して同じクエリが複数回実行される場合に発生します。これは、すでに BigQuery プロジェクトにエクスポートされているデータを使用することで回避できます。

2 つのジョブが重複する期間をクエリしている場合、同じユーザーに対して同じ計算を実行すると、繰り返しが発生する可能性があります。たとえば、重複する期間に対して実行される次のクエリは、日付でパーティショニングされているため、繰り返しが発生します。

SELECT DATE(TIMESTAMP_MICROS(event.event_time)) AS date,
COUNT(*) AS cnt
FROM adh.cm_dt_clicks
GROUP BY 1

この場合、重複していない日付セグメントに対してクエリを実行する必要があります。

繰り返しが発生する別の例は、データが日付にあまり依存していない場合です。次のクエリは、キャンペーンの全期間をカバーしている 2 つのジョブを重複する日付に実行すると、繰り返しが生成されます。

SELECT campaign_id, COUNT(*) AS cnt
FROM adh.google_ads_impressions
GROUP BY 1

この場合、結果は変わらないため、このクエリは 1 回だけ実行する必要があります。

集計の繰り返しは、クエリ内で同じ集計が複数回繰り返される場合に発生します。

SELECT COUNT(*) AS cnt1, COUNT(*) AS cnt2
FROM table

この場合、いずれかの繰り返しを削除する必要があります。

なお、集計が構文的に異なっていても同じ値を計算するなら、繰り返しとしてカウントされます。つまり、condition1 と condition2 の値が key の値を持つすべてのユーザーで同じである場合、次のクエリは繰り返しになります。

SELECT key, COUNTIF(condition1) AS cnt1, COUNTIF(condition2) AS cnt2
FROM table
GROUP BY key

ユーザーグループで非常によく似た条件がある場合は、COUNT を 1 つだけ持つようにクエリを書き直してください。

行の重複は、Ads Data Hub テーブルの各行が BigQuery テーブル内の複数の行と一致するような方法で、Ads Data Hub テーブルが BigQuery テーブルと結合されるときに発生します。たとえば、次のクエリでは、同じキャンペーン ID を持つ行が bq_table に複数ある場合に繰り返しが生成されます。

SELECT r.campaign_id, COUNT(*) AS cnt
FROM adh_table
INNER JOIN bq_table ON l.campaign_id = r.campaign_id

この場合、結合キー値（この場合は campaign_id）ごとに 1 行だけ bq_table に含まれるようにクエリを再構築する必要があります。

ほとんどのユーザーが同じ値の配列を持っている場合に、Ads Data Hub テーブルから配列のネストを解除すると同じ結果が生じる可能性があります。

SELECT in_market_id, COUNT(*)
FROM adh.dv360_youtube_impressions,
UNNEST(in_market) AS in_market_id
GROUP BY 1

原則として、同じ結果の計算は 10 回以下に制限する必要があります。しきい値に近づくと、Ads Data Hub に警告が表示されます。同じ結果がしきい値を超えて計算され続けると、ジョブはエラーでブロックされ始めます。

クエリの他のベストプラクティスについては、こちらをご覧ください。

ルックバックウィンドウについて

クエリパターンによっては、長期間にわたるレポートが生成され、新しい結果を含めるために定期的に再生成されます。これらのクエリは、ノイズモードで動作するように調整する必要がある場合があります。これは、以前の結果を再計算するとブロックされるためです。代わりに、各ジョブで新しい結果のみを生成し、新しい結果を以前のジョブの結果と組み合わせて完全なレポートを作成する必要があります。

たとえば、日付別に指標のレポートを作成し、毎日更新する場合:

SELECT
  campaign_id,
  DATE(TIMESTAMP_MICROS(query_id.time_usec), @time_zone) AS event_date,
  COUNT(*) AS impressions
FROM adh.google_ads_impressions
GROUP BY 1,2

過去の日の結果が再計算されるため、このコマンドを大きな日付範囲で実行しないでください。代わりに、新しいデータを含む最新の日にのみ各ジョブを実行し、前のジョブの結果と組み合わせる必要があります。複数のジョブの結果を 1 つのテーブルに収集する場合は、MERGE ステートメントの使用を検討してください。

以前の日付範囲を再計算して結果を更新することはできます（たとえば、遅れて到着したデータを考慮するため）。ただし、前述のように、単一の結果を何度も再計算することは避ける必要があります。

直接再集計

ノイズは、クエリ内のクロスユーザー集計の最初のレイヤに適用されます。複数の集計レイヤを含むクエリでは、ノイズのある結果が結合されるため、最終的な集計にはノイズがかなり多くなる可能性があります。これらのクエリでは、検証時に警告が表示されます。

WITH layer_1 AS (
  # Noise applied here to partial_result
  SELECT campaign_id, demographics, location, COUNT(*) AS partial_result
  FROM adh.google_ads_impressions
  GROUP BY 1,2,3
  HAVING partial_result > 5
)
# Reaggregation of partial_result with no user-level data, will be rejected
SELECT campaign_id, SUM(partial_result) AS final_result
FROM layer_1
GROUP BY 1

ノイズから最良の結果を得るには、単一の集計内ですべてのクロスユーザー演算を計算します。たとえば、中間カウントの SUM ではなく、イベントの SUM を取得します。

多層集計が避けられない場合は、代わりに最初のレイヤから結果を直接エクスポートすることで、警告を解決できます。スクリプトの結果を変更せずにこれを 1 つのジョブ内で行うには、OPTIONS(privacy_checked_export=true) 構文で一時テーブル（または BigQuery プロジェクトにエクスポートされたテーブル）を作成します。次に例を示します。

CREATE TEMP TABLE layer_1 OPTIONS(privacy_checked_export=true) AS (
  # Noise applied here to partial_result
  SELECT campaign_id, demographics, location, COUNT(*) AS partial_result
  FROM adh.google_ads_impressions
  GROUP BY 1,2,3
  HAVING partial_result > 5
);
# Reaggregation of privacy checked data, no noise needed
SELECT campaign_id, SUM(partial_result) AS final_result
FROM layer_1
GROUP BY 1

一時テーブルについて詳しくは、こちらをご覧ください。

集計の最初のレイヤがプライバシーチェックには粒度が高すぎる場合は、ユーザーレベルの集計を使用してクエリを書き直すことができます。これが不可能な場合、このクエリはノイズモードでは実行できません。

結合されていないユーザー ID

ノイズモードのクエリでは、ノイズを使用して集計を実行する場合を除き、別々のユーザーからのデータは 1 つの行に結合されません。そのため、未集計の Ads Data Hub データを結合する場合は、user_id 列で明示的に結合する必要があります。

以下のクエリは user_id 列に対して明示的に結合していないため、検証警告が発生します。

SELECT …
FROM adh.google_ads_impressions
JOIN adh.google_ads_creative_conversions USING(impression_id)

このような結合は、同じ user_id 値を持つ行のみが一致するため、期待どおりに動作しない可能性があります。このエラーは、USING 句を調整して user_id を明示的に含めること（例: USING(impression_id, user_id)）で修正できます。

なお、この制限は Ads Data Hub テーブル間の結合にのみ適用されます（ディメンションテーブルを除く）。顧客所有のテーブルには適用されません。たとえば、次は許可されています。

SELECT …
FROM adh.google_ads_impressions
JOIN bigquery_project.dataset.table USING(any_column)

Ads Data Hub と BigQuery の右結合

顧客所有データとの外部結合では、ユーザー識別子が欠落している行が発生する可能性があり、そうなるとノイズが適切に機能しなくなります。

以下のクエリでは、Ads Data Hub 側でユーザー識別子が欠落している不一致の行が許可されるため、どちらのクエリでも検証警告が発生します。

SELECT …
FROM adh.google_ads_impressions
RIGHT JOIN bigquery_project.dataset.table USING(column)

SELECT …
FROM bigquery_project.dataset.table
LEFT JOIN adh.google_ads_impressions USING(column)

なお、テーブルの順序が逆であったとしたら、どちらの結合も機能します。device_id_md5 で直接結合する RDID テーブルにも例外があります。たとえば、次のクエリは警告なしで動作します。

SELECT …
FROM bigquery_project.dataset.table
LEFT JOIN adh.google_ads_impressions_rdid USING(device_id_md5)

フィルタされた行の概要

フィルタされた行の概要仕様は、ノイズモードではサポートされていません。ノイズモードではフィルタリングレートが低く、差分チェックによるフィルタリングが発生しないため、ほとんどの場合この機能は不要です。

ノイズ結果で重要なデータフィルタリングが観察された場合は、集計データを増やします。データセット全体に対して並行集計を実行して、合計の推定値を比較できます。次に例を示します。

SELECT campaign_name, COUNT(*)
FROM data
GROUP BY 1
UNION ALL
SELECT 'Total', COUNT(*)
FROM data
GROUP BY 1

合計数には独立してノイズが含まれており、合計値が加算されない場合がありますが、多くの場合、ノイズが含まれた行の合計を取得するよりも合計数の方が正確になります。

クロスモードで作成されたテーブル

エクスポートされていない Ads Data Hub テーブルは、テーブルが作成されたときと同じプライバシーモードでのみ使用できます。最初に BigQuery にエクスポートされていない限り、通常の集計モードで作成したテーブルをノイズモードで使用することはできません。その逆も同様です。

ノイズ インジェクション コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

ノイズ インジェクションを使用する利点を学ぶ

ノイズがプライバシー要件に与える影響を学ぶ

ノイズ インジェクションが結果に与える影響を理解する

集計クランプについて

暗黙的なクランプ

明示的なクランプ

ノイズ インジェクションを使用してクエリを実行する

ノイズの影響を確認する

クエリを調整する

サポート対象の集計関数

補足的な集計関数

最小値と最大値を計算する

整数の結果について

負の結果について

一般公開グループ

GROUP BY ROLLUP

一般公開グループでの合計の一貫性

ROLLUP で公開グループを使用するメリット

公開グループを使用した ROLLUP の例:

サポートされているクエリパターン

ユーザーレベルの集計

並行集計

未集計データと結合された集計データ

サポートされていないクエリパターン

当日のデータのクエリ

繰り返し結果

ルックバック ウィンドウについて

直接再集計

結合されていないユーザー ID

Ads Data Hub と BigQuery の右結合

フィルタされた行の概要

クロスモードで作成されたテーブル

ノイズインジェクション

ノイズインジェクションを使用する利点を学ぶ

ノイズインジェクションが結果に与える影響を理解する

ノイズインジェクションを使用してクエリを実行する

ルックバックウィンドウについて