Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Wstrzykiwanie szumu

Wstrzykiwanie szumu to metoda służąca do ochrony prywatności użytkowników podczas wysyłania zapytań do bazy danych. Polega ona na dodawaniu losowego szumu do agregującej klauzuli SELECT w zapytaniu. Ten szum chroni prywatność użytkowników, a zarazem zapewnia wystarczającą dokładność wyników, eliminuje potrzebę sprawdzania różnic i zmniejsza wymagany próg agregacji danych wyjściowych. Większość dotychczasowych zapytań można wykonywać w trybie szumu z pewnymi ograniczeniami.

Zalety wstrzykiwania szumu

Sprawdzanie różnic nie ma zastosowania: podczas wykonywania zapytań z wstrzykiwaniem szumu Centrum danych reklam nie odfiltrowuje wierszy ze względu na podobieństwo do wcześniejszych zbiorów wyników. Oznacza to, że zachowujesz całościowy wgląd w dane, a jednocześnie zapewniasz ochronę prywatności użytkowników.

Ułatwione rozwiązywanie problemów: wiersze są pomijane tylko z powodu wymagań agregacji, co ułatwia rozwiązywanie problemów i dostosowywanie zapytań.

Brak nowej składni do opanowania: aby używać szumu zamiast sprawdzania różnic, nie musisz się uczyć żadnej nowej składni zapytań ani poznawać szczegółowo zasad ochrony prywatności.

Podawana jest dokładność wyników: pomyślnie zakończone zadanie podaje łączny odsetek danych, na które szum mógł mieć wpływ.

Jak szum wpływa na wymagania dotyczące ochrony prywatności

Sprawdzanie różnic: wstrzykiwanie szumu nie korzysta z wyników dotychczasowego sprawdzania różnic w Centrum danych reklam. Gdy stosujesz wstrzykiwanie szumu, sprawdzanie różnic zostaje wyłączone.

Wymaganie agregacji: wstrzykiwanie szumu podaje dane o wyświetleniach pochodzące od co najmniej 20 unikalnych użytkowników oraz dane o kliknięciach lub konwersjach pochodzące od co najmniej 10 unikalnych użytkowników.

Kontrole statyczne: brak wpływu.

Limity dostępu do danych i zapytań: podobnie jak w przypadku sprawdzania różnic, wstrzykiwanie szumu ogranicza liczbę zapytań, które można wykonać na tym samym zbiorze danych. Ponowne obliczanie tych samych wyników zagregowanych w ramach jednego zapytania lub w wielu uruchomieniach zapytania może spowodować utratę dostępu do najczęściej używanych w zapytaniach dat w zbiorze danych. Może się to zdarzyć, jeśli wykonujesz zapytania typu „okno przesuwne” lub wielokrotnie wysyłasz to samo żądanie. Więcej informacji znajdziesz w sekcji Powtórzone wyniki.

Więcej informacji o mechanizmach kontroli prywatności

Jak wstrzykiwanie szumu wpływa na wyniki

Centrum danych reklam wstrzykuje szum, aby zmniejszyć ryzyko ujawnienia danych, czyli zagrożenie, że ktoś mógłby poznać informacje o pojedynczym użytkowniku. Ma to na celu zapewnienie równowagi między ochroną prywatności a użytecznością danych.

Wstrzykiwanie szumu w Centrum danych reklam przekształca wyniki zapytania w taki sposób:

Ogranicza w wynikach zbiorczych zakres danych użytkowników odstających od reszty. Sumuje dane poszczególnych użytkowników w każdej agregacji, a następnie nakłada na każdą porcję informacji minimalny i maksymalny próg ograniczenia zakresu.
Agreguje dane poszczególnych użytkowników objęte ograniczeniem zakresu.
Dodaje szum do każdego zagregowanego wyniku – wyniku każdego wywołania funkcji agregacji w każdym wierszu. Skala tego losowego szumu jest proporcjonalna do progów ograniczenia zakresu.
Oblicza w przypadku każdego wiersza liczbę użytkowników, których dane zawierają szum, i eliminuje wiersze ze zbyt małą liczbą użytkowników. Jest to podobne do k-anonimowości używanej w trybie sprawdzania różnic, ale ze względu na szum zadania wykonywane na tym samym zbiorze danych mogą pomijać inne wiersze. Poza tym w trybie szumu pomijane jest mniej wierszy ze względu na niższe wymagania dotyczące agregacji (około 20 w porównaniu do dokładnie 50).

Końcowy wynik to zbiór danych, w którym każdy wiersz zawiera wyniki zbiorcze z szumem i z którego zostały usunięte niewielkie grupy. Maskuje to wpływ poszczególnych użytkowników na zwracane wyniki.

Ograniczanie zakresu agregacji

Wstrzykiwanie szumu w Centrum danych reklam używa niejawnego lub jawnego ograniczania zakresu agregacji, aby zmniejszać udział danych użytkowników odstających od reszty. Typ stosowanego ograniczania zakresu możesz wybierać zależnie od swojego przypadku użycia.

Niejawne ograniczanie zakresu

Do jego stosowania nie potrzebujesz żadnej specjalnej składni języka SQL. Jest on stosowany domyślnie. Niejawne progi są wyznaczane na podstawie samych danych i określane dla każdej agregacji. Jeśli niektóre agregacje mają szerszy zakres wartości niż inne, niejawne ograniczanie zakresu może w odpowiedni sposób wywnioskować różne progi dla różnych agregacji. Zwykle powoduje to mniejszą liczbę błędów. Pamiętaj, że COUNT(DISTINCT user_id) automatycznie ogranicza wkład każdego użytkownika do 1.

Jawne ograniczanie zakresu

Jawne ograniczanie zakresu ogranicza ogół danych pochodzących od każdego użytkownika do wyznaczonego zakresu. Jawne progi są jednolicie stosowane do wszystkich agregacji i muszą być literałami. Jawne ograniczanie może dawać lepsze wyniki, gdy zakresy są ogólnie znane. Na przykład ograniczenie wieku do przedziału od 0 do 100 lat odzwierciedla informacje publiczne, ponieważ wiek większości osób mieści się w tym zakresie.

Centrum danych reklam udostępnia dodatkowe ADH.ANONfunkcje agregacji do jawnego ograniczania zakresu. Aby używać jawnego ograniczania zakresu, wyznacz progi dla każdej obsługiwanej funkcji agregującej, dodając liczby całkowite reprezentujące dolny i górny próg. Na przykład:

SELECT
campaign_name,
-- Set lower and upper bounds to 0 and 1, respectively
ADH.ANON_COUNT(*, contribution_bounds_per_group => (0,1))
FROM data
GROUP BY 1

Wykonywanie zapytania z użyciem wstrzykiwania szumu

Otwórz raport.
Kliknij przełącznik Ustawienia szumu do ochrony prywatności, aby był w pozycji Użyj szumu.
Wykonaj zapytanie.
Sprawdź wpływ dodanego szumu.
Opcjonalnie: dostosuj zapytanie, aby ograniczyć wpływ szumu.

Sprawdzanie wpływu szumu

Gdy zadanie zakończy się powodzeniem, Centrum danych reklam wyświetli w podsumowaniu dotyczącym ochrony prywatności stopień wiarygodności wyniku. Wiarygodność jest określana na podstawie odsetka komórek w danych wyjściowych, na które szum może mieć duży wpływ. Wpływ szumu na wartość w tabeli wyników uznaje się za duży, jeśli skala dodanego szumu przekracza 5% wyniku w komórce.

W przypadku zbiorów danych wyjściowych zawierających szum w podsumowaniu dotyczącym prywatności znajdziesz listę 10 najbardziej zaszumionych kolumn uszeregowanych w kolejności od najbardziej do najmniej zaszumionej. Przy każdej z nich zobaczysz też jej udział w szumie. Oto zestawienie etykiet dotyczących wpływu hałasu.

% wyników, na które ma to wpływ	Oznaczenie kolorem	Wpływ
<5%	Zielony	Mały wpływ
5–15%	Żółty	Średni wpływ
15–25%	Orange	Duży wpływ
>25%	Czerwony	Bardzo duży wpływ

Podsumowanie dotyczące prywatności w przypadku ostatnich zadań związanych z raportami możesz też wyświetlić na stronie Główna. Aby wyświetlić podgląd ustawień prywatności dla konkretnego zadania, najedź wskaźnikiem na ikonę wskazówki dotyczącej prywatności privacy_tip na karcie zadania w sekcji Ostatnia aktywność.

Dostosowywanie zapytań

Agregacje są bardziej narażone na szum, gdy w wyniku udział ma niewielu użytkowników. Może się to zdarzyć, gdy agregacje są obliczane na podstawie małych zbiorów użytkowników lub gdy niektórzy użytkownicy nie wpływają na wyniki, np. przy korzystaniu z funkcji COUNTIF. Na podstawie raportu o szumie możesz dostosować zapytanie, aby zmniejszyć odsetek wyników, na które ma on wpływ.

Oto ogólne wskazówki dotyczące sposobu postępowania:

Poszerz zakres danych.
Zmodyfikuj zapytanie, aby zmniejszyć szczegółowość danych, np. grupując parametry w celu zmniejszenia ich liczby lub zastępując funkcję COUNTIF funkcją COUNT.
Usuń zaszumione kolumny.
Wybierz jawne ograniczanie zakresu, gdy można wybrać rozsądne granice.

Obsługiwane funkcje agregujące

W przypadku tych funkcji agregacji można stosować wstrzykiwanie szumu:

SUM(...)
COUNT(*)
COUNT(...)
COUNTIF(...)
COUNT(DISTINCT ...)
APPROX_COUNT_DISTINCT(...)
AVG(...)

Słowo kluczowe DISTINCT jest obsługiwane tylko w przypadku funkcji COUNT. Gdy są używane z bezpośrednim odwołaniem do kolumny user_id z tabeli Centrum danych reklam lub wyrażenia, które zwraca wartość user_id lub NULL, np. COUNT(DISTINCT IF(..., user_id, NULL)), funkcje COUNT DISTINCT i APPROX_COUNT_DISTINCT(...) są obliczane przez ograniczenie wkładu poszczególnych użytkowników do wartości 1. Gdy COUNT DISTINCT odwołuje się do kolumny innej niż user_id, jest przybliżana za pomocą funkcji APPROX_COUNT_DISTINCT z niejawnym ograniczeniem.

Dodatkowe funkcje agregujące

Oprócz obsługi zwykłych agregatorów Centrum danych reklam wprowadza dodatkowe ADH.ANON funkcje agregacji, które obsługują jawne ograniczanie. Te agregatory mają taką samą składnię jak funkcje agregacji BigQuery z prywatnością różnicową, ale nie wymagają klauzuli WITH DIFFERENTIAL_PRIVACY:

ADH.ANON_SUM( ..., [ contribution_bounds_per_group => (lower_bound, upper_bound) ] )
ADH.ANON_COUNT( *, [ contribution_bounds_per_group => (lower_bound, upper_bound) ] )
ADH.ANON_COUNT( ..., [ contribution_bounds_per_group => (lower_bound, upper_bound) ] )
ADH.ANON_AVG( ..., [ contribution_bounds_per_group => (lower_bound, upper_bound) ] )
ADH.ANON_PERCENTILE_CONT( ..., percentile, contribution_bounds_per_row => (lower_bound, upper_bound) )
ADH.ANON_COUNT_DISTINCT( ..., [ max_contributions_per_group => upper_bound ] )

Parametry ADH.ANON_SUM, ADH.ANON_COUNT i ADH.ANON_AVG:

contribution_bounds_per_group: dane poszczególnych użytkowników są ograniczane w przypadku każdego podziału zdefiniowanego przez klucze GROUP BY. Górne i dolne ograniczenie jest stosowane do wartości w każdej grupie po zagregowaniu wartości na poziomie użytkownika.
lower_bound: Literał liczbowy reprezentujący najmniejszą wartość, która ma być uwzględniona w agregacji.
upper_bound: literał liczbowy reprezentujący największą wartość do uwzględnienia w agregacji.

Parametry ADH.ANON_PERCENTILE_CONT:

percentile: centyl do obliczenia, literał z zakresu [0, 1].
contribution_bounds_per_row: dane poszczególnych użytkowników są ograniczane w każdym wierszu (w każdym rekordzie). Pamiętaj, że w przypadku wartości procentowej wymagane są jawne ograniczenia, dlatego jest ona obsługiwana tylko jako funkcja dodatkowa.
lower_bound: Literał liczbowy reprezentujący najmniejszą wartość, która ma być uwzględniona w agregacji.
upper_bound: literał liczbowy reprezentujący największą wartość do uwzględnienia w agregacji.

Parametry ADH.ANON_COUNT_DISTINCT:

max_contributions_per_group: dane poszczególnych użytkowników są ograniczane w przypadku każdego podziału zdefiniowanego przez klucze GROUP BY. Górna granica ogranicza maksymalny wkład użytkownika w grupę po zagregowaniu wartości dla poszczególnych użytkowników.
upper_bound: literał liczbowy reprezentujący największą wartość do uwzględnienia w agregacji.

Obliczanie wartości MIN i MAX

Funkcje MIN i MAX nie są obsługiwane bezpośrednio w przypadku agregacji ze wstrzykiwaniem szumu, ale często istnieją alternatywne metody obliczania tych wyników.

Jeśli masz MIN lub MAX wartości, które mogą być używane jako klucze grupowania, np. datę zdarzenia, możesz najpierw użyć funkcji GROUP BY dla tej wartości, a następnie obliczyć MIN/MAX. Zwraca minimalną lub maksymalną wartość, która przekracza próg agregacji.

Przykład:

WITH campaign_date_ranges AS (
  SELECT campaign_id, MIN(event_date) AS min_date, MAX(event_date) AS max_date
  FROM (
    # Aggregation thresholding will be applied here
    SELECT DISTINCT
      campaign_id,
      DATE(query_id.time_usec, @time_zone) AS event_date
    FROM adh.google_ads_impressions
  )
)
SELECT campaign_id, num_impressions, min_date, max_date
FROM (
  # Noise and aggregation thresholding will be applied here
  SELECT campaign_id, COUNT(*) AS num_impressions
  FROM adh.google_ads_impressions
)
JOIN campaign_date_ranges USING(campaign_id)

Jeśli masz MIN lub MAX wartości szczegółowych o znanych granicach, możesz użyć funkcji PERCENTILE_CONT z jawnie określonymi granicami, aby uzyskać przybliżony wynik.

Przykład:

SELECT
  campaign_id,
  COUNT(*) AS num_impressions,
  ADH.ANON_PERCENTILE_CONT(
    query_id.time_usec, 0,
    contribution_bounds_per_row => (@min_timestamp, @max_timestamp))
    AS min_timestamp,
  ADH.ANON_PERCENTILE_CONT(
    query_id.time_usec, 1,
    contribution_bounds_per_row => (@min_timestamp, @max_timestamp))
    AS max_timestamp
FROM adh.google_ads_impressions

Wyniki w postaci liczb całkowitych

Chociaż Centrum danych reklam będzie automatycznie wstrzykiwać szum w przypadku tych funkcji agregacji, sygnatury funkcji nie ulegną zmianie. Funkcje takie jak COUNT i SUM stosowane do wartości INT64 zwracają wartości INT64, więc część dziesiętna zaszumionego wyniku jest zaokrąglona. Zwykle można to pominąć ze względu na wielkość wyniku i szumu.

Jeśli potrzebujesz wyniku z dokładnością do części dziesiętnej, unikaj używania w zapytaniu funkcji, które zwracają wartości INT64, np. korzystaj z funkcji SUM z danymi wejściowymi przekształconymi w wartości FLOAT64.

Informacje o wynikach negatywnych

Teoretycznie szum o bardzo małych wartościach może powodować powstawanie liczb ujemnych, nawet jeśli w przypadku danego zapytania jest to semantycznie niemożliwe. Aby zachować oczekiwane działanie, wszystkie formy COUNT i COUNTIF są automatycznie ograniczane do zera, więc nigdy nie dają wyników ujemnych. Jeśli chcesz uzyskać takie samo działanie w przypadku innej funkcji, np. SUM, możesz ręcznie ograniczyć wyniki za pomocą funkcji GREATEST(0, SUM(...)).

Ta zmiana jest zwykle nieistotna, ale wprowadza niewielkie dodatnie odchylenie do ogólnych wyników.

Grupy publiczne

W przypadku klauzuli GROUP BY zanonimizowane wyniki zapytania są agregowane w grupach. Stosujemy progi agregacji, aby zapewnić, że w grupie jest wystarczająca liczba użytkowników, co pozwala chronić dane użytkownika. Proces określania, które grupy można zwolnić, nazywa się „wyborem partycji”.

W wielu przypadkach grupy mogą być publicznie znane. Na przykład grupowanie według wersji przeglądarki, dnia tygodnia lub regionu geograficznego nie zależy od danych użytkownika, jeśli wartości klucza grupowania są znane z wyprzedzeniem. W tym przypadku wybór partycji można pominąć, ponieważ obecność lub brak grupy w danych wyjściowych nie dostarcza żadnych nowych informacji o użytkownikach.

Centrum danych reklam identyfikuje zapytania kwalifikujące się do grup publicznych i nie stosuje w ich przypadku progów agregacji. Oznacza to, że żadne wiersze wyjściowe nie są odfiltrowywane. Pamiętaj, że wyniki obliczone na podstawie danych od niewielkiej liczby użytkowników mogą być w dużym stopniu zniekształcone przez szum.

Aby kwalifikować się do grup publicznych, zapytanie musi być skonstruowane w taki sposób, aby wszystkie klucze grupowania były znane z wyprzedzeniem. Kolumny grupowania muszą spełniać te warunki:

Pochodzą one z tabeli publicznej (tabeli lub klauzuli SELECT bez danych użytkownika Centrum danych reklam).
Mają zastosowaną funkcję SELECT DISTINCT, aby wymusić unikalne wartości.
Są one łączone w zapytaniu za pomocą znaku OUTER JOIN we wszystkich poszczególnych kolumnach.

Gdy zapytanie kwalifikuje się do grup publicznych, w interfejsie Centrum danych reklam wyświetla się ten komunikat weryfikacyjny: „Złączenie obsługuje grupy publiczne i nie podlega progom agregacji”.

Przykłady zapytań dotyczących grup publicznych:

SELECT age_group_id, COUNT(*) FROM adh.google_ads_impressions
RIGHT OUTER JOIN (SELECT DISTINCT age_group_id FROM adh.age_group)
ON demographics.age_group = age_group_id
GROUP BY age_group_id

SELECT age_group_id, COUNT(*) FROM adh.google_ads_impressions
RIGHT OUTER JOIN (SELECT DISTINCT * FROM UNNEST([1, 2, 3]) AS age_group_id)
ON demographics.age_group = age_group_id
GROUP BY age_group_id

W pierwszym przykładzie chroniona tabela adh.google_ads_impressions table jest łączona z tabelą adh.age_group, która nie zawiera danych użytkowników w kolumnie age_group_id. Ta sama kolumna tabeli publicznej age_group_id pojawi się w klauzuli GROUP BY.

Podobnie w drugim przykładzie chroniona adh.google_ads_impressionstabela jest łączona z tabelą publiczną, która jest podana w sposób jawny jakoUNNEST([1, 2, 3]). Zwróć uwagę, że w obu przykładach klucz grupowaniaage_group_id pochodzi z tabeli publicznej.

Możesz też podać wiele elementów grupowania, np.:

SELECT campaign_id, COUNT(*) FROM adh.google_ads_impressions
RIGHT OUTER JOIN (SELECT DISTINCT campaign_id, customer_id FROM adh.google_ads_campaign)
USING (campaign_id, customer_id)
GROUP BY campaign_id, customer_id

SELECT p.campaign_id, p.browser, COUNT(*) FROM adh.google_ads_impressions AS i
RIGHT OUTER JOIN (
 SELECT DISTINCT * FROM UNNEST([1, 2]) AS campaign_id
 CROSS JOIN UNNEST(['Chrome', 'Other']) AS browser
) AS p
 ON i.campaign_id = p.campaign_id AND i.browser = p.browser
GROUP BY campaign_id, browser;

Brak filtrowania w zapytaniach dotyczących grup publicznych może być korzystny w przypadku zapytań uruchamianych cyklicznie, ponieważ dane wyjściowe są zawsze zwracane dla tych samych stałych wartości kluczy grupowania. Może to być szczególnie przydatne np. do tworzenia okresowych paneli.

Uwaga: jeśli tabela publiczna zawiera bardzo dużą liczbę wartości klucza grupowania, możesz otrzymać wiele wierszy z niewielką ilością danych lub bez danych. Wszystkie te wiersze będą zgłaszane jako mające duży wpływ szumu. W takim przypadku warto rozważyć podanie mniejszej listy kluczy zawierającej tylko interesujące Cię wartości.

GROUP BY ROLLUP

GROUP BY ROLLUP rozszerza klauzulę GROUP BY, aby uwzględnić dodatkowe wiersze reprezentujące sumy częściowe i sumy ogólne na podstawie hierarchii zdefiniowanej na liście grupowania. W Centrum danych reklam wartość GROUP BY ROLLUP jest dostępna tylko w przypadku używania wstrzykiwania szumu. Składnia jest zgodna ze standardową specyfikacją BigQuery.

Spójne sumy w grupach publicznych

Gdy stosowane jest wstrzykiwanie szumu, szum jest dodawany niezależnie na każdym poziomie agregacji. Oznacza to, że sumy nie muszą być w pełni spójne, więc sumy częściowe nie muszą się sumować do sum ogólnych (np. suma liczby miast może nie odpowiadać sumie regionu).

Jeśli używasz GROUP BY ROLLUP w połączeniu z grupami publicznymi, Centrum danych reklam wyeliminuje tę niespójność w wynikach. Jest to możliwe, ponieważ progi nie powodują odfiltrowania żadnych wyników. Oznacza to na przykład, że liczba miast będzie sumować się do liczby w odpowiednim regionie. (Uwaga: w przypadku wyników całkowitych mogą wystąpić niewielkie różnice spowodowane błędami zaokrąglania reprezentacji zmiennoprzecinkowej).

Korzyści z używania grup publicznych z funkcją ROLLUP

Spójne agregacje: zapewnia spójność sum częściowych i sum całkowitych.
Zwiększona dokładność: proces spójności zwiększa ogólną dokładność danych. Wyższe poziomy w hierarchii agregacji (np. agregacje na poziomie kraju) są oparte na większych zbiorach danych i zwykle mają mniejszy względny wpływ szumu. Te bardziej stabilne informacje z wyższych poziomów są wykorzystywane do dostosowywania i poprawiania jakości bardziej zaszumionych, bardziej szczegółowych poziomów (np. danych zbiorczych na poziomie miasta).

Zdecydowanie zalecamy używanie GROUP BY ROLLUP w przypadku grup publicznych, aby korzystać z tych zalet.

Przykłady funkcji ROLLUP z grupami publicznymi:

ROLLUP za pomocą jednego klawisza:

Korzystanie z tabeli:

SELECT country_code, COUNT(1) AS count
FROM adh.google_ads_impressions
RIGHT OUTER JOIN
 (SELECT DISTINCT country_code FROM adh.city)
 ON location.country = country_code
GROUP BY ROLLUP (country_code);

Korzystanie z listy w tekście:

SELECT country_code, COUNT(1) AS count
FROM adh.google_ads_impressions
RIGHT OUTER JOIN
 (SELECT DISTINCT * FROM UNNEST(['US', 'CA', 'CN', 'MX']) AS country_code)
 ON location.country = country_code
GROUP BY ROLLUP (country_code);

Przykładowy wynik:

country_code	count
CN	6155
CA	16439
US	256695
MX	10780
null	290067

Wiersz z wartością NULL w kolumnie country_code reprezentuje sumę ogólną. Suma liczby poszczególnych krajów, czyli 290 069, jest bardzo zbliżona do łącznej liczby w wierszu „Łącznie” (290 067). Niewielka różnica wynika z zaokrąglenia.

ROLLUP z wieloma kluczami grupowania:

SELECT p.campaign_id, p.browser, COUNT(*) as count
FROM adh.google_ads_impressions AS i
RIGHT OUTER JOIN (
 SELECT DISTINCT * FROM UNNEST([1, 2]) AS campaign_id
 CROSS JOIN UNNEST(['Chrome', 'Other']) AS browser
) AS p
 ON i.campaign_id = p.campaign_id AND i.browser = p.browser
GROUP BY ROLLUP (campaign_id, browser);

Przykładowy wynik:

campaign_id	przeglądarka	count	uwagi
1	Chrome	…
1	Inne	…
2	Chrome	…
2	Inne	…
1	null	…	Suma częściowa dla campaign_id = 1
2	null	…	Suma częściowa dla campaign_id = 2
null	null	…	Suma całkowita

ROLLUP z zestawami produktów, które można grupować:

Aby traktować wiele kolumn jako jedną jednostkę w hierarchii zbiorczej, umieść je w nawiasach, np. ROLLUP ((column1, column2), column3). Ta wartość jest sumowana w parach (campaign_id, browser) jako pojedynczy podmiot.

GROUP BY ROLLUP ((campaign_id, browser)) będzie generować sumy częściowe dla tych elementów:

(campaign_id, browser) – najbardziej szczegółowe
() – suma całkowita

Nie utworzy on sum pośrednich tylko dla (campaign_id).

SELECT p.campaign_id, p.browser, COUNT(*) AS count
FROM adh.google_ads_impressions AS i
RIGHT OUTER JOIN (
 SELECT DISTINCT * FROM UNNEST([1, 2]) AS campaign_id
 CROSS JOIN UNNEST(['Chrome', 'Other']) AS browser
) AS p
 ON i.campaign_id = p.campaign_id AND i.browser = p.browser
GROUP BY ROLLUP ((campaign_id, browser));

Przykładowy wynik:

campaign_id	przeglądarka	count	uwagi
1	Chrome	…
1	Inne	…
2	Chrome	…
2	Inne	…
null	null	…	Suma całkowita

Uwaga: użycie funkcji ROLLUP z wieloma poziomami hierarchicznymi lub dużą liczbą różnych wartości w kluczach grupowania może wygenerować dużą liczbę wierszy wyjściowych. Może to prowadzić do błędów ze względu na limity Ads Data Hub dotyczące powtarzających się wyników. Zalecamy, aby liczba poziomów hierarchicznych i kardynalność kluczy grupowania były stosunkowo małe.

Obsługiwane wzorce zapytań

Ważne: większość standardowych sprawdzonych metod dotyczących Centrum danych reklam ma też zastosowanie do zapytań, które używają wstrzykiwania szumu. W szczególności zalecamy zapoznanie się z poradami dotyczącymi wielokrotnego wysyłania zapytań o te same dane.

W tej sekcji omawiamy wzorce zapytań, które są obsługiwane w przypadku wykonywania zapytań objętych wstrzykiwaniem szumu.

Agregacje na poziomie użytkownika

Nieograniczone agregacje na poziomie użytkownika są obsługiwane w taki sam sposób jak w trybie sprawdzania różnic. Szum jest wstrzykiwany tylko w przypadku agregacji, które łączą dane różnych użytkowników. Agregacje, które jawnie grupują dane według parametru user_id, lub funkcje analityczne, które dzielą dane według parametru user_id, nie otrzymują żadnego szumu, a każda funkcja jest dozwolona. Agregacje na poziomie użytkownika, które nie wykonują jawnego grupowania według parametru user_id, np. GROUP BY impression_id, są traktowane jako agregacje danych różnych użytkowników, więc w ich przypadku następuje wstrzykiwanie szumu.

Grupowanie według parametru external_cookie nie wystarcza. Parametr external_cookie może być używany do łączenia tabel *_match z tabelami należącymi do klientów, ale wszystkie agregacje obejmujące pojedynczych użytkowników powinny być grupowane bezpośrednio według kolumny user_id, a nie tylko według kolumny external_cookie.

Przykład funkcji agregującej:

WITH user_paths AS (
  # Grouping by user_id, no noise needed, all functions allowed
  SELECT user_id, STRING_AGG(campaign_id, ">" ORDER BY query_id.time_usec) AS path
  FROM adh.google_ads_impressions
  GROUP BY 1
)
# Noise applied here to num_users
SELECT path, COUNT(*) AS num_users
FROM user_paths
GROUP BY 1;

Przykład funkcji analitycznej:

WITH events AS (
  # Partitioning by user_id, no noise needed, all functions allowed
  SELECT
    campaign_id,
    ROW_NUMBER() OVER(PARTITION BY user_id ORDER BY query_id.time_usec) AS index
  FROM adh.google_ads_impressions
)
# Noise applied here to first_impressions
SELECT campaign_id, COUNT(*) AS first_impressions
FROM events
WHERE index = 1
GROUP BY 1;

Agregacje równoległe

Każda agregacja danych różnych użytkowników otrzymuje szum z osobna. W pojedynczej instrukcji możesz zastosować kilka takich agregacji i połączyć wyniki w jedną tabelę za pomocą funkcji JOIN lub UNION.

Przykład:

WITH result_1 AS (
  # Noise applied here to num_impressions
  SELECT campaign_id, COUNT(*) AS num_impressions
  FROM adh.google_ads_impressions
  GROUP BY 1
), result_2 AS (
  # Noise applied here to num_clicks
  SELECT campaign_id, COUNT(*) AS num_clicks
  FROM adh.google_ads_creative_conversions
  GROUP BY 1
)
SELECT * FROM result_1 JOIN result_2 USING(campaign_id)

Pamiętaj, że będzie to obsługiwane, ale w trybie sprawdzania różnic należy tego unikać. Ta metoda nie stanowi problemu w przypadku szumu, ponieważ każda agregacja równoległa jest zaszumiana i filtrowana niezależnie.

Dane zagregowane złączone z danymi niezagregowanymi

Centrum danych reklam obsługuje tylko okna analityczne, które dzielą dane według parametru user_id, więc typową metodą obejścia tego ograniczenia jest osobne zagregowanie tych wyników i samodzielne ich złączenie przed ponowną agregacją. Te zapytania są obsługiwane w trybie szumu i często przynoszą wtedy lepsze efekty, niż gdyby były wykonywane w trybie sprawdzania różnic, ponieważ w ich przypadku wymagania dotyczące ochrony prywatności zostają spełnione na wcześniejszym etapie.

Przykład:

WITH campaign_totals AS (
  # Noise applied here to campaign_imps
  SELECT campaign_id, COUNT(*) AS campaign_imps
  FROM adh.google_ads_impressions
  GROUP BY 1
)
# Noise applied here to imps
SELECT campaign_id, demographics, campaign_imps, COUNT(*) AS imps
FROM adh.google_ads_impressions JOIN campaign_totals USING(campaign_id)
GROUP BY 1,2,3

Tryb szumu odradza ponowną agregację zagregowanych wyników, np. za pomocą funkcji AVG(campaign_imps).

Nieobsługiwane wzorce zapytań

W tej sekcji omawiamy wzorce zapytań, które nie są obsługiwane w przypadku wykonywania zapytań objętych wstrzykiwaniem szumu.

Zapytania uwzględniające bieżący dzień

Zapytania w trybie szumu nie obsługują danych z bieżącego dnia. (W trybie sprawdzania różnic należy tego unikać). W przypadku zapytań, które używają wstrzykiwania szumu, nie można wybrać bieżącej daty.

Powtórzone wyniki

W trybie szumu Centrum danych reklam ogranicza częstotliwość, z jaką możesz powtarzać tę samą agregację. Jeśli osiągniesz te limity, zapytania w trybie szumu utracą dostęp do najczęściej używanych dat w zbiorze danych. Poniżej podajemy przykłady, kiedy może to nastąpić.

Powtarzanie zapytania może nastąpić, gdy to samo zapytanie jest wykonywane kilka razy z identycznymi lub bardzo podobnymi parametrami, np. z nakładającymi się zakresami dat. Możesz tego uniknąć, używając danych, które zostały już wyeksportowane do projektu BigQuery.

Pamiętaj, że jeśli 2 zadania wykonują zapytania z pokrywającymi się zakresami dat, mogą powodować powtórzenia z powodu przeprowadzania tego samego obliczenia na identycznych użytkownikach. Na przykład to zapytanie wykonane w przypadku pokrywających się zakresów dat powoduje powtórzenie, ponieważ dzieli dane według daty:

SELECT DATE(TIMESTAMP_MICROS(event.event_time)) AS date,
COUNT(*) AS cnt
FROM adh.cm_dt_clicks
GROUP BY 1

W tej sytuacji wykonaj to zapytanie na rozłączonych segmentach danych.

Oto kolejny przykład powtórzenia, które następuje, gdy dane są w pewien sposób niezależne od daty. To zapytanie powoduje powtórzenie, gdy zostaje wykonane w przypadku pokrywających się dat, kiedy to oba zadania obejmują cały okres prowadzenia kampanii:

SELECT campaign_id, COUNT(*) AS cnt
FROM adh.google_ads_impressions
GROUP BY 1

W tej sytuacji wykonaj to zapytanie tylko raz, ponieważ nie zmieni to jego wyniku.

Powtórzenie agregacji następuje, gdy ta sama agregacja zostaje powtórzona kilka razy w obrębie jednego zapytania:

SELECT COUNT(*) AS cnt1, COUNT(*) AS cnt2
FROM table

W takiej sytuacji usuń jedno z powtórzeń.

Pamiętaj, że nawet wtedy, gdy agregacje różnią się pod względem składni, ale obliczają tę samą wartość, uznaje się to za powtórzenie. Inaczej mówiąc, jeśli wartości warunków condition1 i condition2 są identyczne dla wszystkich użytkowników z pewną wartością parametru key, to zapytanie spowoduje powtórzenie:

SELECT key, COUNTIF(condition1) AS cnt1, COUNTIF(condition2) AS cnt2
FROM table
GROUP BY key

Jeśli stosujesz warunki, które są bardzo podobne dla pewnych grup użytkowników, spróbuj zmodyfikować zapytanie, tak aby zawierało tylko jedną funkcję COUNT.

Powielanie wierszy następuje, gdy tabela Centrum danych reklam jest złączona z tabelą BigQuery w taki sposób, że każdy wiersz z tabeli Centrum danych reklam odpowiada kilku wierszom w tabeli BigQuery. Na przykład to zapytanie powoduje powtórzenie, jeśli w tabeli bq_table występuje kilka wierszy z tym samym identyfikatorem kampanii:

SELECT r.campaign_id, COUNT(*) AS cnt
FROM adh_table
INNER JOIN bq_table ON l.campaign_id = r.campaign_id

W tej sytuacji zmień strukturę zapytania, tak aby tabela bq_table zawierała tylko jeden wiersz na wartość klucza złączania (w tym przypadku campaign_id).

Pamiętaj, że cofnięcie umieszczenia tablicy w tabeli Centrum danych reklam może wywołać ten sam efekt, jeśli większość użytkowników ma te same tablice wartości:

SELECT in_market_id, COUNT(*)
FROM adh.dv360_youtube_impressions,
UNNEST(in_market) AS in_market_id
GROUP BY 1

Ogólnie zalecamy ograniczenie obliczania tych samych wyników do 10 razy lub mniej. Gdy zbliżysz się do progu, Centrum danych reklam będzie wyświetlać ostrzeżenia. Jeśli te same wyniki będą obliczane nadal po przekroczeniu progu, Twoje zadania zaczną być blokowane z powodu błędów.

Więcej informacji o innych sprawdzonych metodach dotyczących zapytań

Okresy ważności

Niektóre wzorce zapytań generują raporty w długim okresie, okresowo je odtwarzając, aby uwzględniać nowe wyniki. Aby zapytania działały w trybie szumu, mogą wymagać dostosowania, ponieważ jeśli ponownie obliczą poprzednie wyniki, zostaną zablokowane. Zamiast tego każde zadanie powinno generować tylko nowe wyniki, które można następnie połączyć z wynikami z poprzednich zadań, aby uzyskać pełny raport.

Jeśli na przykład tworzysz raport danych według daty, odświeżany codziennie:

SELECT
  campaign_id,
  DATE(TIMESTAMP_MICROS(query_id.time_usec), @time_zone) AS event_date,
  COUNT(*) AS impressions
FROM adh.google_ads_impressions
GROUP BY 1,2

Nie należy uruchamiać tego polecenia w przypadku dużego zakresu dat, ponieważ spowoduje to ponowne obliczenie wyników z poprzednich dni. Zamiast tego uruchamiaj każde zadanie tylko w najnowszym dniu, w którym są nowe dane, a potem łącz je z wynikami poprzednich zadań. Jeśli chcesz zebrać wszystkie wyniki w jednej tabeli w wielu zadaniach, rozważ użycie MERGE.

Możesz ponownie obliczyć poprzednie zakresy dat, aby odświeżyć wyniki (np. uwzględnić dane, które dotarły z opóźnieniem), ale unikaj wielokrotnego ponownego obliczania pojedynczych wyników, jak opisaliśmy wcześniej.

Bezpośrednia ponowna agregacja

Szum jest stosowany w zapytaniu do pierwszej warstwy agregacji danych różnych użytkowników. Zapytania z kilkoma warstwami agregacji będą łączyć zaszumione wyniki, więc wynikowe złączone dane mogą mieć znacznie wyższy poziom szumu. Te zapytania otrzymują ostrzeżenie podczas weryfikacji:

WITH layer_1 AS (
  # Noise applied here to partial_result
  SELECT campaign_id, demographics, location, COUNT(*) AS partial_result
  FROM adh.google_ads_impressions
  GROUP BY 1,2,3
  HAVING partial_result > 5
)
# Reaggregation of partial_result with no user-level data, will be rejected
SELECT campaign_id, SUM(partial_result) AS final_result
FROM layer_1
GROUP BY 1

Aby uzyskać najlepsze wyniki po zastosowaniu szumu, oblicz wszystkie operacje na danych różnych użytkowników w ramach jednej agregacji. Na przykład funkcję SUM stosuj do zdarzeń, a nie do pośrednich wyników obliczeń.

Jeśli agregacja wielowarstwowa jest nieunikniona, możesz rozwiązać problem, eksportując wyniki bezpośrednio z pierwszej warstwy. Aby to zrobić w ramach pojedynczego zadania bez zmiany wyników skryptu, utwórz tabelę tymczasową (lub tabelę eksportowaną do projektu BigQuery) ze składnią OPTIONS(privacy_checked_export=true). Na przykład:

CREATE TEMP TABLE layer_1 OPTIONS(privacy_checked_export=true) AS (
  # Noise applied here to partial_result
  SELECT campaign_id, demographics, location, COUNT(*) AS partial_result
  FROM adh.google_ads_impressions
  GROUP BY 1,2,3
  HAVING partial_result > 5
);
# Reaggregation of privacy checked data, no noise needed
SELECT campaign_id, SUM(partial_result) AS final_result
FROM layer_1
GROUP BY 1

Więcej informacji o tabelach tymczasowych

Jeśli pierwsza warstwa agregacji ma zbyt duży poziom szczegółowości z punktu widzenia mechanizmów kontroli prywatności, rozważ zmodyfikowanie zapytania, aby używać agregacji na poziomie użytkownika. Jeśli to nie jest możliwe, to zapytanie nie będzie obsługiwane w trybie szumu.

Rozłączone identyfikatory użytkowników

Zapytania w trybie szumu nie mogą łączyć w jednym wierszu danych pochodzących od osobnych użytkowników, chyba że w przypadku przeprowadzania agregacji z szumem. Z tego powodu złączenia niezagregowanych danych Centrum danych reklam powinny jawnie przeprowadzać złączenie w kolumnie user_id.

To zapytanie nie wykonuje jawnego złączenia danych w kolumnie user_id, co powoduje ostrzeżenie o błędzie weryfikacji:

SELECT …
FROM adh.google_ads_impressions
JOIN adh.google_ads_creative_conversions USING(impression_id)

Takie złączenia mogą nie działać zgodnie z oczekiwaniami, ponieważ będą pasować tylko wiersze o tej samej wartości user_id. Można to poprawić, modyfikując klauzulę USING, tak aby jawnie uwzględniała parametr user_id, np. USING(impression_id, user_id).

Pamiętaj, że to ograniczenie dotyczy tylko złączeń między tabelami Centrum danych reklam (z wyjątkiem tabel wymiarów). Nie odnosi się do tabel należących do klientów. Na przykład to jest dozwolone:

SELECT …
FROM adh.google_ads_impressions
JOIN bigquery_project.dataset.table USING(any_column)

Złączenia prawe danych Centrum danych reklam i BigQuery

Złączenia zewnętrzne z danymi należącymi do klientów mogą powodować powstawanie wierszy, w których brakuje identyfikatorów użytkowników, co uniemożliwia prawidłowe działanie szumu.

Oba te zapytania wywołują ostrzeżenia dotyczące weryfikacji, ponieważ umożliwiają powstawanie po stronie Centrum danych reklam niepasujących do siebie wierszy, w których brakuje identyfikatorów użytkowników:

SELECT …
FROM adh.google_ads_impressions
RIGHT JOIN bigquery_project.dataset.table USING(column)

SELECT …
FROM bigquery_project.dataset.table
LEFT JOIN adh.google_ads_impressions USING(column)

Pamiętaj, że każde z tych złączeń zadziałałoby, gdyby kolejność tabel była odwrotna. Wyjątkiem są też tabele identyfikatorów RDID, które są złączane bezpośrednio z użyciem device_id_md5. Na przykład to zapytanie będzie działać bez ostrzeżeń:

SELECT …
FROM bigquery_project.dataset.table
LEFT JOIN adh.google_ads_impressions_rdid USING(device_id_md5)

Podsumowanie wierszy po zastosowaniu filtra

Specyfikacja podsumowania wierszy po zastosowaniu filtra nie jest obsługiwana w trybie szumu. Gdy stosuje się szum, ta funkcja jest najczęściej zbędna z powodu niższych poziomów filtrowania i braku filtrowania w ramach sprawdzania różnic.

Jeśli w wyniku z szumem zauważysz znaczne filtrowanie danych, zwiększ ilość zagregowanych danych. Możesz przeprowadzić agregację równoległą na pełnym zbiorze danych, aby porównać prognozę łącznej liczby, np.:

SELECT campaign_name, COUNT(*)
FROM data
GROUP BY 1
UNION ALL
SELECT 'Total', COUNT(*)
FROM data
GROUP BY 1

Pamiętaj, że łączna liczba jest zaszumiana niezależnie, a łączne wartości mogą się nie sumować, jednak łączna liczba jest często dokładniejsza od sumy zaszumionych wierszy.

Tabele utworzone w różnych trybach

Niewyeksportowanych tabel w Centrum danych reklam można używać tylko w tym samym trybie ochrony prywatności, w którym je utworzono. Nie możesz utworzyć tabeli w normalnym trybie agregacji, a potem użyć jej w trybie szumu ani na odwrót (chyba że najpierw wyeksportujesz tę tabelę do BigQuery).

Wstrzykiwanie szumu Zadbaj o dobrą organizację dzięki kolekcji Zapisuj i kategoryzuj treści zgodnie ze swoimi preferencjami.

Zalety wstrzykiwania szumu

Jak szum wpływa na wymagania dotyczące ochrony prywatności

Jak wstrzykiwanie szumu wpływa na wyniki

Ograniczanie zakresu agregacji

Niejawne ograniczanie zakresu

Jawne ograniczanie zakresu

Wykonywanie zapytania z użyciem wstrzykiwania szumu

Sprawdzanie wpływu szumu

Dostosowywanie zapytań

Obsługiwane funkcje agregujące

Dodatkowe funkcje agregujące

Obliczanie wartości MIN i MAX

Wyniki w postaci liczb całkowitych

Informacje o wynikach negatywnych

Grupy publiczne

GROUP BY ROLLUP

Spójne sumy w grupach publicznych

Korzyści z używania grup publicznych z funkcją ROLLUP

Przykłady funkcji ROLLUP z grupami publicznymi:

Obsługiwane wzorce zapytań

Agregacje na poziomie użytkownika

Agregacje równoległe

Dane zagregowane złączone z danymi niezagregowanymi

Nieobsługiwane wzorce zapytań

Zapytania uwzględniające bieżący dzień

Powtórzone wyniki

Okresy ważności

Bezpośrednia ponowna agregacja

Rozłączone identyfikatory użytkowników

Złączenia prawe danych Centrum danych reklam i BigQuery

Podsumowanie wierszy po zastosowaniu filtra

Tabele utworzone w różnych trybach

Wstrzykiwanie szumu