В этом руководстве объясняется важная информация о данных, которые вы видите в отчетах, созданных с помощью API данных Google Analytics. Пользователи часто сталкиваются с расхождениями между данными, возвращаемыми API (в частности, методом runReport ), и данными, отображаемыми в пользовательском интерфейсе Google Analytics.
Выборка и агрегирование
Метод runReport API данных Google Analytics может возвращать выборочные данные, особенно для больших наборов данных или сложных запросов. Хотя пользовательский интерфейс Google Analytics также применяет выборку, конкретные пороговые значения и алгоритмы могут отличаться, что приводит к незначительным различиям в отображаемых значениях.
Чтобы понять, основаны ли результаты отчета на подмножестве доступных данных, проверьте поле samplingMetadatas объекта ResponseMetaData . Если результаты отчета получены на основе выборки, это поле описывает процент событий, использованных в данном отчете.
Некоторые методы формирования отчетов в API данных Google Analytics позволяют указать желаемый уровень выборки. Для управления уровнем выборки отчета можно использовать поле samplingLevel метода properties.reportTasks.create .
Эта функция предоставляет ресурсам Google Analytics 360 доступ к более высоким пределам выборки — до 1 миллиарда событий. Кроме того, пределы выборки можно установить на UNSAMPLED , чтобы использовать результаты без выборки при большом количестве событий.
Для получения более подробной информации см. раздел «О выборке данных» .
Приблизительное количество уникальных
API данных Google Analytics использует алгоритм HyperLogLog++ (HLL++) для оценки количества уникальных пользователей для таких метрик, как «Активные пользователи» и «Сессии». Этот подход используется в API и пользовательском интерфейсе Google Analytics для повышения производительности и эффективного управления большими наборами данных, что означает, что результаты являются приблизительными, а не точными подсчетами.
Для получения дополнительной информации обратитесь к следующим ресурсам: Приближенное подсчет уникальных пользователей в Google Analytics и Различия в подсчете пользователей .
пороговое значение данных
Google Analytics может применять пороговые значения к отчетам, чтобы предотвратить идентификацию отдельных пользователей на основе демографических данных, интересов или других сигналов, присутствующих в данных.
Если строка отчета содержит небольшое количество пользователей, она может быть исключена из результатов. Это чаще встречается в отчетах, содержащих измерения с высокой кардинальностью или пользовательские измерения.
Чтобы понять, применяется ли к этому отчету пороговое значение, проверьте поле subjectToThresholding объекта ResponseMetaData .
Для получения более подробной информации см. раздел «Пороговые значения данных» .
(other) ряд
Если измерение имеет высокую кардинальность, Google Analytics может сгруппировать менее распространенные значения в строку с пометкой (other) . Это чаще встречается в отчетах, включающих измерения с более чем 500 уникальными значениями в день.
При использовании фильтров с Data API следует учитывать, что фильтры не ищут данные внутри (other) строки и применяются после агрегирования данных и создания (other) строки.
Чтобы понять, содержит ли отчет данные, объединенные в (other) строку, проверьте поле dataLossFromOtherRow объекта ResponseMetaData .
Для получения более подробной информации см. строку (другие) в Google Analytics 4 .
Идентификатор для сообщения
Идентификатор пользователя определяет, как происходит дедупликация пользователей в отчетах. Различные настройки идентификации (например, «Смешанная» или «На основе устройства») могут приводить к разным показателям количества пользователей за один и тот же период времени.
Как пользовательский интерфейс Google Analytics, так и API данных используют одну и ту же настройку идентификации для отчетов по вашему ресурсу. Если эта настройка будет изменена, это повлияет на отчеты как в пользовательском интерфейсе, так и в API. Если настройка будет изменена между запуском отчета в пользовательском интерфейсе и получением данных отчета через API, количество пользователей может отличаться в двух отчетах за один и тот же период времени.
Специфичность запроса
Чтобы свести к минимуму расхождения, убедитесь, что следующие параметры в вашем API-запросе точно соответствуют настройкам в отчете пользовательского интерфейса Google Analytics:
- Диапазоны дат : Убедитесь, что начальная и конечная даты совпадают.
- Размеры и метрики : Убедитесь, что размеры и метрики в вашем API-запросе совпадают с размерами и метриками в отчете пользовательского интерфейса Google Analytics.
- Фильтры : Убедитесь, что все фильтры по измерениям или метрикам, применяемые в запросе API, соответствуют фильтрам, используемым в пользовательском интерфейсе.
Добавление измерений в отчет может привести к уменьшению количества событий, используемых в вычислениях. В отчет включаются только события, содержащие данные для запрошенных измерений. В результате добавление измерений в запрос может изменить агрегированные значения метрик в отчете.
Актуальность данных
Google Analytics требует времени для обработки и агрегирования данных о событиях. При работе с очень свежими данными вы можете заметить незначительные различия между отчетами, если между запросами данных есть задержка. Например, если вы просматриваете отчет в пользовательском интерфейсе, а затем через несколько минут запрашиваете тот же отчет через API, данные могут измениться из-за продолжающейся обработки и агрегирования.
Для получения более подробной информации см. раздел «Актуальность данных» .
Альтернативы невыборочным данным
Если для вашего сценария использования требуются полные, невыборочные данные на уровне событий, рассмотрите следующие альтернативные варианты:
Экспорт в BigQuery : Экспорт в BigQuery для Google Analytics
Это рекомендуемый метод для углубленного анализа необработанных данных о событиях.
Analytics 360 : Объекты, имеющие лицензию Analytics 360, получают доступ к более высоким лимитам выборки и более подробным функциям составления отчетов.