Hướng dẫn này giải thích thông tin quan trọng về dữ liệu mà bạn thấy trong các báo cáo được tạo bằng API Dữ liệu Google Analytics. Người dùng thường gặp phải sự khác biệt giữa dữ liệu do API trả về (cụ thể là phương thức runReport) và dữ liệu hiển thị trong giao diện người dùng Google Analytics.
Lấy mẫu và tổng hợp
Phương thức runReport của API Dữ liệu Google Analytics có thể trả về dữ liệu được lấy mẫu, đặc biệt là đối với các tập dữ liệu lớn hoặc truy vấn phức tạp. Mặc dù giao diện người dùng Google Analytics cũng áp dụng phương thức lấy mẫu, nhưng các ngưỡng và thuật toán cụ thể có thể khác nhau, dẫn đến sự khác biệt nhỏ về các giá trị được báo cáo.
Để biết kết quả của báo cáo có dựa trên một nhóm nhỏ dữ liệu có sẵn hay không, hãy kiểm tra trường samplingMetadatas của đối tượng ResponseMetaData. Nếu kết quả báo cáo được lấy mẫu, thì trường này sẽ mô tả tỷ lệ phần trăm sự kiện được sử dụng trong báo cáo này.
Một số phương thức báo cáo của API Dữ liệu Google Analytics cho phép bạn chỉ định cấp độ lấy mẫu mà bạn muốn. Bạn có thể sử dụng trường
samplingLevel
của phương thức properties.reportTasks.create
để kiểm soát cấp độ lấy mẫu của báo cáo.
Tính năng này cho phép các tài sản Google Analytics 360 truy cập vào giới hạn lấy mẫu cao hơn là 1 tỷ sự kiện. Ngoài ra, bạn có thể đặt giới hạn lấy mẫu thành UNSAMPLED để sử dụng kết quả chưa được lấy mẫu cho số lượng sự kiện lớn.
Để biết thêm thông tin, hãy xem bài viết Giới thiệu về phương thức lấy mẫu dữ liệu.
Phương pháp ước tính số lượng riêng biệt
API Dữ liệu Google Analytics sử dụng thuật toán HyperLogLog++ (HLL++) để ước tính số lượng riêng biệt cho các chỉ số như Số người dùng đang hoạt động và Số phiên. Phương pháp này được sử dụng trong API và giao diện người dùng Google Analytics để cải thiện hiệu suất và quản lý hiệu quả các tập dữ liệu lớn, nghĩa là kết quả là các giá trị ước tính chứ không phải số lượng chính xác.
Để biết thêm thông tin, hãy tham khảo các tài nguyên sau: Phương pháp ước tính số lượng riêng biệt trong Google Analytics và Sự khác biệt về số người dùng.
Ngưỡng dữ liệu
Google Analytics có thể áp dụng ngưỡng dữ liệu cho các báo cáo để ngăn việc xác định người dùng cá nhân dựa trên thông tin nhân khẩu học, mối quan tâm hoặc các tín hiệu khác có trong dữ liệu.
Nếu một hàng báo cáo chứa một số ít người dùng, thì hàng đó có thể bị loại trừ khỏi kết quả. Điều này thường xảy ra hơn trong các báo cáo có chứa phương diện có lượng số cao hoặc phương diện tuỳ chỉnh.
Để hiểu liệu báo cáo này có chịu ngưỡng dữ liệu hay không, hãy kiểm tra trường
subjectToThresholding
của đối tượng ResponseMetaData.
Để biết thêm thông tin, hãy xem bài viết Ngưỡng dữ liệu.
Hàng (other)
Nếu một phương diện có lượng số cao, thì Google Analytics có thể nhóm các giá trị ít phổ biến hơn vào một hàng có nhãn là (other). Điều này thường xảy ra hơn trong các báo cáo có chứa phương diện có hơn 500 giá trị riêng biệt mỗi ngày.
Khi sử dụng bộ lọc với Data API, hãy lưu ý rằng bộ lọc không tìm kiếm bên trong hàng (other) và được áp dụng sau khi dữ liệu đã được tổng hợp và hàng (other) đã được tạo.
Để biết một báo cáo có chứa dữ liệu được tổng hợp vào hàng (other) hay không,
hãy kiểm tra
dataLossFromOtherRow
trường của đối tượng ResponseMetaData.
Để biết thêm thông tin, hãy xem bài viết Hàng(other) trong Google Analytics 4.
Thông tin nhận dạng trong báo cáo
Thông tin nhận dạng trong báo cáo quyết định cách loại bỏ trùng lặp người dùng trong báo cáo. Các chế độ cài đặt thông tin nhận dạng khác nhau (chẳng hạn như "Kết hợp" hoặc "Dựa trên thiết bị") có thể dẫn đến số người dùng khác nhau cho cùng một phạm vi ngày.
Cả giao diện người dùng Google Analytics và Data API đều sử dụng cùng một chế độ cài đặt thông tin nhận dạng trong báo cáo cho tài sản của bạn. Nếu chế độ cài đặt này thay đổi, thì chế độ cài đặt này sẽ ảnh hưởng đến các báo cáo trong cả giao diện người dùng và API. Nếu chế độ cài đặt thay đổi giữa thời điểm chạy báo cáo trong giao diện người dùng và thời điểm lấy dữ liệu báo cáo thông qua API, thì số người dùng có thể khác nhau giữa hai báo cáo cho cùng một phạm vi ngày.
Mức độ cụ thể của truy vấn
Để giảm thiểu sự khác biệt, hãy đảm bảo rằng các tham số sau đây trong yêu cầu API của bạn khớp chính xác với các chế độ cài đặt trong báo cáo của giao diện người dùng Google Analytics:
- Phạm vi ngày: Xác minh rằng ngày bắt đầu và ngày kết thúc giống hệt nhau.
- Phương diện và chỉ số: Đảm bảo rằng các phương diện và chỉ số trong yêu cầu API của bạn giống với các phương diện và chỉ số trong báo cáo của giao diện người dùng Google Analytics.
- Bộ lọc: Đảm bảo rằng mọi bộ lọc phương diện hoặc chỉ số được áp dụng trong yêu cầu API đều khớp với các bộ lọc được sử dụng trong giao diện người dùng.
Việc thêm phương diện vào báo cáo có thể dẫn đến việc sử dụng ít sự kiện hơn trong các phép tính. Chỉ những sự kiện chứa dữ liệu cho các phương diện được yêu cầu mới được đưa vào báo cáo. Do đó, việc thêm phương diện vào truy vấn có thể làm thay đổi các giá trị tổng hợp cho chỉ số trong báo cáo.
Độ mới của dữ liệu
Google Analytics cần thời gian để xử lý và tổng hợp dữ liệu sự kiện. Khi làm việc với dữ liệu rất gần đây, bạn có thể thấy những điểm khác biệt nhỏ giữa các báo cáo nếu có độ trễ thời gian giữa các lần truy xuất dữ liệu. Ví dụ: nếu bạn xem một báo cáo trong giao diện người dùng rồi truy vấn API cho cùng một báo cáo vài phút sau đó, thì dữ liệu có thể đã thay đổi do quá trình xử lý và tổng hợp đang diễn ra.
Để biết thêm thông tin, hãy xem Độ mới của dữ liệu.
Các phương án thay thế cho dữ liệu chưa được lấy mẫu
Nếu trường hợp sử dụng của bạn yêu cầu dữ liệu đầy đủ, chưa được lấy mẫu ở cấp sự kiện, hãy cân nhắc sử dụng các phương án thay thế sau:
BigQuery Export: BigQuery Export cho Google Analytics
là phương thức được đề xuất để phân tích nâng cao dữ liệu sự kiện thô.
Analytics 360: Các tài sản có giấy phép Analytics 360 có giới hạn lấy mẫu cao hơn và quyền truy cập vào các tính năng báo cáo chi tiết hơn.