Phân loại chủ đề

Đọc cách dự đoán chủ đề, cách chỉ định chủ đề cho trình duyệt của người dùng và cách người dùng có thể kiểm soát danh sách chủ đề.

Trạng thái triển khai

Chủ đề là gì?

Trong Topics API, một chủ đề là một chủ đề mà người dùng quan tâm, bằng chứng là các trang web mà họ truy cập.

Chủ đề là tín hiệu giúp các nền tảng công nghệ quảng cáo chọn quảng cáo phù hợp. Không giống như cookie của bên thứ ba, thông tin này được chia sẻ mà không tiết lộ thêm thông tin về chính người dùng hoặc hoạt động duyệt web của người dùng.

Topics API cho phép các bên thứ ba (chẳng hạn như nền tảng công nghệ quảng cáo) quan sát và sau đó truy cập vào các chủ đề mà người dùng quan tâm. Ví dụ: API có thể đề xuất chủ đề "Nghệ thuật sợi và dệt" cho người dùng truy cập trang web knitting.example.

Danh sách các chủ đề mà Topics API sử dụng là danh sách công khai, do con người chọn lọc, con người có thể đọc được và được thiết kế để tránh các danh mục nhạy cảm. Đây là danh sách hiện tại và sẽ mở rộng theo thời gian. Danh sách này có cấu trúc dưới dạng hệ thống phân loại. Các chủ đề có thể bao quát hoặc cụ thể hơn. Ví dụ: Food & Drink là một danh mục rộng, với danh mục phụ là Cooking & Recipes. Các danh mục phụ có thể được chia thành các danh mục phụ bổ sung.

Cách phân loại chủ đề như vậy cần phải đánh đổi giữa sự hữu dụng và quyền riêng tư. Nếu các chủ đề quá cụ thể, thì chúng có thể được dùng để nhận dạng một người dùng cá nhân. Nếu quá chung chung, thì chúng không hữu ích để chọn quảng cáo hoặc nội dung khác.

Hệ thống phân loại chủ đề được xây dựng theo hai yêu cầu cơ bản:

  • Hỗ trợ quảng cáo dựa trên mối quan tâm
  • Giữ an toàn cho người dùng và bảo vệ quyền riêng tư của họ

Việc này sẽ gợi ý cho bạn một vài câu hỏi. Ví dụ:

  • Đâu là cách tốt nhất để API dự đoán những chủ đề mà người dùng quan tâm dựa trên hoạt động duyệt web của họ mà vẫn bảo vệ quyền riêng tư của người dùng?
  • Thiết lập cấu trúc phân loại như thế nào để giấy tờ này hữu ích hơn?
  • Phân loại phải bao gồm những mục cụ thể nào?

Cách API dự đoán chủ đề cho một trang web

Các chủ đề bắt nguồn từ mô hình phân loại giúp liên kết tên máy chủ của trang web với không hoặc nhiều chủ đề. Việc phân tích thông tin bổ sung (chẳng hạn như URL đầy đủ hoặc nội dung trang) có thể giúp hiển thị quảng cáo phù hợp hơn, nhưng cũng có thể làm giảm quyền riêng tư.

Mô hình thuật toán phân loại giúp ánh xạ tên máy chủ đến các chủ đề được cung cấp công khai và như trình giải thích lưu ý, bạn có thể xem các chủ đề trên một trang web thông qua các công cụ dành cho nhà phát triển của trình duyệt. Mô hình này dự kiến sẽ phát triển và cải tiến theo thời gian, cũng như được cập nhật định kỳ. Chúng tôi vẫn đang xem xét tần suất của việc này.

Chỉ những trang web có chứa mã gọi Topics API mới được đưa vào nhật ký duyệt web đủ điều kiện để tính toán tần suất chủ đề, còn lệnh gọi API chỉ nhận được những chủ đề mà họ đã quan sát được. Nói cách khác, các trang web không đủ điều kiện tính toán tần suất chủ đề nếu không có trang web hoặc dịch vụ được nhúng gọi API.

Ngoài ra, người gọi chỉ có thể nhận các chủ đề mà mã của họ đã "nhìn thấy". Vì vậy, nếu mã của một người gọi khác đăng ký một chủ đề, chẳng hạn như /Autos & Vehicles/Motor Vehicles (By Type)/Hatchbacks, cho trình duyệt của người dùng và mã của bạn không khiến chủ đề đó được đăng ký cho trình duyệt của người dùng đó, thì bạn sẽ không thể tìm hiểu về chủ đề mà họ quan tâm trên trình duyệt của người dùng đó khi gọi API qua mã đã nhúng. Xin lưu ý rằng vì API hiện bao gồm các đối tượng cấp trên như đã được quan sát, nên ví dụ ở trên, /Autos & Vehicles/Motor Vehicles (By Type)/Hatchbacks, cũng sẽ khiến Autos & VehiclesMotor Vehicles được quan sát.

Các chủ đề được trả về cho người dùng được tính toán lại cho phương thức gọi, tuỳ thuộc vào trang web cấp cao nhất. Ví dụ: nếu adtech.example yêu cầu chủ đề của người dùng trên news-a.example, sau đó vào news-b.example và sau đó là news-c.example, các chủ đề được trả về sẽ được tính toán lại trên từng trang web. Điều này có nghĩa là phương thức gọi có thể nhận được các chủ đề khác nhau cho người dùng trên các trang web cấp cao nhất khác nhau, vì 3 chủ đề (tối đa) trả về cho người dùng được chọn ngẫu nhiên trong 5 chủ đề hàng đầu trong 3 khoảng thời gian bắt đầu của hệ thống vừa qua (với tỷ lệ 5% cơ hội nhận được một chủ đề ngẫu nhiên). Điều này khiến phương thức gọi khó xác định người dùng theo chủ đề của họ hơn vì các chủ đề có thể sẽ khác nhau trên các trang web cấp cao nhất khác nhau (ngay cả đối với cùng một người dùng, người gọi và thời gian bắt đầu của hệ thống).

Mô hình thuật toán phân loại

Các chủ đề được tuyển chọn theo cách thủ công cho 50.000 miền hàng đầu và hoạt động tuyển chọn này được dùng để huấn luyện thuật toán phân loại. Bạn có thể tìm thấy danh sách này trong override_list.pb.gz (có tại chrome://topics-internals/ của mô hình hiện tại) trong thẻ Classifier (Trình phân loại). Các mối liên kết giữa miền với chủ đề trong danh sách được API sử dụng thay cho kết quả của chính mô hình.

Trang chrome://topics-internals, trong đó bảng điều khiển Phân loại đã được chọn.
Bảng điều khiển Trình phân loại trang chrome://topics-internals liệt kê phiên bản mô hình, đường dẫn của mô hình và các chủ đề liên kết với từng máy chủ được liệt kê.

Để chạy trực tiếp mô hình, hãy tham khảo hướng dẫn chạy mô hình của TensorFlow.

Để kiểm tra tệp override_list.pb.gz, trước tiên, hãy giải nén tệp này:

gunzip -c override_list.pb.gz > override_list.pb

Sử dụng protoc để kiểm tra dưới dạng văn bản:

protoc --decode_raw < override_list.pb > output.txt

hệ thống phân loại đầy đủ của các chủ đề có mã nhận dạng trên GitHub.

Đưa ra ý kiến phản hồi hoặc dữ liệu đầu vào về mô hình thuật toán phân loại

một số kênh gửi ý kiến phản hồi về Topics API. Để có ý kiến phản hồi về mô hình thuật toán phân loại, bạn nên gửi vấn đề trên GitHub hoặc trả lời vấn đề hiện có. Ví dụ:

Cách hệ thống lựa chọn 5 chủ đề hàng đầu của người dùng

API trả về 1 chủ đề cho mỗi khoảng thời gian bắt đầu của hệ thống, tối đa 3 chủ đề. Nếu có 3 chủ đề được trả về, thì dữ liệu này bao gồm cả các chủ đề trong khoảng thời gian bắt đầu của hệ thống hiện tại và 2 chủ đề trước đó.

  1. Vào cuối mỗi khoảng thời gian bắt đầu của hệ thống, trình duyệt sẽ biên dịch một danh sách các trang đáp ứng các tiêu chí sau:
    • Người dùng đã truy cập trang này trong khoảng thời gian bắt đầu của hệ thống.
    • Trang này chứa mã gọi document.browsingTopics().
    • API đã được bật (ví dụ: không bị người dùng chặn hoặc qua một tiêu đề phản hồi).
  2. Trên thiết bị của người dùng, trình duyệt sẽ sử dụng mô hình thuật toán phân loại do Topics API cung cấp để liên kết tên máy chủ của mỗi trang với danh sách chủ đề.
  3. Trình duyệt sẽ tích luỹ danh sách chủ đề.
  4. Trình duyệt tạo danh sách năm chủ đề hàng đầu theo tần suất.

Sau đó, phương thức document.browsingTopics() sẽ trả về một chủ đề ngẫu nhiên trong 5 chủ đề hàng đầu cho mỗi khoảng thời gian bắt đầu của hệ thống, với xác suất 5% khả năng bất kỳ chủ đề nào trong số này đều có thể được chọn ngẫu nhiên từ hệ thống phân loại đầy đủ các chủ đề. Trong Chrome, người dùng cũng có thể xoá từng chủ đề hoặc xoá nhật ký duyệt web để giảm số lượng chủ đề mà API trả về. Người dùng cũng có thể chọn không sử dụng API này.

Bạn có thể xem thông tin về các chủ đề được ghi nhận trong khoảng thời gian bắt đầu của hệ thống hiện tại trên trang chrome://topics-internals.

Cách API quyết định phương thức gọi nào thấy chủ đề nào

Phương thức gọi API chỉ nhận được những chủ đề mà họ quan sát gần đây, và các chủ đề cho người dùng sẽ được làm mới sau mỗi khoảng thời gian bắt đầu của hệ thống. Điều đó có nghĩa là API này cung cấp một khoảng thời gian chuyển đổi, trong đó một phương thức gọi nhất định có thể nhận được một số chủ đề nhất định.

Bảng dưới đây trình bày một ví dụ (mặc dù thực tế không hề nhỏ) về nhật ký duyệt web giả định của người dùng trong một khoảng thời gian bắt đầu của hệ thống, cho thấy các chủ đề liên quan đến các trang web mà họ đã truy cập và phương thức gọi API xuất hiện trên mỗi trang web (các thực thể gọi document.browsingTopics() trong mã JavaScript có trên trang web).

Trang web Chủ đề Phương thức gọi API trên trang web
yoga.example Thể dục công nghệ quảng cáo 1.ví dụ về công nghệ quảng cáo 2.ví dụ
knitting.example Nghề thủ công adtech1.example
đi bộ đường dài ngày lễ.example Thể dục, du lịch và vận tải adtech2.example
ví dụ về tự làm quần áo Thủ công, thời trang và phong cách [không có]

Khi kết thúc thời gian bắt đầu của hệ thống (hiện là một tuần), Topics API sẽ tạo những chủ đề hàng đầu trong tuần của trình duyệt.

  • Công nghệ quảng cáo1.example hiện đã đủ điều kiện nhận chủ đề "Thể dục" và "Thủ công", vì đã quan sát thấy những chủ đề này trên yoga.example cũng như trên knitting.example.
  • Công nghệ quảng cáo.example không đủ điều kiện để nhận chủ đề "Du lịch và vận tải" cho người dùng này vì chủ đề này không xuất hiện trên bất kỳ trang web nào mà người dùng truy cập gần đây có liên kết với chủ đề đó.
  • Công nghệ quảng cáo 2.example đã thấy chủ đề "Thể dục" và "Du lịch và vận tải", nhưng chưa thấy chủ đề "Thủ công".

Người dùng đã truy cập vào trang web diy-clothing.example, trang này có chủ đề "Thời trang và phong cách", nhưng không có lệnh gọi nào đến Topics API trên trang web đó. Tại thời điểm này, điều này có nghĩa là API sẽ không trả về chủ đề "Thời trang và phong cách" cho bất kỳ phương thức gọi nào.

Trong tuần thứ hai, người dùng truy cập vào một trang web khác:

Trang web Chủ đề Phương thức gọi API trên trang web
sewing.example Nghề thủ công adtech2.example

Ngoài ra, đoạn mã từ cuối cùng 2.example sẽ được thêm vào diy-clothing.example:

Trang web Chủ đề Phương thức gọi API trên trang web
ví dụ về tự làm quần áo Thủ công, thời trang và phong cách adtech2.example

Cũng như "Thể dục" và "Du lịch và vận tải" từ tuần 1, điều này có nghĩa là công nghệ quảng cáo 2.example hiện sẽ có thể nhận được chủ đề "Thủ công" và "Thời trang và phong cách" — nhưng chưa đến thời điểm bắt đầu sau của hệ thống là tuần 3. Điều này đảm bảo rằng các bên thứ ba không thể tìm hiểu thêm về quá khứ của người dùng (trong trường hợp này là mối quan tâm về thời trang) bằng cookie.

Sau hai tuần nữa, "Thể dục" và "Du lịch và vận tải" có thể bị loại khỏi danh sách các chủ đề đủ điều kiện của công nghệ quảng cáo 2.example nếu người dùng không truy cập vào bất kỳ trang web nào có những chủ đề có chứa mã từ công nghệ quảng cáo 2.example.

Quyền kiểm soát của người dùng, tính minh bạch và chọn không tham gia

Người dùng phải hiểu được mục đích của Topics API, nhận ra nội dung đang nói về API đó, biết thời điểm API được sử dụng và được cung cấp các chế độ kiểm soát để bật hoặc tắt API đó.

Cách phân loại dễ đọc của API cho phép người dùng tìm hiểu và kiểm soát các chủ đề có thể được trình duyệt đề xuất cho họ. Người dùng có thể xoá những chủ đề mà họ đặc biệt không muốn Topics API chia sẻ với nhà quảng cáo hoặc nhà xuất bản. Ngoài ra, họ còn có các chế độ kiểm soát để thông báo cho người dùng về API cũng như chỉ cho họ cách bật hoặc tắt API. Chrome cung cấp thông tin và chế độ cài đặt cho Topics API tại chrome://settings/adPrivacy. Ngoài ra, các chủ đề sẽ không xuất hiện đối với phương thức gọi API ở Chế độ ẩn danh và các chủ đề sẽ bị xoá khi nhật ký duyệt web bị xoá.

Danh sách chủ đề được trả về sẽ trống nếu:

  • Người dùng chọn không sử dụng Topics API thông qua chế độ cài đặt của trình duyệt tại chrome://settings/adPrivacy.
  • Người dùng đã xoá chủ đề (thông qua phần cài đặt của trình duyệt tại chrome://settings/adPrivacy) hoặc xoá cookie.
  • Trình duyệt đang ở Chế độ ẩn danh.

Phần giải thích này cung cấp thêm thông tin chi tiết về các mục tiêu về quyền riêng tư và cách API tìm cách để giải quyết các mục tiêu đó.

Chọn không sử dụng trang web

Ngoài việc người dùng có thể chọn không sử dụng, bạn cũng có thể chọn không sử dụng Chủ đề cho trang web hoặc các trang trên đó. Hướng dẫn cho nhà phát triển giải thích cách thực hiện.

Sử dụng Topics API trên các trang web có prebid.js

Như đã nêu trong bản phát hành Prebid 7, cộng đồng đã tích cực tích hợp với Topics API thông qua một mô-đun mới. Học phần này được hợp nhất vào tháng 12 năm 2022.

Tìm hiểu thêm tại đây:

  • Đọc tài liệu về mô-đun Topics API của Prebid.
  • Để biết thêm thông tin, hãy liên hệ với Prebid.js thông qua bất kỳ kênh chuẩn nào mà họ cung cấp.

Các bước tiếp theo

Thu hút và chia sẻ ý kiến phản hồi