Cách Google tạo tiêu đề cho tài liệu bị sai lệch về ngôn ngữ hoặc chữ viết

Thứ Sáu, ngày 3 tháng 6 năm 2022

Tuần này, chúng tôi đã ra mắt một điểm cải tiến về thuật toán để xác định những tài liệu có thành phần tiêu đề được viết bằng một ngôn ngữ hoặc chữ viết khác với nội dung, từ đó chọn một tiêu đề sử dụng ngôn ngữ và chữ viết tương tự như của tài liệu. Cải tiến này dựa trên nguyên tắc chung: tiêu đề của một tài liệu phải được viết theo ngôn ngữ hoặc chữ viết của nội dung chính. Đây là một trong những lý do chúng tôi có thể sẽ khám phá các thông tin khác ngoài thành phần tiêu đề để tạo tiêu đề trong kết quả tìm kiếm trang web.

Tiêu đề đa ngôn ngữ

Tiêu đề đa ngôn ngữ lặp lại cùng một cụm từ cho hai ngôn ngữ hoặc chữ viết. Mẫu phổ biến nhất là thêm phiên bản tiếng Anh vào văn bản tiêu đề gốc.

गीतांजलि की जीवनी - Geetanjali Biography in Hindi

Trong ví dụ này, tiêu đề bao gồm hai phần (chia theo dấu gạch ngang) và thể hiện cùng một nội dung bằng nhiều ngôn ngữ (tiếng Hindi và tiếng Anh). Mặc dù tiêu đề có hai ngôn ngữ nhưng tài liệu chỉ được viết bằng tiếng Hindi. Hệ thống của chúng tôi phát hiện ra sự không nhất quán như vậy và có thể sẽ chỉ sử dụng văn bản tiêu đề bằng tiếng Hindi, chẳng hạn như:

गीतांजलि की जीवनी

Tiêu đề chữ Latinh

Chuyển tự là khi nội dung bằng một ngôn ngữ được chuyển sang ngôn ngữ khác có chữ viết hoặc bảng chữ cái khác. Ví dụ: giả sử tiêu đề trang cho một bài hát viết bằng tiếng Hindi nhưng được chuyển tự thành ký tự La-tinh thay vì chữ viết Devanagari gốc của tiếng Hindi:

jis desh me holi kheli jati hai

Trong trường hợp như vậy, hệ thống của chúng tôi sẽ cố gắng tìm tiêu đề thay thế sử dụng chữ viết trùng với chữ viết chủ yếu trên trang. Trong trường hợp này, đó có thể là:

जिस देश में होली खेली जाती है

Tóm tắt

Nhìn chung, hệ thống của chúng tôi thường sử dụng thành phần tiêu đề của trang. Trong trường hợp tiêu đề có nhiều ngôn ngữ hoặc bản chuyển tự, hệ thống của chúng tôi có thể tìm kiếm những lựa chọn thay thế phù hợp với ngôn ngữ chủ yếu trên trang. Đó là lý do bạn nên cung cấp tiêu đề phù hợp với ngôn ngữ và/hoặc chữ viết của nội dung chính trên trang.

Chúng tôi rất mong nhận được thêm ý kiến phản hồi trên diễn đàn của chúng tôi, bao gồm cả trên các chuỗi bài đăng hiện có về chủ đề này bằng tiếng Anhtiếng Nhật.