Xử lý trang web đa ngôn ngữ

Thứ Sáu, ngày 19 tháng 3 năm 2010

Trang web đa ngôn ngữ là trang web cung cấp nội dung bằng nhiều ngôn ngữ. Ví dụ về trang web đa ngôn ngữ: một doanh nghiệp Canada cung cấp phiên bản tiếng Anh và tiếng Pháp cho trang web của họ hoặc một blog về bóng đá ở Châu Mỹ La-tinh có nội dung viết bằng cả tiếng Tây Ban Nha và Bồ Đào Nha.

Thông thường, việc tạo một trang web đa ngôn ngữ sẽ phù hợp khi đối tượng mục tiêu của bạn là người dùng sử dụng nhiều ngôn ngữ khác nhau. Nếu blog của bạn là về bóng đá Mỹ La-tinh và muốn tiếp cận bạn đọc từ Brazil, thì bạn có thể chọn chỉ xuất bản blog đó bằng tiếng Bồ Đào Nha. Nhưng nếu bạn cũng muốn tiếp cận người hâm mộ bóng đá ở Argentina thì việc cung cấp nội dung bằng tiếng Tây Ban Nha có thể giúp ích cho bạn.

Google và tính năng nhận dạng ngôn ngữ

Google cố gắng xác định các ngôn ngữ chính của từng trang. Bạn có thể giúp việc nhận dạng ngôn ngữ trở nên dễ dàng hơn nếu chỉ sử dụng một ngôn ngữ cho mỗi trang và tránh việc hiện bản dịch song song với bản gốc. Tuy Google có thể nhận dạng những trang sử dụng nhiều ngôn ngữ, nhưng bạn nên dùng cùng một ngôn ngữ cho mọi phần tử của trang: tiêu đề, thanh bên, trình đơn, v.v.

Xin lưu ý rằng Google bỏ qua mọi thông tin ngôn ngữ cấp mã, từ thuộc tính "lang" cho đến Định nghĩa loại tài liệu (Document Type Definition, DTD). Một số chương trình chỉnh sửa web tự động tạo các thuộc tính này nên chúng không đủ chính xác để dùng cho việc xác định ngôn ngữ của trang web.

Khi truy cập vào Google và tìm kiếm bằng ngôn ngữ của mình, mọi người kỳ vọng có thể tìm thấy kết quả tìm kiếm đã bản địa hoá. Đây chính là nơi cần bạn (với vai trò quản trị viên trang web): nếu bạn định bản địa hoá, hãy khiến nội dung đó xuất hiện trong kết quả tìm kiếm qua một số mẹo của chúng tôi dưới đây.

Phân tích các thành phần của một trang web đa ngôn ngữ: cấu trúc URL

Bạn không cần tạo các URL đặc biệt khi phát triển trang web đa ngôn ngữ. Tuy nhiên, có thể người dùng muốn biết họ đang ở phần nào trên trang web của bạn bằng cách xem qua URL. Ví dụ: những URL sau đây cho người dùng biết rằng họ đang ở phần tiếng Anh của trang web này: https://example.ca/en/mountain-bikes.html hoặc https://en.example.ca/mountain-bikes.html. Trong khi đó những URL như sau cho người dùng biết rằng họ đang xem chính trang đó bằng tiếng Pháp: https://example.ca/fr/mountain-bikes.html hoặc https://fr.example.ca/mountain-bikes.html. Ngoài ra, cấu trúc URL này sẽ giúp bạn dễ dàng phân tích quá trình lập chỉ mục nội dung đa ngôn ngữ.

Nếu bạn muốn tạo URL bằng các ký tự không phải tiếng Anh, hãy nhớ sử dụng bộ mã hoá UTF-8. URL được mã hoá UTF-8 phải mã hoá ký tự thoát đúng cách khi được liên kết từ bên trong nội dung của bạn. Nếu cần mã hoá ký tự thoát trong URL theo cách thủ công, bạn có thể dễ dàng tìm một bộ mã hoá URL trực tuyến để thực hiện việc này. Ví dụ: Nếu tôi muốn dịch URL này, https://example.ca/fr/mountain-bikes.html, từ tiếng Anh sang tiếng Pháp, URL tiếng Pháp có thể có trông như sau: https://example.ca/fr/vélo-de-montagne.html. Vì URL này chứa một ký tự không phải tiếng Anh (é), nên nếu cần sử dụng URL này trong đường liên kết trên các trang của mình, bạn phải sử dụng ký tự thoát đúng cách: https://example.ca/fr/v%C3%A9lo-de-montagne.html.

Thu thập dữ liệu và lập chỉ mục trang web đa ngôn ngữ

Bạn không nên cho phép lập chỉ mục các bản dịch tự động. Bản dịch tự động không phải lúc nào cũng có nghĩa và có thể bị xem là nội dung rác. Quan trọng hơn, mục tiêu của việc tạo một trang web đa ngôn ngữ là tiếp cận nhiều đối tượng người dùng hơn bằng cách cung cấp nội dung có giá trị bằng nhiều ngôn ngữ. Nếu người dùng không hiểu được bản dịch tự động hoặc nếu bản dịch đó khiến họ cảm thấy khó hiểu, bạn nên tự hỏi bản thân liệu mình có thực sự muốn trình bày loại nội dung như vậy không.

Nếu bạn dự định bản địa hoá, hãy giúp Googlebot dễ dàng thu thập dữ liệu mọi phiên bản ngôn ngữ của trang web. Hãy cân nhắc việc liên kết chéo theo từng trang. Tức là bạn có thể cung cấp đường liên kết giữa các trang có cùng nội dung nhưng bằng nhiều ngôn ngữ. Việc này cũng có thể rất hữu ích cho người dùng. Theo ví dụ trước, giả sử một người nói tiếng Pháp tình cờ truy cập https://example.ca/en/mountain-bikes.html. Giờ đây, chỉ với một cú nhấp chuột, họ có thể truy cập https://example.ca/fr/vélo-de-montagne.html để xem chính nội dung đó bằng tiếng Pháp.

Để Google có thể thu thập dữ liệu mọi nội dung trên trang web của bạn, hãy tránh dùng lệnh chuyển hướng tự động dựa trên ngôn ngữ của người dùng mà hệ thống nhận thấy. Các lệnh chuyển hướng như vậy có thể khiến người dùng (và công cụ tìm kiếm) không xem được tất cả phiên bản của trang web.

Cuối cùng nhưng không kém phần quan trọng, hãy giữ nội dung của mỗi ngôn ngữ trên các URL riêng biệt – đừng dùng cookie để hiển thị bản dịch.

Xử lý việc mã hoá ký tự

Google trực tiếp trích xuất hệ thống mã hoá ký tự từ tiêu đề HTTP, tiêu đề trang HTML và nội dung. Bạn không cần phải làm gì trong quá trình mã hoá ký tự, ngoài việc chú ý đến thông tin xung đột, ví dụ như giữa nội dung và tiêu đề. Tuy Google có thể nhận ra nhiều loại mã hoá ký tự, nhưng bạn nên sử dụng UTF-8 trên trang web của mình bất cứ khi nào có thể.

Tiếng nọ xọ tiếng kia...

Khi biết nhiều ngôn ngữ, đôi khi bạn bị nhầm lẫn giữa các thứ tiếng với nhau, nhưng hy vọng trang web của bạn thì sẽ không phải lo về vấn đề đó nữa (nhờ các mẹo trong bài viết này)!

Để biết thêm thông tin, hãy đọc bài đăng của chúng tôi về các trang web đa khu vực và chú ý theo dõi bài đăng tiếp theo của chúng tôi để biết những tình huống đặc biệt có thể phát sinh khi xử lý các trang web toàn cầu. Trong lúc chờ đợi, đừng ngại ghé qua Diễn đàn trợ giúp và tham gia thảo luận nhé!