Khả năng hỗ trợ tiếp cận tệp PDF liền mạch nhờ công nghệ học máy và OCR

Hỗ trợ tiếp cận không chỉ là việc dịch các tính năng theo cách tương ứng mà còn là một hệ thống hỗ trợ toàn diện được thiết kế để tạo ra trải nghiệm người dùng phù hợp. Năm ngoái, Nhóm hỗ trợ tiếp cận của Chrome và ChromeOS đã hợp tác với Nhóm OCR của Google để cung cấp khả năng hỗ trợ tiếp cận cho mọi người đối với tệp PDF: có thể đọc trên màn hình, dễ dàng điều hướng và dễ dàng khởi chạy.

12% 60% Trên 1 triệu

Mức tăng trưởng về việc sử dụng tệp PDF

Phạm vi tiếp cận người dùng có nhu cầu hỗ trợ tiếp cận

Số trang được nhận dạng ký tự quang học hằng tuần

Vấn đề về tệp PDF

Nếu sử dụng trình đọc màn hình, bạn sẽ biết rằng hiện có hơn 360 tỷ tệp PDF (chiếm 12% tổng số tệp PDF trên web) không thể truy cập. Mặc dù khả năng hỗ trợ tiếp cận của tệp PDF đã được cải thiện, nhưng vẫn gây khó chịu khi gặp phải một tài liệu cần thiết nhưng chưa được xử lý đúng cách để đọc màn hình. Thậm chí, những tài liệu được xử lý thông qua công nghệ OCR có thể không dễ dàng điều hướng.

Công nghệ Nhận dạng ký tự quang học dựa trên học máy (OCR dựa trên học máy) là một trong những dạng ứng dụng sớm nhất của AI hiện đại. Nhưng các hệ thống OCR thô sơ chỉ đơn giản là đọc trực tiếp văn bản trên màn hình mà không có cấu trúc thông tin, thông tin meta và các manh mối theo ngữ cảnh. Nhìn chung, điều này mang đến trải nghiệm kém cho người dùng ngay cả khi OCR được hỗ trợ.

Mặc dù có những hệ thống được thiết kế để tăng khả năng truy cập vào PDF, nhưng hầu hết đều là dịch vụ có tính phí và/hoặc bên ngoài. Bạn phải chuyển tài liệu sang một ứng dụng khác để đọc, gây ra sự bất tiện. Đối với người dùng công nghệ hỗ trợ, việc có chức năng OCR ML nội bộ trong trình đọc PDF mặc định sẽ giúp trải nghiệm của họ không khác biệt nhiều. Để tạo ra trải nghiệm thực sự hỗ trợ tiếp cận, chức năng phải luôn sẵn sàng và miễn phí.

Phát triển một hệ thống thực sự hỗ trợ tiếp cận

Để mang lại trải nghiệm người dùng tốt nhất, Nhóm hỗ trợ tiếp cận của Chrome và ChromeOS muốn sử dụng dữ liệu OCR thô của ML để tạo một khung hình mà người dùng khiếm thị hoặc không nhìn thấy gì có thể điều hướng được – không chỉ hiển thị thông tin trên màn hình mà còn tự động tạo chế độ điều hướng và các điểm mốc.

Bằng cách xử lý dữ liệu sau, Nhóm hỗ trợ tiếp cận đã có thể tạo cây điều hướng và các điểm đánh dấu (chẳng hạn như số trang) ngay lập tức. Nhờ đó, không chỉ có thể đọc các tệp PDF mà quá trình đọc cũng trở nên dễ dàng hơn.

Xử lý trên mọi phần cứng và mọi thiết bị

Tuy nhiên, quy trình OCR bằng học máy có chi phí tính toán khá lớn. Nhóm này phải cung cấp tính năng OCR và xử lý hậu kỳ OCR tốn nhiều tài nguyên tính toán trên nhiều nền tảng và cấu trúc phần cứng khác nhau, để người dùng có thể dễ dàng sử dụng các tính năng này trên thiết bị của riêng họ mà không cần kết nối Internet đang hoạt động và không lo ngại về quyền riêng tư.

Để đạt được điều này, nhóm đã phải di chuyển mã được phát triển ban đầu để chạy trên các máy chủ Google Linux, không kết nối với môi trường hoạt động của Google, tương thích với tất cả các nền tảng (MacOS, Windows và ChromeOS) và mọi cấu trúc phần cứng có thể có.

Ngoài ra, mã chạy trên các máy chủ của Google giả định một mức độ bảo mật nhất định trong môi trường của mã đó, nhưng khi mã chạy trên máy tính của người dùng, thì không thể giả định điều này. Do đó, nhóm cũng cần đảm bảo mã của họ đủ an toàn để một tác nhân độc hại không thể sử dụng mã đó để xâm nhập Chrome hoặc máy tính của người dùng.

Vì không phải người dùng nào cũng cần tính năng này, nên nhóm không đưa tính năng này vào danh sách các tính năng thiết yếu của Chrome. Thay vào đó, nhóm này chọn phân phối tính năng theo yêu cầu dựa trên cấu hình phần cứng và phần mềm của người dùng trên thiết bị của họ.

Khả năng hỗ trợ tiếp cận trên nhiều nền tảng rộng hơn trên ChromeOS

Khả năng hỗ trợ tiếp cận không bao giờ hoàn thiện mà luôn trong quá trình cải thiện liên tục. Trong tương lai, Nhóm hỗ trợ tiếp cận hy vọng sẽ cải thiện ranh giới, trải nghiệm người dùng và độ trung thực, đồng thời mở rộng khả năng hỗ trợ tiếp cận PDF cho tất cả người dùng trình duyệt Chrome trên mọi nền tảng, cũng như thêm tính năng OCR vào các thiết bị Chrome khác có thể hưởng lợi.

Kể từ khi phát hành công nghệ OCR dựa trên học máy cho tệp PDF, nhóm đã mở rộng phạm vi hỗ trợ OCR lên 77 ngôn ngữ và 7 bộ chữ viết khác: tiếng Ả Rập, tiếng Bengal, tiếng Kirin, tiếng Devanagari, tiếng Trung, tiếng Nhật và tiếng Hàn. Giờ đây, người dùng có thể xem nội dung cô đọng của tài liệu đã quét ở chế độ đọc của Chrome thông qua công nghệ Nhận dạng ký tự quang học (OCR) đối với những người dùng muốn xem văn bản họ đọc trên web một cách tập trung và dễ tiếp cận hơn.

Giờ đây, lần đầu tiên, trình đọc màn hình có thể đọc tệp PDF trên Chromebook trong Ứng dụng Đa phương tiện / Thư viện gốc. Nhóm hỗ trợ tiếp cận đã tích hợp OCR vào ứng dụng gốc này để người dùng có thể đọc tệp PDF khi không có mạng hoặc không cần truy cập vào trình duyệt. Nhờ đó, hàng tỷ tệp PDF không thể truy cập hiện có thể được truy cập trực tiếp trên Chromebook.