Aksesibilitas PDF tanpa hambatan dengan ML dan OCR

Aksesibilitas bukan hanya tentang terjemahan fitur satu per satu: Ini adalah seluruh sistem dukungan yang dirancang, yang dimaksudkan untuk menciptakan pengalaman pengguna yang disesuaikan. Tahun lalu, Tim Aksesibilitas Chrome & ChromeOS berpartner dengan tim OCR Google untuk menyediakan aksesibilitas yang demokratis ke PDF: dapat dibaca layar, dapat dinavigasi, dan mudah diluncurkan.

12%	60%	1 juta lebih
Pertumbuhan penggunaan PDF	Jangkauan pengguna A11y	Halaman yang di-OCR setiap minggu

Masalah PDF

Jika Anda menggunakan pembaca layar, Anda pasti tahu bahwa saat ini ada lebih dari 360 miliar PDF (12% dari semua PDF di web) yang tidak dapat diakses. Meskipun aksesibilitas PDF telah meningkat, masih menjengkelkan jika menemukan dokumen penting yang belum diproses dengan benar untuk pembacaan layar—dan bahkan dokumen yang diproses melalui OCR mungkin tidak mudah dinavigasi.

Pengenalan Karakter Optik (OCR) Machine Learning (ML OCR) adalah salah satu bentuk penerapan paling awal dari AI modern. Namun, sistem OCR yang mendasar hanya memberikan pembacaan langsung teks di layar—tanpa arsitektur informasi, informasi meta, dan petunjuk kontekstual. Secara keseluruhan, hal ini memberikan UX yang buruk meskipun OCR didukung.

Meskipun ada sistem yang dirancang untuk tingkat aksesibilitas PDF yang lebih tinggi, sebagian besar merupakan layanan berbayar dan/atau eksternal. Anda harus mentransfer dokumen ke aplikasi lain untuk membacanya, sehingga menimbulkan kesulitan. Bagi pengguna teknologi pendukung, fungsi OCR ML internal dalam pembaca PDF default membuat pengalaman menjadi tidak terlalu berbeda. Untuk menciptakan pengalaman yang benar-benar mudah diakses, fungsi harus selalu tersedia dan dapat diakses secara gratis.

Mengembangkan sistem yang benar-benar mudah diakses

Untuk UX terbaik, Tim Aksesibilitas Chrome & ChromeOS ingin menggunakan data OCR ML mentah untuk membuat framework yang dapat dijelajahi oleh pengguna dengan penglihatan rendah atau tidak ada—tidak hanya menampilkan informasi di layar, tetapi juga otomatis membuat navigasi dan penanda.

Dengan memproses data setelahnya, Tim Aksesibilitas dapat membuat pohon navigasi dan penanda seperti nomor halaman secara langsung—PDF tidak hanya dapat dibaca, tetapi proses membacanya juga menjadi lebih mudah.

Pemrosesan di hardware dan perangkat apa pun

Namun, proses ML OCR memiliki biaya komputasi yang cukup besar. Tim harus menyediakan OCR dan pasca-pemrosesan OCR yang mahal secara komputasi di berbagai platform dan arsitektur hardware, sehingga pengguna dapat dengan mudah menggunakan fitur di perangkat mereka sendiri tanpa koneksi internet yang aktif dan tanpa masalah privasi.

Untuk mencapai hal ini, tim harus memigrasikan kode yang awalnya dikembangkan untuk dijalankan di server Linux Google, yang terputus dari lingkungan operasional Google, yang kompatibel dengan semua platform yang berbeda (MacOS, Windows, dan ChromeOS), dan semua arsitektur hardware yang memungkinkan.

Selain itu, kode yang berjalan di server Google mengasumsikan tingkat keamanan tertentu di lingkungannya, tetapi hal ini tidak dapat diasumsikan saat kode dijalankan di komputer pengguna. Oleh karena itu, tim juga perlu membuat kode mereka cukup aman sehingga agen berbahaya tidak dapat menggunakannya untuk membahayakan Chrome atau komputer pengguna.

Karena fitur tersebut tidak diperlukan oleh semua pengguna, tim tidak menjadikannya bagian penting dari Chrome. Sebagai gantinya, tim memilih untuk mengirimkan fitur sesuai permintaan berdasarkan konfigurasi hardware dan software pengguna di perangkatnya.

Aksesibilitas lintas platform yang lebih luas di ChromeOS

Aksesibilitas tidak pernah selesai; selalu ada peningkatan yang berkelanjutan. Ke depannya, Tim Aksesibilitas berharap dapat meningkatkan pembatasan, UX, dan kualitas, sekaligus menskalakan aksesibilitas PDF untuk semua pengguna browser Chrome di setiap platform—dan menambahkan OCR ke perangkat Chrome lainnya yang mungkin bermanfaat.

Sejak merilis OCR ML untuk PDF, tim telah memperluas dukungan OCR ke 77 bahasa dan tujuh skrip tambahan: Arab, Bengali, Kiril, Deva, China, Jepang, dan Korea. Pengguna kini dapat meringkas dokumen hasil pindaian dalam mode baca Chrome melalui OCR bagi pengguna yang menginginkan tampilan teks yang lebih fokus dan mudah diakses saat membaca di web.

Selain itu, pembaca layar kini untuk pertama kalinya dapat membaca PDF di Chromebook mereka di Aplikasi Media / Galeri bawaan. Tim aksesibilitas telah membuat OCR ke dalam aplikasi bawaan ini sehingga pengguna dapat membaca PDF secara offline atau tanpa perlu membuka browser—membuka miliaran PDF yang tidak dapat diakses yang kini dapat diakses langsung di Chromebook Anda.

Aksesibilitas PDF tanpa hambatan dengan ML dan OCR Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.

Masalah PDF

Mengembangkan sistem yang benar-benar mudah diakses

Pemrosesan di hardware dan perangkat apa pun

Aksesibilitas lintas platform yang lebih luas di ChromeOS

Aksesibilitas PDF tanpa hambatan dengan ML dan OCR