透過機器學習和 OCR 輕鬆存取 PDF

無障礙功能不只是單一功能的翻譯,而是整個工程支援系統,旨在打造個人化的使用者體驗。去年,Chrome 和 ChromeOS 無障礙功能團隊與 Google OCR 團隊合作,為 PDF 提供普及化的無障礙功能:可供螢幕閱讀器朗讀、可瀏覽,且容易啟動。

12% 60% 超過 100 萬

PDF 使用量成長

無障礙功能使用者觸及率

每週 OCR 頁數

PDF 的問題

如果您使用螢幕閱讀器,就會知道目前有超過 3, 600 億份 PDF (占網路上所有 PDF 的 12%) 無法存取。雖然 PDF 無障礙功能已有所進步,但如果遇到未經適當處理的必要文件,導致螢幕閱讀器無法朗讀,仍會令人感到沮喪。即使是透過 OCR 處理的文件,也可能難以瀏覽。

機器學習光學字元辨識 (ML OCR) 是現代 AI 最早的應用形式之一。但基本 OCR 系統只會直接讀取畫面上的文字,不會提供資訊架構、中繼資訊和情境線索。整體而言,即使支援 OCR,這類做法仍會導致使用者體驗不佳。

雖然有系統專為提升 PDF 無障礙程度而設計,但大多數都是付費和/或外部服務,您必須將文件轉移到其他應用程式才能閱讀,造成不便。對於輔助技術使用者來說,預設 PDF 閱讀器內建 ML OCR 功能,可減少體驗差異。如要打造真正無障礙的體驗,功能必須隨時免費提供。

開發真正無障礙的系統

為了提供最佳使用者體驗,Chrome 和 ChromeOS 無障礙團隊希望使用原始的 ML OCR 資料建立架構,讓視力不佳或全盲的使用者能夠瀏覽,而不只是在畫面上顯示資訊,還能自動產生導覽和地標。

透過後續處理資料,無障礙團隊能夠即時建構導覽樹狀結構和地標 (例如頁碼),不僅能讀取 PDF,還能簡化讀取程序。

在任何硬體和裝置上處理

不過,機器學習 OCR 的運算成本相當高昂。該團隊必須在許多不同平台和硬體架構上提供耗用大量運算資源的 OCR 和 OCR 後續處理作業,讓使用者在自己的裝置上輕鬆使用這些功能,而且不必連上網路,也不必擔心隱私權問題。

為此,團隊必須遷移原本在 Google Linux 伺服器上執行的程式碼,使其與 Google 的作業環境中斷連線,並與所有不同平台 (macOS、Windows 和 ChromeOS) 和所有可能的硬體架構相容。

此外,在 Google 伺服器上執行的程式碼會假設環境具有一定程度的安全性,但程式碼在使用者電腦上執行時,就無法做出這項假設。因此,團隊也必須確保程式碼的安全性,避免惡意代理程式利用程式碼入侵 Chrome 或使用者的電腦。

由於並非所有使用者都需要這項功能,因此團隊並未將其設為 Chrome 的必要功能。因此團隊選擇根據使用者裝置的硬體和軟體設定,視需求提供這項功能。

在 ChromeOS 上使用更多跨平台無障礙功能

無障礙功能沒有完成的一天,而是持續改善的狀態。展望未來,無障礙團隊希望改善邊界、使用者體驗和準確度,同時將 PDF 無障礙功能擴展至所有平台上的 Chrome 瀏覽器使用者,並在其他可能受益的 Chrome 裝置上新增 OCR 功能。

自從推出 PDF 專用的機器學習 OCR 後,團隊已將 OCR 支援的語言擴增至 77 種,並新增七種文字:阿拉伯文、孟加拉文、西里爾文、天城文、中文、日文和韓文。現在使用者可以透過 OCR,在 Chrome 的閱讀模式中查看掃描文件的摘要,更專注且輕鬆地閱讀網頁上的文字。

現在起,螢幕閱讀器終於能在 Chromebook 的原生媒體 / 圖庫應用程式中朗讀 PDF。無障礙團隊已將 OCR 技術整合至這個原生應用程式,讓使用者不必連上網路或開啟瀏覽器,就能閱讀 PDF,直接在 Chromebook 上存取數十億份原本無法閱讀的 PDF。