无障碍功能不仅仅是功能的一对一转换,而是一整套精心设计的支持系统,旨在打造定制化的用户体验。去年,Chrome 和 ChromeOS 无障碍功能团队与 Google OCR 团队合作,为 PDF 提供普及化的无障碍功能:可供屏幕阅读器读取、可导航且易于启动。
| 12% | 60% | 超过 100 万 |
|---|---|---|
PDF 使用量增长 | 无障碍功能用户覆盖面 | 每周 OCR 的页数 |
PDF 的问题
如果您使用屏幕阅读器,就会知道:目前有超过 3, 600 亿个 PDF(占网络上所有 PDF 的 12%)无法访问。虽然 PDF 无障碍功能一直在改进,但遇到未经过适当处理以供屏幕阅读器使用的必要文档,仍然令人沮丧,即使是通过 OCR 处理的文档,也可能难以浏览。
机器学习光学字符识别 (ML OCR) 是最早应用的现代 AI 形式之一。但基本的 OCR 系统只是直接读取屏幕上的文字,而没有信息架构、元信息和上下文线索。总而言之,即使支持 OCR,这种方式也会导致用户体验不佳。
虽然有些系统旨在提高 PDF 无障碍性,但其中大多数都是付费服务和/或外部化服务,您必须将文档转移到其他应用才能阅读,这会带来不便。对于辅助技术的用户,默认 PDF 阅读器中内置的 ML OCR 功能可让体验更加顺畅。为了打造真正无障碍的体验,功能必须始终可随时免费使用。
开发真正无障碍的系统
为了提供最佳用户体验,Chrome 和 ChromeOS 无障碍功能团队希望使用原始的机器学习 OCR 数据来创建一个框架,让视力低下或失明的用户能够通过该框架进行导航,而不仅仅是在屏幕上显示信息,而是自动生成导航和地标。
通过对数据进行后处理,无障碍功能团队能够即时构建导航树和地标(例如页码),这样不仅可以读取 PDF,而且读取过程也变得更加轻松。
在任何硬件和任何设备上进行处理
不过,机器学习 OCR 的过程需要相当高的计算成本。该团队必须在许多不同的平台和硬件架构上提供计算成本高昂的 OCR 和 OCR 后处理,以便用户可以在自己的设备上轻松使用这些功能,而无需连接有效的互联网,也无需担心隐私问题。
为此,该团队必须迁移最初开发的代码,使其能够在与 Google 运营环境断开连接的情况下在 Google Linux 服务器上运行,并且与所有不同的平台(MacOS、Windows 和 ChromeOS)以及所有可能的硬件架构兼容。
此外,在 Google 服务器上运行的代码会假定其环境具有一定的安全性,但当代码在用户计算机上运行时,就无法做出这种假定。因此,该团队还需要确保其代码足够安全,以防止恶意代理利用该代码入侵 Chrome 或用户的计算机。
由于并非所有用户都需要此功能,因此该团队并未将其作为 Chrome 的必要组成部分。相反,该团队选择根据用户设备上的硬件和软件配置按需交付该功能。
ChromeOS 上更广泛的跨平台无障碍功能
无障碍功能永远没有完美状态,而是在不断改进。展望未来,无障碍功能团队希望改进边界、用户体验和保真度,同时将 PDF 无障碍功能扩展到所有平台上的所有 Chrome 浏览器用户,并为可能受益的其他 Chrome 设备添加 OCR 功能。
自发布 PDF 的 ML OCR 以来,该团队已将 OCR 支持范围扩展到 77 种语言和 7 种其他文字:阿拉伯文、孟加拉文、西里尔文、天城文、中文、日文和韩文。现在,用户可以在 Chrome 的阅读模式下通过 OCR 功能精简扫描的文档,以便更专注、更轻松地查看网页上的文字。
现在,屏幕阅读器将首次能够在 原生媒体 / 图库应用中阅读 Chromebook 上的 PDF。无障碍功能团队已将 OCR 内置到此原生应用中,以便用户离线阅读 PDF 或无需使用浏览器即可阅读 PDF,从而解锁数十亿个无法访问的 PDF,现在可以直接在 Chromebook 上访问这些 PDF。