Беспрепятственный доступ к PDF-файлам благодаря машинному обучению и распознаванию текста.

Доступность — это не просто точный перевод функций: это целая система инженерной поддержки, призванная создать индивидуальный пользовательский опыт. В прошлом году команда по обеспечению доступности Chrome и ChromeOS объединилась с командой Google OCR, чтобы обеспечить демократичный доступ к PDF-файлам: возможность чтения с экрана, навигация и простой запуск.

12% 60% 1М+

рост использования PDF-файлов

Доступность пользователей A11y

Еженедельные страницы, распознанные с помощью OCR.

Проблема PDF-файлов

Если вы пользуетесь программой чтения с экрана, вы знаете: более 360 миллиардов PDF-файлов (12% всех PDF-файлов в интернете) сегодня недоступны. Хотя доступность PDF-файлов улучшается, всё ещё неприятно столкнуться с необходимым документом, который не был должным образом обработан для чтения с экрана, — и даже документы, обработанные с помощью оптического распознавания символов (OCR), могут быть неудобны для навигации.

Оптическое распознавание символов с помощью машинного обучения (ML OCR) — одна из самых ранних форм применения современного искусственного интеллекта. Однако примитивные системы OCR просто считывают текст с экрана — без информационной архитектуры, метаинформации и контекстных подсказок. В целом, это обеспечивает плохой пользовательский опыт, даже если OCR поддерживается.

Хотя существуют системы, разработанные для повышения доступности PDF-файлов, большинство из них являются платными и/или представляют собой внешние сервисы — для чтения документа необходимо перенести его в другое приложение, что создает неудобства. Для пользователей вспомогательных технологий наличие встроенной функции распознавания текста с помощью машинного обучения (ML OCR) в стандартном PDF-ридере значительно упрощает работу. Для создания действительно доступного интерфейса функциональность всегда должна быть легкодоступной и бесплатной.

Разработка действительно доступной системы

Для обеспечения наилучшего пользовательского опыта команда разработчиков Chrome и ChromeOS по обеспечению доступности хотела использовать необработанные данные машинного обучения, полученные с помощью оптического распознавания символов (OCR), для создания структуры, доступной для пользователей с ослабленным или отсутствующим зрением — не просто отображающей информацию на экране, но и автоматически генерирующей навигацию и ориентиры.

Благодаря постобработке данных команда специалистов по доступности смогла в режиме реального времени создавать навигационные деревья и ориентиры, такие как номера страниц — это позволило не только читать PDF-файлы, но и значительно упростило процесс их чтения.

Обработка на любом оборудовании и любом устройстве.

Однако процесс распознавания текста с помощью машинного обучения сопряжен с довольно высокими вычислительными затратами. Команде пришлось разработать ресурсоемкие процессы распознавания текста и постобработки на множестве различных платформ и аппаратных архитектур, чтобы пользователи могли легко использовать эти функции на своих устройствах без активного подключения к интернету и без опасений по поводу конфиденциальности.

Для достижения этой цели команде пришлось перенести код, первоначально разработанный для работы на серверах Google Linux, отключенных от операционной среды Google, совместимых со всеми различными платформами (MacOS, Windows и ChromeOS) и всеми возможными аппаратными архитектурами.

Кроме того, код, выполняющийся на серверах Google, предполагает определенный уровень безопасности в своей среде, но когда код запускается на компьютерах пользователей, это нельзя считать само собой разумеющимся. Следовательно, команде также необходимо было сделать свой код достаточно защищенным, чтобы злоумышленник не мог использовать его для компрометации Chrome или компьютера пользователя.

Поскольку эта функция была нужна не всем пользователям, команда не стала делать её обязательной частью Chrome. Вместо этого команда решила предоставлять эту функцию по запросу, в зависимости от аппаратной и программной конфигурации устройства пользователя.

Более широкая кроссплатформенная доступность на ChromeOS.

Доступность никогда не бывает завершенной; она находится в постоянном процессе совершенствования. В перспективе команда по обеспечению доступности надеется улучшить границы, пользовательский опыт и точность отображения, а также масштабировать доступность PDF-файлов для всех пользователей браузера Chrome на всех платформах и добавить функцию распознавания текста (OCR) на другие устройства Chrome, которые могут в этом нуждаться.

С момента выпуска ML OCR для PDF-файлов команда расширила поддержку OCR до 77 языков и семи дополнительных алфавитов: арабского, бенгальского, кириллицы, дева, китайского, японского и корейского. Теперь пользователи могут просматривать отсканированные документы в режиме чтения Chrome с помощью OCR, что позволяет им получить более сфокусированное и доступное представление текста, читаемого в интернете.

Теперь программы чтения с экрана впервые смогут читать PDF-файлы на своих Chromebook в стандартном приложении «Медиа/Галерея» . Команда разработчиков, занимающаяся вопросами доступности, интегрировала технологию распознавания текста (OCR) в это приложение, чтобы пользователи могли читать PDF-файлы в автономном режиме или без необходимости заходить в браузер — таким образом, миллиарды недоступных PDF-файлов теперь можно просматривать непосредственно на вашем Chromebook.