Acessibilidade de PDF sem dificuldades com ML e OCR

A acessibilidade é mais do que uma tradução individual de recursos: é um sistema completo de suporte projetado para criar uma experiência do usuário personalizada. No ano passado, a equipe de acessibilidade do Chrome e do ChromeOS fez uma parceria com a equipe de OCR do Google para oferecer acessibilidade democratizada a PDFs: legíveis na tela, fáceis de navegar e de abrir.

12% 60% Mais de 1 milhão

Crescimento do uso de PDF

Alcance de usuários com acessibilidade

Páginas com OCR semanal

O problema dos PDFs

Se você usa um leitor de tela, sabe que mais de 360 bilhões de PDFs (12% de todos os PDFs na Web) não podem ser acessados. Embora a acessibilidade de PDF tenha melhorado, ainda é frustrante encontrar um documento necessário que não foi processado corretamente para leitura de tela. Além disso, mesmo os documentos processados por OCR podem não ser fáceis de navegar.

O reconhecimento óptico de caracteres de machine learning (ML OCR) é uma das primeiras formas aplicadas da IA moderna. No entanto, os sistemas de OCR rudimentares apenas fornecem uma leitura direta do texto na tela, sem arquitetura de informações, metainformações e pistas contextuais. No geral, isso prejudica a experiência do usuário, mesmo quando o OCR é compatível.

Embora existam sistemas projetados para níveis mais altos de acessibilidade de PDF, a maioria deles são serviços pagos e/ou externalizados. Você precisa transferir o documento para outro app para ler, o que cria atrito. Para usuários de tecnologia assistiva, ter a funcionalidade interna de OCR de ML no leitor de PDF padrão torna a experiência menos diferente. Para criar uma experiência verdadeiramente acessível, a funcionalidade precisa estar sempre disponível e sem custos financeiros.

Desenvolver um sistema verdadeiramente acessível

Para oferecer a melhor experiência do usuário, a equipe de acessibilidade do Chrome e do ChromeOS queria usar dados brutos de OCR de ML para criar uma estrutura navegável por usuários com baixa ou nenhuma visão. O objetivo não era apenas mostrar as informações na tela, mas gerar automaticamente navegação e pontos de referência.

Ao pós-processar os dados, a equipe de acessibilidade conseguiu criar árvores de navegação e pontos de referência, como números de página, de forma dinâmica. Assim, não só os PDFs podiam ser lidos, mas o processo de leitura foi facilitado.

Processamento em qualquer hardware e dispositivo

No entanto, o processo de OCR de ML tem um custo computacional bastante alto. A equipe precisou fornecer OCR e pós-processamento de OCR computacionalmente caros em várias plataformas e arquiteturas de hardware diferentes. Assim, os usuários podiam usar os recursos facilmente no próprio dispositivo sem uma conexão de Internet ativa e sem problemas de privacidade.

Para isso, a equipe precisou migrar o código originalmente desenvolvido para ser executado em servidores Linux do Google, desconectado do ambiente operacional do Google, compatível com todas as plataformas (MacOS, Windows e ChromeOS) e todas as arquiteturas de hardware possíveis.

Além disso, o código executado nos servidores do Google pressupõe um determinado nível de segurança no ambiente, mas isso não pode ser presumido quando o código é executado nos computadores dos usuários. Consequentemente, a equipe também precisou tornar o código seguro o suficiente para que um agente malicioso não pudesse usá-lo para comprometer o Chrome ou o computador do usuário.

Como o recurso não era necessário para todos os usuários, a equipe não o tornou uma parte essencial do Chrome. Em vez disso, a equipe optou por oferecer o recurso sob demanda com base na configuração de hardware e software do usuário no dispositivo.

Acessibilidade multiplataforma mais ampla no ChromeOS

A acessibilidade nunca está completa, ela está em um estado contínuo de melhoria. Pensando no futuro, a equipe de acessibilidade espera melhorar a delimitação, a experiência do usuário e a fidelidade, além de ampliar a acessibilidade de PDF para todos os usuários do navegador Chrome em todas as plataformas e adicionar OCR a outros dispositivos Chrome que possam se beneficiar.

Desde o lançamento do OCR de ML para PDFs, a equipe ampliou o suporte para 77 idiomas e sete scripts adicionais: árabe, bengali, cirílico, deva, chinês, japonês e coreano. Agora os usuários podem ter documentos digitalizados resumidos no modo de leitura do Chrome usando OCR para quem quer uma visualização mais focada e acessível do texto lido na Web.

E, pela primeira vez, os leitores de tela poderão ler PDFs no Chromebook no app nativo Mídia / Galeria. A equipe de acessibilidade criou o OCR nesse app nativo para que os usuários possam ler PDFs off-line ou sem precisar acessar o navegador, desbloqueando bilhões de PDFs inacessíveis que agora podem ser acessados diretamente no Chromebook.