Accessibilité des PDF facilitée grâce au ML et à l'OCR

L'accessibilité ne se limite pas à une traduction directe des fonctionnalités. Il s'agit d'un système complet d'assistance technique, conçu pour créer une expérience utilisateur personnalisée. L'année dernière, l'équipe Chrome et ChromeOS chargée de l'accessibilité s'est associée à l'équipe Google OCR pour rendre les PDF accessibles à tous : lisibles par un lecteur d'écran, faciles à parcourir et à lancer.

12 % 60 % Plus de 1 M

Croissance de l'utilisation des PDF

Couverture des utilisateurs avec des problèmes d'accessibilité

Pages OCRisées par semaine

Le problème des PDF

Si vous utilisez un lecteur d'écran, vous savez que plus de 360 milliards de PDF (soit 12 % de tous les PDF sur le Web) sont inaccessibles aujourd'hui. L'accessibilité des PDF s'est améliorée, mais il reste frustrant de tomber sur un document nécessaire qui n'a pas été correctement traité pour la lecture d'écran. Même les documents traités par OCR peuvent être difficiles à parcourir.

La reconnaissance optique des caractères (OCR) basée sur le machine learning (ML) est l'une des premières formes appliquées de l'IA moderne. Toutefois, les systèmes de reconnaissance optique des caractères rudimentaires se contentent de lire directement le texte à l'écran, sans architecture de l'information, métadonnées ni indices contextuels. Dans l'ensemble, cela offre une mauvaise expérience utilisateur, même lorsque l'OCR est pris en charge.

Bien qu'il existe des systèmes conçus pour améliorer l'accessibilité des PDF, la plupart d'entre eux sont des services payants et/ou externalisés. Vous devez transférer le document vers une autre application pour le lire, ce qui crée des frictions. Pour les utilisateurs de technologies d'assistance, l'intégration de la fonctionnalité OCR de ML dans le lecteur PDF par défaut permet de réduire les différences d'expérience. Pour créer une expérience réellement accessible, les fonctionnalités doivent toujours être facilement disponibles et sans frais.

Développer un système véritablement accessible

Pour offrir la meilleure expérience utilisateur possible, l'équipe Chrome et ChromeOS chargée de l'accessibilité souhaitait utiliser des données OCR brutes de ML pour créer un framework navigable par les utilisateurs ayant une vision faible ou nulle. L'objectif n'était pas seulement d'afficher les informations à l'écran, mais aussi de générer automatiquement des éléments de navigation et des repères.

En post-traitant les données, l'équipe chargée de l'accessibilité a pu créer des arbres de navigation et des repères tels que des numéros de page à la volée. Les PDF pouvaient ainsi être lus plus facilement.

Traitement sur n'importe quel matériel et appareil

Toutefois, le processus d'OCR par ML implique un coût de calcul assez élevé. L'équipe a dû fournir un OCR et un post-traitement OCR coûteux en termes de calcul sur de nombreuses plates-formes et architectures matérielles différentes, afin que les utilisateurs puissent facilement utiliser les fonctionnalités sur leur propre appareil sans connexion Internet active et sans se soucier de la confidentialité.

Pour ce faire, l'équipe a dû migrer le code initialement développé pour être exécuté sur des serveurs Google Linux, déconnectés de l'environnement opérationnel de Google, compatible avec toutes les plates-formes (macOS, Windows et ChromeOS) et toutes les architectures matérielles possibles.

De plus, le code qui s'exécute sur les serveurs Google suppose un certain niveau de sécurité dans son environnement, mais cela ne peut pas être supposé lorsque le code est exécuté sur les ordinateurs des utilisateurs. Par conséquent, l'équipe devait également rendre son code suffisamment sécurisé pour qu'un agent malveillant ne puisse pas l'utiliser pour compromettre Chrome ou l'ordinateur de l'utilisateur.

Comme tous les utilisateurs n'avaient pas besoin de cette fonctionnalité, l'équipe ne l'a pas intégrée à Chrome. L'équipe a plutôt choisi de proposer la fonctionnalité à la demande, en fonction de la configuration matérielle et logicielle de l'appareil de l'utilisateur.

Accessibilité multiplate-forme étendue sur ChromeOS

L'accessibilité n'est jamais parfaite. Elle est en constante amélioration. À l'avenir, l'équipe Accessibilité espère améliorer les limites, l'UX et la fidélité, tout en étendant l'accessibilité des PDF à tous les utilisateurs du navigateur Chrome sur toutes les plates-formes. Elle souhaite également ajouter l'OCR à d'autres appareils Chrome qui pourraient en bénéficier.

Depuis le lancement de l'OCR ML pour les PDF, l'équipe a étendu la prise en charge de l'OCR à 77 langues et sept scripts supplémentaires : arabe, bengali, cyrillique, deva, chinois, japonais et coréen. Les utilisateurs peuvent désormais faire résumer les documents numérisés dans le mode Lecture de Chrome grâce à la reconnaissance optique des caractères (OCR). Cela leur permet d'obtenir une vue plus ciblée et accessible du texte qu'ils lisent sur le Web.

Pour la toute première fois, les lecteurs d'écran pourront lire les PDF sur leur Chromebook dans l'application Médias / Galerie native. L'équipe chargée de l'accessibilité a intégré la reconnaissance optique des caractères (OCR) à cette application native afin que les utilisateurs puissent lire les PDF hors connexion ou sans avoir à utiliser le navigateur. Des milliards de PDF inaccessibles peuvent désormais être consultés directement sur votre Chromebook.