Barrierefreie PDFs mit ML und OCR

Barrierefreiheit ist mehr als nur eine Übersetzung von Funktionen: Es ist ein ganzes System von technischen Hilfen, das darauf abzielt, eine benutzerdefinierte Nutzererfahrung zu schaffen. Letztes Jahr hat das Chrome & ChromeOS Accessibility-Team mit dem Google OCR-Team zusammengearbeitet, um PDFs barrierefreier zu gestalten: Sie sind jetzt screenreader-kompatibel, navigierbar und lassen sich einfach starten.

12 %	60 %	Mehr als 1.000.000
Zunahme der PDF-Nutzung	Reichweite von Nutzern mit Bedienungshilfen	Wöchentlich OCR-transkribierte Seiten

Das Problem mit PDFs

Wenn Sie einen Screenreader verwenden, wissen Sie, dass heute mehr als 360 Milliarden PDFs (12% aller PDFs im Web) nicht zugänglich sind. Die Barrierefreiheit von PDFs hat sich zwar verbessert, aber es ist immer noch frustrierend, wenn ein wichtiges Dokument nicht richtig für Screenreader verarbeitet wurde. Selbst Dokumente, die per OCR verarbeitet werden, sind möglicherweise nicht einfach zu navigieren.

Die optische Zeichenerkennung (OCR) mit maschinellem Lernen (ML) ist eine der ersten angewandten Formen moderner KI. Einfache OCR-Systeme lesen den Text auf dem Bildschirm jedoch nur direkt aus – ohne Informationsarchitektur, Metainformationen und Kontextinformationen. Insgesamt führt dies zu einer schlechten Nutzerfreundlichkeit, selbst wenn OCR unterstützt wird.

Es gibt zwar Systeme, die für eine höhere PDF-Barrierefreiheit entwickelt wurden, die meisten sind jedoch kostenpflichtige und/oder externe Dienste. Sie müssen das Dokument in eine andere App übertragen, um es zu lesen, was umständlich ist. Für Nutzer von Hilfstechnologien ist es von Vorteil, wenn die interne ML-OCR-Funktion im Standard-PDF-Reader verfügbar ist, da die Bedienung dadurch weniger umständlich ist. Damit eine Funktion wirklich barrierefrei ist, muss sie jederzeit und kostenlos verfügbar sein.

Ein wirklich barrierefreies System entwickeln

Für eine optimale Nutzerfreundlichkeit wollte das Chrome & ChromeOS Accessibility Team rohe ML-OCR-Daten verwenden, um ein Framework zu erstellen, das von Nutzern mit eingeschränktem oder keinem Sehvermögen verwendet werden kann. Dabei sollten die Informationen nicht nur auf dem Bildschirm angezeigt, sondern auch automatisch Navigation und Orientierungspunkte generiert werden.

Durch die Nachbearbeitung der Daten konnte das Accessibility-Team Navigationsbäume und Markierungen wie Seitenzahlen im Handumdrehen erstellen. So konnten PDFs nicht nur gelesen, sondern auch leichter gelesen werden.

Verarbeitung auf beliebiger Hardware und auf beliebigen Geräten

Die ML-OCR ist jedoch mit einem recht hohen Rechenaufwand verbunden. Das Team musste die rechenintensive OCR und die OCR-Nachbearbeitung auf vielen verschiedenen Plattformen und Hardwarearchitekturen bereitstellen, damit Nutzer die Funktionen problemlos auf ihrem eigenen Gerät ohne aktive Internetverbindung und ohne Datenschutzbedenken nutzen können.

Dazu musste das Team Code, der ursprünglich für die Ausführung auf Google-Linux-Servern entwickelt wurde, die nicht mit der Betriebsumgebung von Google verbunden sind, mit allen verschiedenen Plattformen (macOS, Windows und ChromeOS) und allen möglichen Hardwarearchitekturen kompatibel machen.

Außerdem geht der Code, der auf Google-Servern ausgeführt wird, von einem bestimmten Sicherheitsniveau in seiner Umgebung aus. Wenn der Code jedoch auf den Computern der Nutzer ausgeführt wird, kann dies nicht vorausgesetzt werden. Daher musste das Team auch dafür sorgen, dass der Code so sicher ist, dass ein böswilliger Akteur ihn nicht verwenden kann, um Chrome oder den Computer des Nutzers zu manipulieren.

Da nicht alle Nutzer die Funktion benötigten, hat das Team sie nicht zu einem wesentlichen Bestandteil von Chrome gemacht. Stattdessen hat sich das Team entschieden, die Funktion auf Anfrage basierend auf der Hardware- und Softwarekonfiguration des Nutzers auf seinem Gerät bereitzustellen.

Plattformübergreifende Bedienungshilfen unter ChromeOS

Barrierefreiheit ist nie abgeschlossen, sondern wird kontinuierlich verbessert. Das Accessibility Team hofft, in Zukunft die Begrenzung, die Benutzeroberfläche und die Genauigkeit zu verbessern und gleichzeitig die PDF-Barrierefreiheit für alle Chrome-Browsernutzer auf jeder Plattform zu skalieren. Außerdem soll OCR auf anderen Chrome-Geräten eingeführt werden, die davon profitieren könnten.

Seit der Einführung von ML OCR für PDFs hat das Team die OCR-Unterstützung auf 77 Sprachen und sieben zusätzliche Schriftsysteme ausgeweitet: Arabisch, Bengalisch, Kyrillisch, Devanagari, Chinesisch, Japanisch und Koreanisch. Nutzer können jetzt gescannte Dokumente über die OCR-Funktion im Lesemodus von Chrome zusammenfassen lassen, um eine übersichtlichere und barrierefreie Ansicht des Texts zu erhalten, den sie im Web lesen.

Screenreader können jetzt zum ersten Mal PDFs auf Chromebooks in der nativen Media / Galerie App lesen. Das Barrierefreiheitsteam hat OCR in diese native App integriert, damit Nutzer PDFs offline oder ohne Browser lesen können. So werden Milliarden von nicht barrierefreien PDFs zugänglich, auf die jetzt direkt auf Ihrem Chromebook zugegriffen werden kann.

Barrierefreie PDFs mit ML und OCR Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.

Das Problem mit PDFs

Ein wirklich barrierefreies System entwickeln

Verarbeitung auf beliebiger Hardware und auf beliebigen Geräten

Plattformübergreifende Bedienungshilfen unter ChromeOS

Barrierefreie PDFs mit ML und OCR