Łatwe ułatwienia dostępu do plików PDF dzięki ML i OCR

Ułatwienia dostępu to nie tylko bezpośrednie tłumaczenie funkcji, ale cały system zaprojektowanych narzędzi, które mają na celu stworzenie spersonalizowanego środowiska użytkownika. W zeszłym roku zespół ds. ułatwień dostępu w Chrome i ChromeOS nawiązał współpracę z zespołem Google OCR, aby zapewnić powszechny dostęp do plików PDF: możliwość odczytywania przez czytnik ekranu, łatwą nawigację i proste uruchamianie.

12% 60% Ponad 1 mln

Wzrost wykorzystania plików PDF

Zasięg użytkowników korzystających z ułatwień dostępu

Tygodniowa liczba stron poddanych transkrypcji OCR

Problem z plikami PDF

Jeśli korzystasz z czytnika ekranu, wiesz, że ponad 360 mld plików PDF (12% wszystkich plików PDF w internecie) jest niedostępnych. Dostępność plików PDF stale się poprawia, ale nadal frustrujące jest natrafienie na potrzebny dokument, który nie został prawidłowo przetworzony na potrzeby czytania na głos. Nawet dokumenty przetworzone za pomocą OCR mogą być trudne w nawigacji.

Optyczne rozpoznawanie znaków oparte na uczeniu maszynowym (ML OCR) to jedna z pierwszych zastosowanych form nowoczesnej sztucznej inteligencji. Jednak podstawowe systemy OCR po prostu odczytują tekst na ekranie, bez architektury informacji, metadanych i wskazówek kontekstowych. Ogólnie rzecz biorąc, nawet jeśli OCR jest obsługiwany, zapewnia to słabe wrażenia użytkownika.

Istnieją systemy zaprojektowane z myślą o większej dostępności plików PDF, ale większość z nich to płatne lub zewnętrzne usługi – aby odczytać dokument, musisz przenieść go do innej aplikacji, co utrudnia korzystanie z nich. Dla użytkowników technologii wspomagających wbudowana w domyślny czytnik PDF funkcja OCR oparta na ML sprawia, że korzystanie z tej technologii jest mniej skomplikowane. Aby zapewnić prawdziwą dostępność, funkcje muszą być zawsze łatwo dostępne i bezpłatne.

Tworzenie systemu z ułatwieniami dostępu

Aby zapewnić jak najlepsze wrażenia użytkownikom, zespół ds. ułatwień dostępu w Chrome i ChromeOS chciał wykorzystać nieprzetworzone dane OCR ML do utworzenia struktury, po której mogliby poruszać się użytkownicy z ograniczonym lub zerowym wzrokiem. Nie chodziło tylko o wyświetlanie informacji na ekranie, ale także o automatyczne generowanie nawigacji i punktów orientacyjnych.

Dzięki przetwarzaniu końcowemu danych zespół ds. ułatwień dostępu mógł na bieżąco tworzyć drzewa nawigacyjne i punkty orientacyjne, takie jak numery stron. Dzięki temu nie tylko można było odczytywać pliki PDF, ale też ułatwiono ten proces.

Przetwarzanie na dowolnym sprzęcie i urządzeniu

Proces OCR oparty na ML wiąże się jednak ze stosunkowo wysokimi kosztami obliczeniowymi. Zespół musiał zapewnić wymagające obliczeniowo OCR i przetwarzanie końcowe OCR na wielu różnych platformach i architekturach sprzętowych, aby użytkownicy mogli łatwo korzystać z tych funkcji na własnych urządzeniach bez aktywnego połączenia z internetem i bez obaw o prywatność.

Aby to osiągnąć, zespół musiał przenieść kod pierwotnie opracowany do uruchamiania na serwerach Google z systemem Linux, odłączonych od środowiska operacyjnego Google, i zapewnić jego zgodność ze wszystkimi platformami (macOS, Windows i ChromeOS) oraz wszystkimi możliwymi architekturami sprzętowymi.

Poza tym kod działający na serwerach Google zakłada określony poziom bezpieczeństwa w swoim środowisku, ale gdy jest uruchamiany na komputerach użytkowników, nie można tego założyć. Dlatego zespół musiał zadbać o to, aby kod był wystarczająco bezpieczny i nie mógł zostać wykorzystany przez złośliwe oprogramowanie do naruszenia bezpieczeństwa Chrome lub komputera użytkownika.

Ponieważ nie wszyscy użytkownicy potrzebowali tej funkcji, zespół nie uczynił jej niezbędnym elementem Chrome. Zamiast tego zespół zdecydował się udostępniać tę funkcję na żądanie, w zależności od konfiguracji sprzętowej i programowej urządzenia użytkownika.

Szersza dostępność na różnych platformach w ChromeOS

Ułatwienia dostępu nigdy nie są w pełni gotowe, ale stale je ulepszamy. W przyszłości zespół ds. ułatwień dostępu ma nadzieję na poprawę wyznaczania obszarów, UX i wierności, a także na zwiększenie dostępności plików PDF dla wszystkich użytkowników przeglądarki Chrome na każdej platformie. Planuje też dodanie OCR na innych urządzeniach z Chrome, które mogą z tego skorzystać.

Od czasu wprowadzenia OCR opartego na uczeniu maszynowym w przypadku plików PDF zespół rozszerzył obsługę OCR na 77 języków i 7 dodatkowych skryptów: arabski, bengalski, cyrylicę, dewanagari, chiński, japoński i koreański. Użytkownicy mogą teraz korzystać z trybu czytania w Chrome, aby wyodrębniać tekst ze skanowanych dokumentów za pomocą OCR. Dzięki temu mogą uzyskać bardziej przejrzysty i dostępny widok tekstu czytanego w internecie.

Czytniki ekranu będą teraz po raz pierwszy w historii mogły odczytywać pliki PDF na Chromebooku w natywnej aplikacji Media / Galeria. Zespół ds. ułatwień dostępu wbudował w tę natywną aplikację funkcję OCR, dzięki czemu użytkownicy mogą odczytywać pliki PDF offline lub bez konieczności korzystania z przeglądarki. Umożliwia to dostęp do miliardów niedostępnych plików PDF bezpośrednio na Chromebooku.