ML 및 OCR을 통한 원활한 PDF 접근성

접근성은 기능의 일대일 번역 그 이상입니다. 맞춤형 사용자 환경을 만들기 위한 엔지니어링된 지원 시스템 전체입니다. 작년에 Chrome 및 ChromeOS 접근성 팀은 Google OCR 팀과 협력하여 스크린 리더로 읽을 수 있고, 탐색 가능하며, 실행하기 쉬운 PDF에 대한 접근성을 민주화했습니다.

12% 60% 1백만 개 초과

PDF 사용량 증가

접근성 사용자 도달범위

주간 OCR 페이지 수

PDF 문제

스크린 리더를 사용하는 경우 오늘날 접근성을 갖추지 못한 PDF가 3, 600억 개 이상 (웹에 있는 모든 PDF의 12%)이라는 사실을 알고 계실 것입니다. PDF 접근성이 개선되고 있지만 스크린 리더를 위해 제대로 처리되지 않은 필수 문서를 접하는 것은 여전히 답답한 일입니다. OCR을 통해 처리된 문서조차 탐색하기 어려울 수 있습니다.

머신러닝 광학 문자 인식 (ML OCR)은 현대 AI의 초기 적용 형태 중 하나입니다. 하지만 기본적인 OCR 시스템은 정보 아키텍처, 메타 정보, 컨텍스트 단서가 없는 화면의 텍스트를 직접 읽어들일 뿐입니다. 전반적으로 OCR이 지원되더라도 UX가 좋지 않습니다.

PDF 접근성을 높이기 위해 설계된 시스템이 있지만 대부분 유료 또는 외부 서비스입니다. 문서를 읽으려면 다른 앱으로 전송해야 하므로 불편함이 발생합니다. 보조 기술 사용자의 경우 기본 PDF 리더 내에 내부 ML OCR 기능이 있으면 환경이 덜 달라집니다. 진정으로 접근 가능한 환경을 만들려면 기능이 항상 쉽게 제공되고 무료로 제공되어야 합니다.

진정으로 접근 가능한 시스템 개발

최상의 UX를 위해 Chrome 및 ChromeOS 접근성팀은 원시 ML OCR 데이터를 사용하여 시력이 낮거나 없는 사용자가 탐색할 수 있는 프레임워크를 만들고자 했습니다. 화면에 정보를 표시하는 것뿐만 아니라 탐색과 랜드마크를 자동으로 생성하는 것입니다.

접근성 팀은 데이터를 후처리하여 페이지 번호와 같은 탐색 트리와 랜드마크를 즉석에서 빌드할 수 있었습니다. PDF를 읽을 수 있을 뿐만 아니라 읽는 과정도 더 쉬워졌습니다.

모든 하드웨어 및 기기에서 처리

하지만 ML OCR 프로세스에는 상당한 컴퓨팅 비용이 발생합니다. 팀은 사용자가 활성 인터넷 연결 없이 개인 정보 보호 문제 없이 자신의 기기에서 기능을 쉽게 사용할 수 있도록 다양한 플랫폼과 하드웨어 아키텍처에서 계산 비용이 많이 드는 OCR과 OCR 후처리를 제공해야 했습니다.

이를 위해 팀은 원래 Google Linux 서버에서 실행되도록 개발된 코드를 Google의 운영 환경에서 분리하고, 다양한 플랫폼 (MacOS, Windows, ChromeOS) 및 가능한 모든 하드웨어 아키텍처와 호환되도록 마이그레이션해야 했습니다.

또한 Google 서버에서 실행되는 코드는 환경에서 특정 수준의 보안을 가정하지만, 코드가 사용자의 컴퓨터에서 실행되는 경우에는 이를 가정할 수 없습니다. 따라서 팀은 악성 에이전트가 Chrome이나 사용자의 컴퓨터를 손상시키는 데 사용할 수 없도록 코드를 충분히 안전하게 만들어야 했습니다.

이 기능은 모든 사용자에게 필요하지 않았기 때문에 팀에서는 이 기능을 Chrome의 필수 부분으로 만들지 않았습니다. 대신 팀은 기기의 사용자 하드웨어 및 소프트웨어 구성을 기반으로 주문형 기능을 제공하기로 했습니다.

ChromeOS의 광범위한 크로스 플랫폼 접근성

접근성은 결코 완성되지 않으며 지속적으로 개선되는 상태에 있습니다. 향후 접근성팀은 모든 플랫폼의 모든 Chrome 브라우저 사용자에게 PDF 접근성을 확장하는 동시에 바운딩, UX, 충실도를 개선하고 OCR을 도움이 될 수 있는 다른 Chrome 기기에 추가할 계획입니다.

PDF용 ML OCR을 출시한 이후로 OCR 지원이 77개 언어와 7개의 추가 스크립트(아랍어, 벵골어, 키릴 문자, 데바나가리, 중국어, 일본어, 한국어)로 확대되었습니다. 이제 사용자는 웹에서 읽는 텍스트를 더 집중적이고 접근성 높은 뷰로 보려는 사용자를 위해 OCR을 통해 Chrome의 읽기 모드에서 스캔한 문서를 요약할 수 있습니다.

이제 스크린 리더가 Chromebook의 기본 미디어 / 갤러리 앱에서 PDF를 읽을 수 있습니다. 접근성팀은 사용자가 오프라인에서 또는 브라우저를 사용하지 않고도 PDF를 읽을 수 있도록 이 기본 앱에 OCR을 내장했습니다. 이제 Chromebook에서 직접 액세스할 수 있는 수십억 개의 액세스 불가 PDF가 잠금 해제됩니다.