ユーザー補助は、機能の 1 対 1 の翻訳だけではありません。カスタマイズされたユーザー エクスペリエンスを実現するために設計されたサポートのシステム全体です。昨年、Chrome と ChromeOS のユーザー補助機能チームは Google OCR チームと提携し、PDF のユーザー補助機能を民主化しました。これにより、PDF をスクリーン リーダーで読み上げたり、操作したり、簡単に起動したりできるようになりました。
| 12% | 60% | 100 万以上 |
|---|---|---|
PDF の使用状況の増加 | ユーザー補助機能のユーザーリーチ | 週ごとの OCR ページ数 |
PDF の問題
スクリーン リーダーを使用している方はご存知でしょう。現在、3, 600 億以上の PDF(ウェブ上の全 PDF の 12%)にアクセスできません。PDF のアクセシビリティは向上していますが、スクリーン リーダー用に適切に処理されていない必要なドキュメントに遭遇すると、依然として不便です。OCR で処理されたドキュメントでさえ、簡単に操作できるとは限りません。
機械学習光学式文字認識(ML OCR)は、最新の AI の初期の応用形態の 1 つです。しかし、基本的な OCR システムは、情報アーキテクチャ、メタ情報、コンテキストの手がかりがない状態で、画面上のテキストを直接読み取るだけです。全体として、OCR がサポートされている場合でも、ユーザー エクスペリエンスは低下します。
PDF のアクセシビリティを高めるように設計されたシステムもありますが、ほとんどは有料または外部化されたサービスです。ドキュメントを別のアプリに転送して読み取る必要があるため、手間がかかります。支援技術のユーザーにとって、デフォルトの PDF リーダーに内部 ML OCR 機能が搭載されていることで、エクスペリエンスの差が小さくなります。真にアクセシブルな体験を実現するには、機能が常にすぐに利用可能で、無料で利用できる必要があります。
真にアクセスしやすいシステムを開発する
Chrome と ChromeOS のユーザー補助チームは、最高のユーザー エクスペリエンスを実現するため、ML OCR の生データを使用して、視覚障がいのあるユーザーが操作できるフレームワークを作成したいと考えていました。単に情報を画面に表示するだけでなく、ナビゲーションとランドマークを自動的に生成するフレームワークです。
アクセシビリティ チームは、データを後処理することで、ページ番号などのナビゲーション ツリーやランドマークをその場で作成できるようになりました。これにより、PDF を読み取れるだけでなく、読み取りプロセスも簡素化されました。
あらゆるハードウェアとデバイスで処理
ただし、ML OCR のプロセスには、かなり大きな計算コストがかかります。チームは、さまざまなプラットフォームとハードウェア アーキテクチャで計算コストの高い OCR と OCR 後処理を提供する必要がありました。これにより、ユーザーはアクティブなインターネット接続がなくても、プライバシーの懸念なしに、自分のデバイスで機能を簡単に使用できるようになりました。
これを実現するため、チームは、Google の運用環境から切り離され、さまざまなプラットフォーム(macOS、Windows、ChromeOS)とあらゆるハードウェア アーキテクチャに対応するように、Google Linux サーバーで実行するために開発されたコードを移行する必要がありました。
また、Google サーバーで実行されるコードは、環境に一定のセキュリティ レベルがあることを前提としていますが、ユーザーのコンピュータでコードが実行される場合は、この前提が成り立ちません。そのため、チームは、悪意のあるエージェントがコードを使用して Chrome やユーザーのコンピュータを侵害できないように、コードを十分に安全にする必要もありました。
この機能はすべてのユーザーが必要とするものではないため、チームは Chrome の不可欠な部分とはしませんでした。代わりに、デバイスのハードウェアとソフトウェアの構成に基づいて、オンデマンドで機能を配信することにしました。
ChromeOS でのクロスプラットフォーム アクセシビリティの拡大
アクセシビリティに完成はありません。常に改善を続ける必要があります。アクセシビリティ チームは、今後、バウンディング、UX、忠実度を改善し、PDF のアクセシビリティをすべてのプラットフォームのすべての Chrome ブラウザ ユーザーに拡大するとともに、OCR を他の Chrome デバイスにも追加して、ユーザーの利便性を高めることを目指しています。
PDF 用 ML OCR のリリース以来、OCR のサポートは 77 言語と 7 つの追加スクリプト(アラビア語、ベンガル語、キリル文字、デーヴァナーガリー文字、中国語、日本語、韓国語)に拡大されています。Chrome のリーディング モードで、スキャンしたドキュメントを OCR で要約できるようになりました。これにより、ウェブで読むテキストをより集中して見やすく表示したいユーザーは、この機能を利用できます。
また、スクリーン リーダーで Chromebook の ネイティブのメディア / ギャラリー アプリで PDF を読み上げられるようになります。アクセシビリティ チームは、このネイティブ アプリに OCR を組み込みました。これにより、ユーザーはオフラインで、またはブラウザを開くことなく PDF を読み上げられるようになり、Chromebook で直接アクセスできる PDF が何十億件も増えます。