دسترسی آسان به فایل‌های PDF با استفاده از ML و OCR

دسترسی‌پذیری چیزی بیش از ترجمه‌ی یک به یک ویژگی‌ها است: این یک سیستم کامل از پشتیبانی مهندسی‌شده است که برای ایجاد یک تجربه کاربری سفارشی در نظر گرفته شده است. سال گذشته، تیم دسترسی‌پذیری کروم و ChromeOS با تیم Google OCR همکاری کردند تا دسترسی دموکراتیک به فایل‌های PDF را فراهم کنند: قابل خواندن روی صفحه، قابل پیمایش و راه‌اندازی آسان.

۱۲٪ ۶۰٪ ۱ میلیون+

رشد استفاده از PDF

دسترسی کاربر A11y

صفحات هفتگی OCRed

مشکل فایل‌های PDF

اگر از صفحه‌خوان استفاده می‌کنید، می‌دانید: امروزه بیش از ۳۶۰ میلیارد فایل PDF (۱۲٪ از کل فایل‌های PDF موجود در وب) غیرقابل دسترسی هستند. در حالی که دسترسی به PDF در حال بهبود است، هنوز هم مواجهه با سندی ضروری که به درستی برای خواندن از طریق صفحه پردازش نشده است، ناامیدکننده است - و حتی اسنادی که از طریق OCR پردازش می‌شوند، ممکن است به راحتی قابل پیمایش نباشند.

تشخیص کاراکتر نوری مبتنی بر یادگیری ماشین (ML OCR) یکی از اولین اشکال کاربردی هوش مصنوعی مدرن است. اما سیستم‌های OCR ابتدایی صرفاً خواندن مستقیم متن روی صفحه را ارائه می‌دهند - فاقد معماری اطلاعات، متا اطلاعات و سرنخ‌های زمینه‌ای. در کل، این امر حتی با وجود پشتیبانی از OCR، تجربه کاربری ضعیفی را ارائه می‌دهد.

اگرچه سیستم‌هایی برای سطوح بالاتر دسترسی به PDF طراحی شده‌اند، اما اکثر آنها پولی و/یا خدمات خارجی هستند - شما باید سند را برای خواندن آن به برنامه دیگری منتقل کنید که باعث ایجاد اصطکاک می‌شود. برای کاربران فناوری کمکی، داشتن قابلیت OCR ML داخلی در برنامه پیش‌فرض خواندن PDF، تجربه را کمتر متفاوت می‌کند. برای ایجاد یک تجربه واقعاً در دسترس، این قابلیت باید همیشه به راحتی و به صورت رایگان در دسترس باشد.

توسعه یک سیستم واقعاً قابل دسترس

برای بهترین تجربه کاربری، تیم دسترسی‌پذیری کروم و کروم‌او‌اس می‌خواست از داده‌های خام ML OCR برای ایجاد چارچوبی قابل پیمایش توسط کاربران کم‌بینا یا نابینا استفاده کند - نه تنها اطلاعات را روی صفحه نمایش دهد، بلکه به طور خودکار ناوبری و مکان‌های دیدنی را ایجاد کند.

با پردازش پس از پردازش داده‌ها، تیم دسترسی‌پذیری توانست درخت‌های ناوبری و نشانه‌هایی مانند شماره صفحات را درجا ایجاد کند - نه تنها فایل‌های PDF قابل خواندن بودند، بلکه فرآیند خواندن آنها نیز آسان‌تر شد.

پردازش روی هر سخت‌افزار و هر دستگاهی

با این حال، فرآیند ML OCR با هزینه محاسباتی نسبتاً سنگینی همراه است. این تیم مجبور بود OCR و پس‌پردازش OCR با هزینه محاسباتی بالا را در پلتفرم‌ها و معماری‌های سخت‌افزاری مختلف ارائه دهد، بنابراین کاربران می‌توانستند به راحتی از این ویژگی‌ها در دستگاه خود بدون اتصال فعال اینترنت و بدون نگرانی در مورد حریم خصوصی استفاده کنند.

برای دستیابی به این هدف، تیم مجبور بود کدی را که در ابتدا برای اجرا روی سرورهای گوگل لینوکس، جدا از محیط عملیاتی گوگل، سازگار با تمام پلتفرم‌های مختلف (MacOS، ویندوز و ChromeOS) و تمام معماری‌های سخت‌افزاری ممکن توسعه داده شده بود، منتقل کند.

علاوه بر این، کدی که روی سرورهای گوگل اجرا می‌شود، سطح خاصی از امنیت را در محیط خود فرض می‌کند - اما وقتی کد روی رایانه‌های کاربران اجرا می‌شود، نمی‌توان این فرض را در نظر گرفت. در نتیجه، تیم همچنین باید کد خود را به اندازه کافی ایمن می‌کرد تا یک عامل مخرب نتواند از آن برای به خطر انداختن کروم یا رایانه کاربر استفاده کند.

از آنجایی که این ویژگی مورد نیاز همه کاربران نبود، تیم توسعه‌دهنده آن را به بخش ضروری کروم تبدیل نکرد. در عوض، تیم تصمیم گرفت این ویژگی را بر اساس تقاضا و بر اساس پیکربندی سخت‌افزار و نرم‌افزار دستگاه کاربر ارائه دهد.

دسترسی گسترده‌تر بین پلتفرمی در ChromeOS

دسترسی‌پذیری هیچ‌وقت کامل نیست؛ بلکه دائماً در حال بهبود است. تیم دسترسی‌پذیری با نگاه به آینده، امیدوار است که مرزبندی، تجربه کاربری و وفاداری را بهبود بخشد، در عین حال دسترسی به PDF را برای همه کاربران مرورگر کروم در هر پلتفرمی گسترش دهد و OCR را به سایر دستگاه‌های کروم که ممکن است از آن بهره‌مند شوند، اضافه کند.

از زمان انتشار ML OCR برای فایل‌های PDF، این تیم پشتیبانی OCR را به ۷۷ زبان و هفت خط دیگر گسترش داده است: عربی، بنگالی، سیریلیک، دیوایی، چینی، ژاپنی و کره‌ای. کاربران اکنون می‌توانند اسناد اسکن شده را در حالت مطالعه کروم از طریق OCR خلاصه کنند، برای کاربرانی که می‌خواهند دید متمرکزتر و قابل دسترس‌تری از متنی که در وب می‌خوانند، داشته باشند.

و اکنون برای اولین بار، صفحه‌خوان‌ها می‌توانند فایل‌های PDF را در کروم‌بوک خود در برنامه‌ی اصلی رسانه/گالری بخوانند. تیم دسترسی‌پذیری، OCR را در این برنامه‌ی اصلی تعبیه کرده است تا کاربران بتوانند فایل‌های PDF را به‌صورت آفلاین یا بدون نیاز به مراجعه به مرورگر بخوانند - و میلیاردها فایل PDF غیرقابل دسترس را که اکنون می‌توانند مستقیماً در کروم‌بوک شما قابل دسترسی باشند، آزاد کنند.