تسهيل استخدام ملفات PDF من خلال تعلُّم الآلة والتعرّف البصري على الأحرف

لا تقتصر إمكانية الوصول على ترجمة الميزات من لغة إلى أخرى، بل هي نظام كامل من الدعم الهندسي يهدف إلى إنشاء تجربة مستخدم مخصّصة. في العام الماضي، تعاون فريق تسهيل الاستخدام في Chrome وChromeOS مع فريق التعرّف البصري على الحروف (OCR) في Google لتوفير إمكانية وصول ديمقراطية إلى ملفات PDF: يمكن قراءتها على الشاشة، ويمكن التنقّل فيها، ويمكن تشغيلها بسهولة.

12% 60% أكثر من مليون

الزيادة في استخدام ملفات PDF

مدى الوصول إلى مستخدمي ميزات تسهيل الاستخدام

عدد الصفحات التي تم التعرّف البصري على الأحرف فيها أسبوعيًا

مشكلة ملفات PDF

إذا كنت تستخدم قارئ شاشة، ستعرف أنّ أكثر من 360 مليار ملف PDF (أي% 12 من جميع ملفات PDF على الويب) يتعذّر الوصول إليها اليوم. على الرغم من التحسينات التي تم إدخالها على إمكانية الوصول إلى ملفات PDF، يبقى من المحبط مواجهة مستند ضروري لم تتم معالجته بشكل صحيح لقراءته باستخدام قارئ الشاشة، وحتى المستندات التي تتم معالجتها باستخدام تقنية التعرّف البصري على الأحرف قد لا يسهل التنقّل فيها.

تُعدّ تكنولوجيا التعرّف البصري على الأحرف (OCR) المستندة إلى تعلُّم الآلة من أوائل أشكال الذكاء الاصطناعي الحديث التي تم تطبيقها. لكنّ أنظمة التعرّف الضوئي على الحروف الأساسية تقدّم ببساطة قراءة مباشرة للنص على الشاشة، بدون بنية معلومات أو معلومات وصفية أو إشارات سياقية. وبشكل عام، يؤدي ذلك إلى تقديم تجربة مستخدم سيئة حتى عندما تكون ميزة التعرّف البصري على الحروف متاحة.

على الرغم من توفّر أنظمة مصمّمة لتوفير مستويات أعلى من إمكانية الوصول إلى ملفات PDF، فإنّ معظمها عبارة عن خدمات مدفوعة و/أو خارجية، ما يعني أنّه عليك نقل المستند إلى تطبيق آخر لقراءته، ما يؤدي إلى حدوث مشاكل. بالنسبة إلى مستخدمي التقنيات المساعدة، فإنّ توفُّر وظيفة التعرف البصري على الأحرف (OCR) المستندة إلى تعلُّم الآلة داخل قارئ ملفات PDF التلقائي يجعل التجربة أقل اختلافًا. لإنشاء تجربة يسهل الوصول إليها، يجب أن تكون الوظائف متاحة دائمًا وبشكل مجاني.

تطوير نظام تسهيل استخدام شامل

لتقديم أفضل تجربة مستخدم، أراد فريق تسهيل الاستخدام في Chrome وChromeOS استخدام بيانات التعرف البصري على الحروف (OCR) من خلال تعلُّم الآلة لإنشاء إطار عمل يمكن للمستخدمين الذين يعانون من ضعف أو فقدان البصر التنقّل فيه، وليس فقط عرض المعلومات على الشاشة، بل إنشاء عناصر التنقّل والمعالم تلقائيًا.

من خلال المعالجة اللاحقة للبيانات، تمكّن فريق تسهيل الاستخدام من إنشاء أشجار تنقّل وعناصر مميّزة، مثل أرقام الصفحات، بشكل فوري، ما أتاح قراءة ملفات PDF بسهولة أكبر.

المعالجة على أي جهاز وأي جهاز

ومع ذلك، تتطلّب عملية التعرّف البصري على الحروف باستخدام تعلُّم الآلة تكلفة حسابية كبيرة إلى حدّ ما. كان على الفريق توفير ميزة التعرّف البصري على الحروف (OCR) ومعالجة ما بعد التعرّف البصري على الحروف، وهما ميزتان تتطلّبان قدرًا كبيرًا من العمليات الحسابية، وذلك على العديد من المنصات وبنيات الأجهزة المختلفة، حتى يتمكّن المستخدمون من استخدام الميزات بسهولة على أجهزتهم بدون اتصال نشط بالإنترنت وبدون مخاوف بشأن الخصوصية.

ولتحقيق ذلك، كان على الفريق نقل الرمز الذي تم تطويره في الأصل ليتم تشغيله على خوادم Google Linux، والذي تم فصله عن بيئة التشغيل في Google، والمتوافق مع جميع الأنظمة الأساسية المختلفة (MacOS وWindows وChromeOS) وجميع بنى الأجهزة الممكنة.

بالإضافة إلى ذلك، يفترض الرمز الذي يتم تشغيله على خوادم Google مستوى معيّنًا من الأمان في بيئته، ولكن لا يمكن افتراض ذلك عند تشغيل الرمز على أجهزة الكمبيوتر الخاصة بالمستخدمين. نتيجةً لذلك، كان على الفريق أيضًا جعل الرمز آمنًا بدرجة كافية لكي لا يتمكّن أي طرف ضار من استخدامه لاختراق Chrome أو كمبيوتر المستخدم.

وبما أنّ هذه الميزة لم تكن ضرورية لجميع المستخدمين، لم يضمّنها الفريق كجزء أساسي من Chrome. بدلاً من ذلك، اختار الفريق توفير الميزة عند الطلب استنادًا إلى إعدادات الأجهزة والبرامج على جهاز المستخدم.

توفير إمكانية وصول أوسع نطاقًا على ChromeOS

لا يمكن أن تكتمل إمكانية الوصول أبدًا، بل هي في حالة تحسين مستمر. بالنظر إلى المستقبل، يأمل فريق تسهيل الاستخدام في تحسين حدود التحديد وتجربة المستخدم والدقة، مع توسيع نطاق إمكانية الوصول إلى ملفات PDF ليشمل جميع مستخدمي متصفّح Chrome على كل الأنظمة الأساسية، وإضافة ميزة التعرّف الضوئي على الحروف إلى أجهزة Chrome الأخرى التي قد تستفيد منها.

منذ إطلاق ميزة التعرّف البصري على الأحرف (OCR) المستندة إلى تعلُّم الآلة لملفات PDF، وسّع الفريق نطاق توفّر ميزة التعرّف البصري على الأحرف لتشمل 77 لغة وسبع نصوص إضافية: العربية والبنغالية والسيريلية والديفاناغارية والصينية واليابانية والكورية. يمكن للمستخدمين الآن تلخيص المستندات الممسوحة ضوئيًا في وضع القراءة في Chrome باستخدام ميزة التعرّف البصري على الأحرف (OCR) إذا كانوا يريدون عرضًا أكثر تركيزًا وسهولة للنص الذي يقرأونه على الويب.

ولأول مرة على الإطلاق، ستتمكّن قارئات الشاشة من قراءة ملفات PDF على أجهزة Chromebook في تطبيق "الوسائط" أو "المعرض" الأصلي. لقد أضاف فريق إمكانية الوصول تكنولوجيا التعرّف البصري على الأحرف إلى هذا التطبيق الأصلي ليتمكّن المستخدمون من قراءة ملفات PDF بلا إنترنت أو بدون الحاجة إلى استخدام المتصفّح، ما يتيح الوصول إلى مليارات ملفات PDF التي لم يكن بالإمكان الوصول إليها من قبل مباشرةً على جهاز Chromebook.