נגישות קלה לקובצי PDF באמצעות ML ו-OCR

נגישות היא לא רק תרגום של תכונות: זהו מערך שלם של תמיכה מתוכננת, שמטרתו ליצור חוויית משתמש מותאמת אישית. בשנה שעברה, צוות הנגישות של Chrome ו-ChromeOS שיתף פעולה עם צוות ה-OCR של Google כדי לספק נגישות דמוקרטית לקובצי PDF: קריאה במסך, ניווט קל והפעלה פשוטה.

12% 60% יותר ממיליון

גידול בשימוש ב-PDF

פוטנציאל החשיפה למשתמשים (נגישות)

מספר הדפים שבוצע בהם OCR בשבוע

הבעיה עם קובצי PDF

אם אתם משתמשים בקורא מסך, אתם יודעים ש-360 מיליארד קובצי PDF (12% מכל קובצי ה-PDF באינטרנט) לא נגישים היום. הנגישות של קובצי PDF משתפרת כל הזמן, אבל עדיין מתסכל להיתקל במסמך נחוץ שלא עבר עיבוד מתאים לקריאה באמצעות קורא מסך – ואפילו במסמכים שעברו עיבוד באמצעות OCR יכול להיות שיהיה קשה להתמצא.

זיהוי תווים אופטי (OCR) באמצעות למידת מכונה (ML) הוא אחת הצורות המוקדמות ביותר של בינה מלאכותית מודרנית. אבל מערכות OCR בסיסיות פשוט מספקות קריאה ישירה של הטקסט במסך – ללא ארכיטקטורת מידע, מטא-מידע ורמזים הקשריים. בסך הכול, זה מספק חוויית משתמש גרועה גם כשיש תמיכה ב-OCR.

יש מערכות שנועדו להנגשת קובצי PDF ברמה גבוהה יותר, אבל רובן הן שירותים בתשלום או שירותים חיצוניים – צריך להעביר את המסמך לאפליקציה אחרת כדי לקרוא אותו, וזה יוצר חיכוך. למשתמשים בטכנולוגיה מסייעת, העובדה שיש פונקציונליות פנימית של OCR מבוסס-ML בתוך קורא ה-PDF שמוגדר כברירת מחדל מצמצמת את ההבדלים בחוויית השימוש. כדי ליצור חוויה נגישה באמת, הפונקציונליות צריכה להיות זמינה תמיד ובחינם.

פיתוח מערכת נגישה באמת

כדי לספק את חוויית המשתמש הטובה ביותר, צוות הנגישות של Chrome ו-ChromeOS רצה להשתמש בנתוני OCR גולמיים של ML כדי ליצור מסגרת שמשתמשים עם ראייה חלשה או ללא ראייה יוכלו לנווט בה – לא רק להציג את המידע במסך, אלא גם ליצור באופן אוטומטי ניווט ונקודות ציון.

בעזרת עיבוד הנתונים, צוות הנגישות הצליח ליצור עצי ניווט ונקודות ציון כמו מספרי עמודים תוך כדי תנועה – לא רק שאפשר לקרוא קובצי PDF, אלא שתהליך הקריאה שלהם נעשה קל יותר.

עיבוד בכל חומרה ובכל מכשיר

עם זאת, תהליך ה-OCR של ML כרוך בעלות חישובית גבוהה למדי. הצוות היה צריך לספק OCR יקר מבחינת חישובים ועיבוד אחרי OCR בפלטפורמות רבות ובארכיטקטורות חומרה שונות, כדי שהמשתמשים יוכלו להשתמש בתכונות בקלות במכשיר שלהם בלי חיבור אינטרנט פעיל ובלי חששות לגבי פרטיות.

כדי להשיג את זה, הצוות היה צריך להעביר קוד שפותח במקור להרצה בשרתי Google Linux, ללא חיבור לסביבת התפעול של Google, ותואם לכל הפלטפורמות השונות (MacOS,‏ Windows ו-ChromeOS) ולכל ארכיטקטורות החומרה האפשריות.

בנוסף, הקוד שפועל בשרתים של Google מניח רמת אבטחה מסוימת בסביבה שלו, אבל כשמריצים את הקוד במחשבים של משתמשים, אי אפשר להניח את זה. לכן, הצוות היה צריך גם לוודא שהקוד מאובטח מספיק כדי שגורם זדוני לא יוכל להשתמש בו כדי לפגוע ב-Chrome או במחשב של המשתמש.

מכיוון שלא כל המשתמשים צריכים את התכונה הזו, הצוות לא הפך אותה לחלק חיוני ב-Chrome. במקום זאת, הצוות בחר להפיץ את התכונה לפי דרישה על סמך הגדרות החומרה והתוכנה של המשתמש במכשיר.

נגישות רחבה יותר בין פלטפורמות ב-ChromeOS

הנגישות אף פעם לא מושלמת, ותמיד יש מקום לשיפור. במבט קדימה, צוות הנגישות מקווה לשפר את התחום, את חוויית המשתמש ואת רמת הדיוק, תוך הרחבת הנגישות של קובצי PDF לכל משתמשי דפדפן Chrome בכל פלטפורמה , ולהוסיף OCR למכשירי Chrome אחרים שעשויים להפיק מכך תועלת.

מאז השקת ה-OCR מבוסס-ML לקובצי PDF, הצוות הרחיב את התמיכה ב-OCR ל-77 שפות ולשבעה סקריפטים נוספים: ערבית, בנגלית, קירילית, דבאנגרי, סינית, יפנית וקוריאנית. משתמשים יכולים עכשיו להשתמש ב-OCR כדי להפיק טקסט מקובצי PDF סרוקים במצב קריאה ב-Chrome. כך הם יכולים לקרוא את הטקסט באינטרנט בצורה ממוקדת ונגישה יותר.

בנוסף, קוראי מסך יוכלו לקרוא קובצי PDF ב-Chromebook בפעם הראשונה אי פעם, באמצעות אפליקציית המדיה או הגלריה המובנית. צוות הנגישות שילב באפליקציה המובנית הזו OCR, כדי שהמשתמשים יוכלו לקרוא קובצי PDF במצב אופליין או בלי להיכנס לדפדפן. כך נפתחת הגישה למיליארדי קובצי PDF לא נגישים, שאפשר עכשיו לגשת אליהם ישירות ב-Chromebook.