การเข้าถึง PDF ที่ราบรื่นด้วย ML และ OCR

การช่วยเหลือพิเศษไม่ได้เป็นเพียงการแปลฟีเจอร์แบบหนึ่งต่อหนึ่ง แต่เป็นระบบการสนับสนุนที่ออกแบบมาทั้งหมดเพื่อสร้างประสบการณ์การใช้งานที่ปรับแต่งสำหรับผู้ใช้ เมื่อปีที่แล้ว ทีมการช่วยเหลือพิเศษของ Chrome และ ChromeOS ได้ร่วมมือกับทีม OCR ของ Google เพื่อมอบการเข้าถึง PDF ที่เท่าเทียมกัน ซึ่งก็คือ PDF ที่อ่านได้ด้วยโปรแกรมอ่านหน้าจอ นำทางได้ และเปิดใช้งานได้ง่าย

12% 60% 1 ล้านขึ้นไป

การเติบโตของการใช้งาน PDF

การเข้าถึงผู้ใช้ที่ใช้การช่วยเหลือพิเศษ

หน้าหนังสือพิมพ์รายสัปดาห์ที่ผ่านการ OCR

ปัญหาเกี่ยวกับ PDF

หากใช้โปรแกรมอ่านหน้าจอ คุณจะทราบว่าปัจจุบันมี PDF มากกว่า 3.6 แสนล้านชุด (12% ของ PDF ทั้งหมดบนเว็บ) ที่ไม่เอื้อต่อการอ่าน แม้ว่าการช่วยเหลือพิเศษสำหรับ PDF จะได้รับการปรับปรุงอย่างต่อเนื่อง แต่ก็ยังคงน่าหงุดหงิดเมื่อพบเอกสารที่จำเป็นซึ่งไม่ได้ประมวลผลอย่างถูกต้องสำหรับการอ่านหน้าจอ และแม้แต่เอกสารที่ประมวลผลผ่าน OCR ก็อาจนำทางได้ยาก

การรู้จำอักขระด้วยภาพโดยแมชชีนเลิร์นนิง (ML OCR) เป็นรูปแบบแรกๆ ของ AI สมัยใหม่ แต่ระบบ OCR ขั้นพื้นฐานจะอ่านข้อความบนหน้าจอโดยตรงโดยไม่มีสถาปัตยกรรมข้อมูล ข้อมูลเมตา และคำใบ้ตามบริบท โดยรวมแล้ว การดำเนินการนี้จะทำให้ UX แย่แม้ว่าจะรองรับ OCR ก็ตาม

แม้ว่าจะมีระบบที่ออกแบบมาเพื่อเพิ่มระดับการช่วยเหลือพิเศษใน PDF แต่ส่วนใหญ่เป็นบริการแบบชำระเงินและ/หรือบริการภายนอก ซึ่งคุณต้องโอนเอกสารไปยังแอปอื่นเพื่ออ่าน ทำให้เกิดความยุ่งยาก สำหรับผู้ใช้เทคโนโลยีความช่วยเหลือ การมีฟังก์ชัน OCR ของ ML ภายในในโปรแกรมอ่าน PDF เริ่มต้นจะช่วยให้ประสบการณ์การใช้งานแตกต่างกันน้อยลง ฟังก์ชันการทำงานต้องพร้อมใช้งานอยู่เสมอและใช้งานได้ฟรีเพื่อให้ผู้ใช้ได้รับประสบการณ์ที่เข้าถึงได้จริง

การพัฒนาระบบที่เข้าถึงได้จริง

ทีมการช่วยเหลือพิเศษของ Chrome และ ChromeOS ต้องการใช้ข้อมูล OCR ของ ML แบบดิบเพื่อสร้างเฟรมเวิร์กที่ผู้ใช้ที่มีสายตาเลือนรางหรือมองไม่เห็นสามารถไปยังส่วนต่างๆ ได้ เพื่อให้ผู้ใช้ได้รับประสบการณ์การใช้งานที่ดีที่สุด ไม่ใช่แค่การแสดงข้อมูลบนหน้าจอ แต่ยังรวมถึงการสร้างการนำทางและจุดสังเกตโดยอัตโนมัติ

การประมวลผลข้อมูลภายหลังทำให้ทีมการช่วยเหลือพิเศษสร้างโครงสร้างการนำทางและจุดสังเกต เช่น หมายเลขหน้า ได้ทันที ซึ่งไม่เพียงแต่จะอ่าน PDF ได้เท่านั้น แต่ยังทำให้กระบวนการอ่านง่ายขึ้นด้วย

ประมวลผลบนฮาร์ดแวร์และอุปกรณ์ใดก็ได้

อย่างไรก็ตาม กระบวนการ OCR ของ ML มีต้นทุนด้านการคำนวณที่ค่อนข้างสูง ทีมต้องให้บริการ OCR ที่ใช้การคำนวณสูงและการประมวลผล OCR ภายหลังในแพลตฟอร์มและสถาปัตยกรรมฮาร์ดแวร์ที่แตกต่างกันมากมาย เพื่อให้ผู้ใช้สามารถใช้ฟีเจอร์ต่างๆ ในอุปกรณ์ของตนเองได้อย่างง่ายดายโดยไม่ต้องเชื่อมต่ออินเทอร์เน็ตและไม่ต้องกังวลเรื่องความเป็นส่วนตัว

เพื่อให้บรรลุเป้าหมายนี้ ทีมงานจึงต้องย้ายข้อมูลโค้ดที่พัฒนาขึ้นเพื่อเรียกใช้บนเซิร์ฟเวอร์ Linux ของ Google ซึ่งไม่ได้เชื่อมต่อกับสภาพแวดล้อมการปฏิบัติงานของ Google และเข้ากันได้กับแพลตฟอร์มต่างๆ (MacOS, Windows และ ChromeOS) รวมถึงสถาปัตยกรรมฮาร์ดแวร์ที่เป็นไปได้ทั้งหมด

นอกจากนี้ โค้ดที่ทำงานบนเซิร์ฟเวอร์ของ Google จะถือว่ามีระดับความปลอดภัยหนึ่งๆ ในสภาพแวดล้อมของตน แต่เมื่อโค้ดทำงานบนคอมพิวเตอร์ของผู้ใช้ เราจะถือว่ามีระดับความปลอดภัยดังกล่าวไม่ได้ ด้วยเหตุนี้ ทีมจึงต้องทำให้โค้ดมีความปลอดภัยมากพอที่เอเจนต์ที่เป็นอันตรายจะไม่สามารถใช้โค้ดดังกล่าวเพื่อทำให้ Chrome หรือคอมพิวเตอร์ของผู้ใช้ตกอยู่ในความเสี่ยง

เนื่องจากผู้ใช้บางรายไม่จำเป็นต้องใช้ฟีเจอร์นี้ ทีมจึงไม่ได้ทำให้ฟีเจอร์นี้เป็นส่วนสำคัญของ Chrome แต่ทีมเลือกที่จะส่งมอบฟีเจอร์นี้ตามคำขอโดยอิงตามการกำหนดค่าฮาร์ดแวร์และซอฟต์แวร์ของผู้ใช้ในอุปกรณ์

การช่วยเหลือพิเศษแบบข้ามแพลตฟอร์มที่ครอบคลุมมากขึ้นใน ChromeOS

การช่วยเหลือพิเศษไม่มีวันเสร็จสมบูรณ์ แต่จะมีการปรับปรุงอย่างต่อเนื่อง ในอนาคต ทีมการช่วยเหลือพิเศษหวังว่าจะปรับปรุงการล้อมรอบ UX และความเที่ยงตรง พร้อมทั้งขยายการช่วยเหลือพิเศษสำหรับ PDF ให้แก่ผู้ใช้เบราว์เซอร์ Chrome ทุกคนในทุกแพลตฟอร์ม รวมถึงเพิ่ม OCR ลงในอุปกรณ์ Chrome อื่นๆ ที่อาจได้รับประโยชน์

นับตั้งแต่เปิดตัว ML OCR สำหรับ PDF ทีมได้ขยายการรองรับ OCR เป็น 77 ภาษาและอีก 7 สคริปต์ ได้แก่ อารบิก เบงกาลี ซีริลลิก เทวนาครี จีน ญี่ปุ่น และเกาหลี ตอนนี้ผู้ใช้สามารถกลั่นกรองเอกสารที่สแกนในโหมดการอ่านของ Chrome ผ่าน OCR สำหรับผู้ใช้ที่ต้องการมุมมองข้อความที่อ่านบนเว็บที่เน้นและเข้าถึงได้มากขึ้น

และตอนนี้โปรแกรมอ่านหน้าจอจะอ่าน PDF ใน Chromebook ได้เป็นครั้งแรกในแอปสื่อ / แกลเลอรีดั้งเดิม ทีมการช่วยเหลือพิเศษได้สร้าง OCR ลงในแอปดั้งเดิมนี้เพื่อให้ผู้ใช้สามารถอ่าน PDF แบบออฟไลน์หรือโดยไม่ต้องไปที่เบราว์เซอร์ ซึ่งจะช่วยให้ผู้ใช้เข้าถึง PDF ที่ไม่สามารถเข้าถึงได้นับพันล้านไฟล์ใน Chromebook ได้โดยตรง