ממשק ה-API לזיהוי טקסט ב-ML Kit יכול לזהות טקסט בכל מערכת תווים לטינית. ניתן להשתמש בו גם כדי להפוך משימות של הזנת נתונים לאוטומטיות, כמו עיבוד כרטיסי אשראי, קבלות וכרטיסי ביקור.
יכולות עיקריות
- זיהוי טקסט בשפות המבוססות על לטינית תומך בזיהוי טקסט באמצעות כתב לטיני
- ניתוח המבנה של טקסט תומך בזיהוי של מילים/רכיבים, שורות ופסקאות
- זיהוי השפה של הטקסט זיהוי השפה של הטקסט המזוהה
- טביעת רגל קטנה של אפליקציה ב-Android, ה-API מוצע כספרייה לא מקובצות דרך שירותי Google Play
- זיהוי בזמן אמת: זיהוי טקסט בזמן אמת במגוון רחב של מכשירים
מבנה הטקסט
הכלי לזיהוי טקסט מפלח טקסט לבלוקים, לקווים, לרכיבים ולסמלים. באופן גס:
חסימה היא קבוצה רציפה של שורות טקסט, כגון פסקה או עמודה.
שורה היא קבוצה רציפת של מילים באותו ציר,
רכיב הוא קבוצה רציפה של תווים אלפאנומריים ("word") באותו ציר ברוב השפות הלטיניות, או מילה בשפות אחרות
סמל הוא תו אלפאנומרי יחיד באותו ציר, ברוב השפות הלטיניות, או תו בשפות אחרות
התמונה הבאה מציגה דוגמאות לכל אחת מהן בסדר יורד. הבלוק המודגש הראשון בציאן הוא בלוק טקסט. הקבוצה השנייה של בלוקים מודגשים, בכחול, היא שורות טקסט. לבסוף, הקבוצה השלישית של בלוקים מודגשים, בכחול כהה, היא Words.
עבור כל הבלוקים, הקווים, הרכיבים והסמלים שזוהו, ה-API מחזיר את התיבות הגובלות, את נקודות הפינות, את פרטי הסבב, את ציון המהימנות, את השפות שזוהו ואת הטקסט המזוהה.
תוצאות לדוגמה

תמונה: Ditmar Rabitch, Wikimedia Commons, "Düsselfooter, Wege der parlamentaryschen Demokratie -- 2015 -- 8123", CC BY-SA 4.0
טקסט מוכר | |
---|---|
טקסט | Wege der paralamentaryschen דמוקרטי |
חסימות | (בלוק אחד) |
חסימה 0 | |
---|---|
טקסט | ווג' דר פרלמנטצ'ן דמוקרטיה |
פריים | (296, 665 - 796, 882) |
נקודות פינתיות | (296, 719), (778, 665), (796, 828), (314, 882) |
קוד שפה מוכר | de |
קווים | (3 שורות) |
שורה 0 | |
---|---|
טקסט | ווג' דר |
פריים | (434, 678 - 670, 749) |
נקודות פינתיות | (434, 705), (665, 678), (670, 722), (439, 749) |
קוד שפה מוכר | de |
ציון מהימנות | 0.8766741 |
מעלות סיבוב | -6.6116457 |
Elements | (שני רכיבים) |
רכיב 0 | |
---|---|
טקסט | ווג' |
פריים | (434, 689 - 575, 749) |
נקודות פינתיות | (434, 705), (570, 689), (575, 733), (439, 749) |
קוד שפה מוכר | de |
ציון מהימנות | 0.8964844 |
מעלות סיבוב | -6.6116457 |
Elements | (4 רכיבים) |
סמל 0 | |
---|---|
טקסט | W |
פריים | (434, 698 - 500, 749) |
נקודות פינתיות | (434, 706), (495, 698), (500, 741), (439, 749) |
ציון מהימנות | 0.87109375 |
מעלות סיבוב | -6.611646 |