זיהוי טקסט

קל לארגן דפים בעזרת אוספים אפשר לשמור ולסווג תוכן על סמך ההעדפות שלך.

ממשק ה-API לזיהוי טקסט ב-ML Kit יכול לזהות טקסט בכל מערכת תווים לטינית. ניתן להשתמש בו גם כדי להפוך משימות של הזנת נתונים לאוטומטיות, כמו עיבוד כרטיסי אשראי, קבלות וכרטיסי ביקור.

iOS Android

יכולות עיקריות

  • זיהוי טקסט בשפות המבוססות על לטינית תומך בזיהוי טקסט באמצעות כתב לטיני
  • ניתוח המבנה של טקסט תומך בזיהוי של מילים/רכיבים, שורות ופסקאות
  • זיהוי השפה של הטקסט זיהוי השפה של הטקסט המזוהה
  • טביעת רגל קטנה של אפליקציה ב-Android, ה-API מוצע כספרייה לא מקובצות דרך שירותי Google Play
  • זיהוי בזמן אמת: זיהוי טקסט בזמן אמת במגוון רחב של מכשירים

מבנה הטקסט

הכלי לזיהוי טקסט מפלח טקסט לבלוקים, לקווים, לרכיבים ולסמלים. באופן גס:

  • חסימה היא קבוצה רציפה של שורות טקסט, כגון פסקה או עמודה.

  • שורה היא קבוצה רציפת של מילים באותו ציר,

  • רכיב הוא קבוצה רציפה של תווים אלפאנומריים ("word") באותו ציר ברוב השפות הלטיניות, או מילה בשפות אחרות

  • סמל הוא תו אלפאנומרי יחיד באותו ציר, ברוב השפות הלטיניות, או תו בשפות אחרות

התמונה הבאה מציגה דוגמאות לכל אחת מהן בסדר יורד. הבלוק המודגש הראשון בציאן הוא בלוק טקסט. הקבוצה השנייה של בלוקים מודגשים, בכחול, היא שורות טקסט. לבסוף, הקבוצה השלישית של בלוקים מודגשים, בכחול כהה, היא Words.

עבור כל הבלוקים, הקווים, הרכיבים והסמלים שזוהו, ה-API מחזיר את התיבות הגובלות, את נקודות הפינות, את פרטי הסבב, את ציון המהימנות, את השפות שזוהו ואת הטקסט המזוהה.

תוצאות לדוגמה


תמונה: Ditmar Rabitch, Wikimedia Commons, "Düsselfooter, Wege der parlamentaryschen Demokratie -- 2015 -- 8123", CC BY-SA 4.0
טקסט מוכר
טקסט Wege
der paralamentaryschen
דמוקרטי
חסימות (בלוק אחד)
חסימה 0
טקסט ווג' דר פרלמנטצ'ן דמוקרטיה
פריים (296, 665 - 796, 882)
נקודות פינתיות (296, 719), (778, 665), (796, 828), (314, 882)
קוד שפה מוכר de
קווים (3 שורות)
שורה 0
טקסט ווג' דר
פריים (434, 678 - 670, 749)
נקודות פינתיות (434, 705), (665, 678), (670, 722), (439, 749)
קוד שפה מוכר de
ציון מהימנות 0.8766741
מעלות סיבוב -6.6116457
Elements (שני רכיבים)
רכיב 0
טקסט ווג'
פריים (434, 689 - 575, 749)
נקודות פינתיות (434, 705), (570, 689), (575, 733), (439, 749)
קוד שפה מוכר de
ציון מהימנות 0.8964844
מעלות סיבוב -6.6116457
Elements (4 רכיבים)
סמל 0
טקסט W
פריים (434, 698 - 500, 749)
נקודות פינתיות (434, 706), (495, 698), (500, 741), (439, 749)
ציון מהימנות 0.87109375
מעלות סיבוב -6.611646