テキスト認識 v2

ML Kit テキスト認識 v2 API は、中国語、Devanagari、日本語、韓国語、およびラテン文字セットのテキストを認識できます。この API を使用して、クレジット カード、領収書、名刺の処理などのデータ入力タスクを自動化することもできます。

iOS Android

主な機能

  • さまざまな文字と言語でテキストを認識 - 中国語、Devanagari、日本語、韓国語、ラテン文字のテキストを認識できます
  • テキストの構造を分析する記号、要素、行、段落の検出をサポートします。
  • テキストの言語を識別する 認識されたテキストの言語を識別します。
  • リアルタイム認識 さまざまなデバイスでテキストをリアルタイムで認識できます。

テキスト構造

テキスト認識機能は、テキストをブロック、行、要素、記号にセグメント化します。大まかな説明:

  • Block は、段落や列などの連続するテキスト行のセットです。

  • は、同じ軸上に連続する単語のセットです。

  • Element は、ほとんどのラテン言語では同一軸に連続する英数字(単語)であり、その他の言語では 1 語です。

  • 記号は、ほとんどのラテン文字で同じ軸上または他の文字に付けた 1 つの英数字です

以下の画像は、これらの例を降順で示しています。シアンで最初に強調表示されるブロックは、テキストのブロックです。ハイライトされたブロックの 2 番目のセット(青色)はテキスト行です。最後に、強調表示されている 3 つ目のブロックのセットはダークブルーです。

検出されたすべてのブロック、ライン、要素、記号について、API は境界ボックス、コーナー ポイント、回転情報、信頼スコア、認識された言語、認識されたテキストを返します。

検索結果の例


写真: Dietmar RabichWikimedia Commons「Düsseldorf、Wege der parlamentarischen Demokratie -- 2015 -- 8123」CC BY-SA 4.0 {/13
認識されたテキスト
Text Wege
der parlamentarischen
Demokratie
ブロック数 (1 ブロック)
ブロック 0
Text Wege der parlamentarischen Demokratie
フレーム (296、665 ~ 796、882)
四隅の点 (296, 719)、(778, 665)、(796, 828)、(314, 882)
認識された言語コード de
(3 行)
行 0
Text Wege der
フレーム (434、678 ~ 670, 749)
四隅の点 (434, 705)、(665, 678)、(670, 722)、(439, 749)
認識された言語コード de
信頼スコア 0.8766741
回転角度 -6.6116457
要素 (2 個の要素)
要素 0
Text ウェージ
フレーム (434、689 ~ 575、749)
四隅の点 (434, 705)、(570, 689)、(575, 733)、(439, 749)
認識された言語コード de
信頼スコア 0.8964844
回転角度 -6.6116457
要素 (4 個の要素)
記号 0
Text W
フレーム (434、698 ~ 500、749)
四隅の点 (434, 706)、(495, 698)、(500, 741)、(439, 749)
信頼スコア 0.87109375
回転角度 -6.611646