ML Kit テキスト認識 v2 API は、中国語、Devanagari、日本語、韓国語、およびラテン文字セットのテキストを認識できます。この API を使用して、クレジット カード、領収書、名刺の処理などのデータ入力タスクを自動化することもできます。
主な機能
- さまざまな文字と言語でテキストを認識 - 中国語、Devanagari、日本語、韓国語、ラテン文字のテキストを認識できます
- テキストの構造を分析する記号、要素、行、段落の検出をサポートします。
- テキストの言語を識別する 認識されたテキストの言語を識別します。
- リアルタイム認識 さまざまなデバイスでテキストをリアルタイムで認識できます。
テキスト構造
テキスト認識機能は、テキストをブロック、行、要素、記号にセグメント化します。大まかな説明:
Block は、段落や列などの連続するテキスト行のセットです。
線は、同じ軸上に連続する単語のセットです。
Element は、ほとんどのラテン言語では同一軸に連続する英数字(単語)であり、その他の言語では 1 語です。
記号は、ほとんどのラテン文字で同じ軸上または他の文字に付けた 1 つの英数字です
以下の画像は、これらの例を降順で示しています。シアンで最初に強調表示されるブロックは、テキストのブロックです。ハイライトされたブロックの 2 番目のセット(青色)はテキスト行です。最後に、強調表示されている 3 つ目のブロックのセットはダークブルーです。
検出されたすべてのブロック、ライン、要素、記号について、API は境界ボックス、コーナー ポイント、回転情報、信頼スコア、認識された言語、認識されたテキストを返します。
検索結果の例

写真: Dietmar Rabich、Wikimedia Commons、「Düsseldorf、Wege der parlamentarischen Demokratie -- 2015 -- 8123」、CC BY-SA 4.0 {/13
認識されたテキスト | |
---|---|
Text | Wege der parlamentarischen Demokratie |
ブロック数 | (1 ブロック) |
ブロック 0 | |
---|---|
Text | Wege der parlamentarischen Demokratie |
フレーム | (296、665 ~ 796、882) |
四隅の点 | (296, 719)、(778, 665)、(796, 828)、(314, 882) |
認識された言語コード | de |
線 | (3 行) |
行 0 | |
---|---|
Text | Wege der |
フレーム | (434、678 ~ 670, 749) |
四隅の点 | (434, 705)、(665, 678)、(670, 722)、(439, 749) |
認識された言語コード | de |
信頼スコア | 0.8766741 |
回転角度 | -6.6116457 |
要素 | (2 個の要素) |
要素 0 | |
---|---|
Text | ウェージ |
フレーム | (434、689 ~ 575、749) |
四隅の点 | (434, 705)、(570, 689)、(575, 733)、(439, 749) |
認識された言語コード | de |
信頼スコア | 0.8964844 |
回転角度 | -6.6116457 |
要素 | (4 個の要素) |
記号 0 | |
---|---|
Text | W |
フレーム | (434、698 ~ 500、749) |
四隅の点 | (434, 706)、(495, 698)、(500, 741)、(439, 749) |
信頼スコア | 0.87109375 |
回転角度 | -6.611646 |