Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

ML Kit を使用してデジタルインクを認識する（Android）

ML Kit のデジタルインク認識機能を使用すると、数百もの言語で、デジタル表示面の手書き文字を認識できるだけでなく、スケッチを分類することもできます。

試してみる

サンプルアプリでこの API の使用例をご確認ください。

始める前に

この API には Android API レベル 23 以降が必要です。アプリのビルドファイルで、minSdkVersion の値が 23 以上になっていることを確認してください。

プロジェクトレベルの build.gradle ファイルにおいて、buildscript セクションと allprojects セクションの両方に Google の Maven リポジトリを組み込みます。
ML Kit Android ライブラリの依存関係をモジュールのアプリレベルの Gradle ファイル（通常は app/build.gradle）に追加します。

dependencies {
  // ...
  implementation 'com.google.mlkit:digital-ink-recognition:19.0.0'
}

Ink オブジェクトのテキストを認識する準備ができました。

`Ink` オブジェクトを作成する

Ink オブジェクトを作成する主な方法は、タッチスクリーンに描画することです。Android では、この目的で Canvasを使用できます。タッチイベントハンドラは、次のコードスニペットに示すaddNewTouchEvent() メソッドを呼び出して、ユーザーが描画したストロークの点を Inkオブジェクトに保存する必要があります。

一般的なパターンを次のコードスニペットに示します。完全な例については、 ML Kit クイックスタートサンプルをご覧ください。

Kotlin

var inkBuilder = Ink.builder()
lateinit var strokeBuilder: Ink.Stroke.Builder

// Call this each time there is a new event.
fun addNewTouchEvent(event: MotionEvent) {
  val action = event.actionMasked
  val x = event.x
  val y = event.y
  var t = System.currentTimeMillis()

  // If your setup does not provide timing information, you can omit the
  // third paramater (t) in the calls to Ink.Point.create
  when (action) {
    MotionEvent.ACTION_DOWN -> {
      strokeBuilder = Ink.Stroke.builder()
      strokeBuilder.addPoint(Ink.Point.create(x, y, t))
    }
    MotionEvent.ACTION_MOVE -> strokeBuilder!!.addPoint(Ink.Point.create(x, y, t))
    MotionEvent.ACTION_UP -> {
      strokeBuilder.addPoint(Ink.Point.create(x, y, t))
      inkBuilder.addStroke(strokeBuilder.build())
    }
    else -> {
      // Action not relevant for ink construction
    }
  }
}

...

// This is what to send to the recognizer.
val ink = inkBuilder.build()

Java

Ink.Builder inkBuilder = Ink.builder();
Ink.Stroke.Builder strokeBuilder;

// Call this each time there is a new event.
public void addNewTouchEvent(MotionEvent event) {
  float x = event.getX();
  float y = event.getY();
  long t = System.currentTimeMillis();

  // If your setup does not provide timing information, you can omit the
  // third paramater (t) in the calls to Ink.Point.create
  int action = event.getActionMasked();
  switch (action) {
    case MotionEvent.ACTION_DOWN:
      strokeBuilder = Ink.Stroke.builder();
      strokeBuilder.addPoint(Ink.Point.create(x, y, t));
      break;
    case MotionEvent.ACTION_MOVE:
      strokeBuilder.addPoint(Ink.Point.create(x, y, t));
      break;
    case MotionEvent.ACTION_UP:
      strokeBuilder.addPoint(Ink.Point.create(x, y, t));
      inkBuilder.addStroke(strokeBuilder.build());
      strokeBuilder = null;
      break;
  }
}

...

// This is what to send to the recognizer.
Ink ink = inkBuilder.build();

DigitalInkRecognizer のインスタンスを取得する

認識を行うには、Ink インスタンスを DigitalInkRecognizer オブジェクトに送信します。次のコードは、 BCP-47 タグからこのような認識ツールをインスタンス化する方法を示しています。

Kotlin

// Specify the recognition model for a language
var modelIdentifier: DigitalInkRecognitionModelIdentifier
try {
  modelIdentifier = DigitalInkRecognitionModelIdentifier.fromLanguageTag("en-US")
} catch (e: MlKitException) {
  // language tag failed to parse, handle error.
}
if (modelIdentifier == null) {
  // no model was found, handle error.
}
var model: DigitalInkRecognitionModel =
    DigitalInkRecognitionModel.builder(modelIdentifier).build()


// Get a recognizer for the language
var recognizer: DigitalInkRecognizer =
    DigitalInkRecognition.getClient(
        DigitalInkRecognizerOptions.builder(model).build())

Java

// Specify the recognition model for a language
DigitalInkRecognitionModelIdentifier modelIdentifier;
try {
  modelIdentifier =
    DigitalInkRecognitionModelIdentifier.fromLanguageTag("en-US");
} catch (MlKitException e) {
  // language tag failed to parse, handle error.
}
if (modelIdentifier == null) {
  // no model was found, handle error.
}

DigitalInkRecognitionModel model =
    DigitalInkRecognitionModel.builder(modelIdentifier).build();

// Get a recognizer for the language
DigitalInkRecognizer recognizer =
    DigitalInkRecognition.getClient(
        DigitalInkRecognizerOptions.builder(model).build());

`Ink` オブジェクトを処理する

Kotlin

recognizer.recognize(ink)
    .addOnSuccessListener { result: RecognitionResult ->
      // `result` contains the recognizer's answers as a RecognitionResult.
      // Logs the text from the top candidate.
      Log.i(TAG, result.candidates[0].text)
    }
    .addOnFailureListener { e: Exception ->
      Log.e(TAG, "Error during recognition: $e")
    }

Java

recognizer.recognize(ink)
    .addOnSuccessListener(
        // `result` contains the recognizer's answers as a RecognitionResult.
        // Logs the text from the top candidate.
        result -> Log.i(TAG, result.getCandidates().get(0).getText()))
    .addOnFailureListener(
        e -> Log.e(TAG, "Error during recognition: " + e));

上記のサンプルコードは、次のセクションで説明するように、認識モデルがすでにダウンロードされていることを前提としています。

モデルのダウンロードを管理する

デジタルインク認識 API は数百もの言語をサポートしていますが、認識を行う前に各言語のデータをダウンロードする必要があります。言語ごとに約 20 MB のストレージが必要です。これは RemoteModelManager オブジェクトによって処理されます。

新しいモデルをダウンロードする

Kotlin

import com.google.mlkit.common.model.DownloadConditions
import com.google.mlkit.common.model.RemoteModelManager

var model: DigitalInkRecognitionModel =  ...
val remoteModelManager = RemoteModelManager.getInstance()

remoteModelManager.download(model, DownloadConditions.Builder().build())
    .addOnSuccessListener {
      Log.i(TAG, "Model downloaded")
    }
    .addOnFailureListener { e: Exception ->
      Log.e(TAG, "Error while downloading a model: $e")
    }

Java

import com.google.mlkit.common.model.DownloadConditions;
import com.google.mlkit.common.model.RemoteModelManager;

DigitalInkRecognitionModel model = ...;
RemoteModelManager remoteModelManager = RemoteModelManager.getInstance();

remoteModelManager
    .download(model, new DownloadConditions.Builder().build())
    .addOnSuccessListener(aVoid -> Log.i(TAG, "Model downloaded"))
    .addOnFailureListener(
        e -> Log.e(TAG, "Error while downloading a model: " + e));

モデルがすでにダウンロードされているかどうかを確認する

Kotlin

var model: DigitalInkRecognitionModel =  ...
remoteModelManager.isModelDownloaded(model)

Java

DigitalInkRecognitionModel model = ...;
remoteModelManager.isModelDownloaded(model);

ダウンロードしたモデルを削除する

デバイスのストレージからモデルを削除すると、空き容量が増えます。

Kotlin

var model: DigitalInkRecognitionModel =  ...
remoteModelManager.deleteDownloadedModel(model)
    .addOnSuccessListener {
      Log.i(TAG, "Model successfully deleted")
    }
    .addOnFailureListener { e: Exception ->
      Log.e(TAG, "Error while deleting a model: $e")
    }

Java

DigitalInkRecognitionModel model = ...;
remoteModelManager.deleteDownloadedModel(model)
                  .addOnSuccessListener(
                      aVoid -> Log.i(TAG, "Model successfully deleted"))
                  .addOnFailureListener(
                      e -> Log.e(TAG, "Error while deleting a model: " + e));

テキスト認識の精度を高めるためのヒント

テキスト認識の精度は言語によって異なります。精度は書き方によっても異なります。デジタルインク認識はさまざまな書き方に対応できるようにトレーニングされていますが、結果はユーザーによって異なる場合があります。

テキスト認識の精度を高める方法はいくつかあります。これらの手法は、絵文字、自動描画、シェイプの描画分類子には適用されません。

書き込み領域

多くのアプリケーションには、ユーザー入力用の書き込み領域が明確に定義されています。記号の意味は、その記号を含む書き込み領域のサイズに対する相対的なサイズによって部分的に決まります。たとえば、小文字と大文字の「o」または「c」の違い、カンマとスラッシュの違いなどです。

書き込み領域の幅と高さを認識ツールに伝えることで、精度を向上させることができます。ただし、認識ツールは、書き込み領域に 1 行のテキストのみが含まれていることを前提としています。物理的な書き込み領域が十分に大きく、ユーザーが 2 行以上書き込める場合は、1 行のテキストの高さの最適な推定値である高さを持つ WritingArea を渡すことで、より良い結果が得られることがあります。認識ツールに渡す WritingArea オブジェクトは、画面上の物理的な書き込み領域と完全に一致する必要はありません。このように WritingArea の高さを変更すると、言語によって効果が異なります。

書き込み領域を指定する場合は、ストローク座標と同じ単位で幅と高さを指定します。x,y 座標引数には単位の要件はありません。API はすべての単位を正規化するため、重要なのはストロークの相対的なサイズと位置だけです。システムに適したスケールで座標を渡すことができます。

プリコンテキスト

プリコンテキストとは、認識しようとしている Ink のストロークの直前にあるテキストです。プリコンテキストを認識ツールに伝えることで、認識ツールを支援できます。

たとえば、筆記体の文字「n」と「u」はよく間違われます。ユーザーがすでに「arg」という単語の一部を入力している場合、「ument」または「nment」として認識できるストロークが続く可能性があります。プリコンテキスト「arg」を指定すると、「argument」という単語は「argnment」よりも可能性が高いため、曖昧さが解消されます。

プリコンテキストは、認識ツールが単語の区切り（単語間のスペース）を識別するのにも役立ちます。スペース文字を入力することはできますが、描画することはできません。認識ツールは、単語の終わりと次の単語の始まりをどのように判断するのでしょうか。ユーザーがすでに「hello」と書き、続けて「world」という単語を書いた場合、プリコンテキストがないと、認識ツールは「world」という文字列を返します。ただし、プリコンテキスト「hello」を指定すると、「helloword」よりも「hello world」の方が意味が通るため、モデルは先頭にスペースが付いた文字列「 world」を返します。

可能な限り長いプリコンテキスト文字列（スペースを含む最大 20 文字）を指定する必要があります。文字列が長い場合、認識ツールは最後の 20 文字のみを使用します。

次のコードサンプルは、書き込み領域を定義し、RecognitionContext オブジェクトを使用してプリコンテキストを指定する方法を示しています。

Kotlin

var preContext : String = ...;
var width : Float = ...;
var height : Float = ...;
val recognitionContext : RecognitionContext =
    RecognitionContext.builder()
        .setPreContext(preContext)
        .setWritingArea(WritingArea(width, height))
        .build()

recognizer.recognize(ink, recognitionContext)

Java

String preContext = ...;
float width = ...;
float height = ...;
RecognitionContext recognitionContext =
    RecognitionContext.builder()
                      .setPreContext(preContext)
                      .setWritingArea(new WritingArea(width, height))
                      .build();

recognizer.recognize(ink, recognitionContext);

ストロークの順序

認識精度はストロークの順序に左右されます。認識ツールは、ユーザーが自然に書く順序でストロークが発生することを想定しています。たとえば、英語の場合は左から右です。最後の単語から始まる英語の文を書くなど、このパターンから外れる場合は、精度が低下します。

別の例として、Ink の途中の単語を削除して別の単語に置き換える場合を考えてみましょう。修正は文の途中にある可能性がありますが、修正のストロークはストロークシーケンスの末尾にあります。この場合は、新しく書いた単語を API に個別に送信し、独自のロジックを使用して結果を以前の認識とマージすることをおすすめします。

曖昧なシェイプの処理

認識ツールに提供されるシェイプの意味が曖昧な場合があります。たとえば、角が丸い長方形は、長方形または楕円として認識される可能性があります。

このような不明確なケースは、認識スコアが利用可能な場合は、認識スコアを使用して処理できます。スコアを提供するシェイプ分類子は 1 つだけです。モデルの信頼性が高い場合、上位の結果のスコアは 2 番目の結果よりもはるかに高くなります。不確実な場合は、上位 2 つの結果のスコアが近くなります。また、シェイプ分類子は Ink 全体を 1 つのシェイプとして解釈することに注意してください。たとえば、Ink に長方形と楕円が隣接している場合、1 つの認識候補で 2 つのシェイプを表すことができないため、認識ツールはどちらか一方（またはまったく異なるもの）を結果として返すことがあります。

ML Kit を使用してデジタルインクを認識する（Android） コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

試してみる

始める前に

Ink オブジェクトを作成する

Kotlin

Java

DigitalInkRecognizer のインスタンスを取得する

Kotlin

Java

Ink オブジェクトを処理する

Kotlin

Java

モデルのダウンロードを管理する

新しいモデルをダウンロードする

Kotlin

Java

モデルがすでにダウンロードされているかどうかを確認する

Kotlin

Java

ダウンロードしたモデルを削除する

Kotlin

Java

テキスト認識の精度を高めるためのヒント

書き込み領域

プリコンテキスト

Kotlin

Java

ストロークの順序

曖昧なシェイプの処理

ML Kit を使用してデジタルインクを認識する（Android）

`Ink` オブジェクトを作成する

`Ink` オブジェクトを処理する