Identifica el idioma de un texto con ML Kit en Android

Puedes usar ML Kit para identificar el idioma de una cadena de texto. Puedes obtener el idioma más probable de la cadena, así como las puntuaciones de confianza para todos sus idiomas posibles.

ML Kit reconoce texto en más de 100 idiomas diferentes en sus alfabetos nativos. Además, el texto latinizado puede reconocerse en árabe, búlgaro, chino, griego, hindi, japonés y ruso. Consulta la lista completa de lenguajes y secuencias de comandos compatibles.

Red de Búsqueda y Red de DisplaySin agrupar
Nombre de la bibliotecacom.google.mlkit:language-idcom.google.android.gms:play-services-mlkit-language-id
ImplementaciónEl modelo se vincula de forma estática a tu app durante el tiempo de compilación.El modelo se descarga de forma dinámica a través de los Servicios de Google Play.
Impacto del tamaño de la appAumento de tamaño de aproximadamente 900 KBAumento de tamaño de aproximadamente 200 KB
Tiempo de inicializaciónEl modelo está disponible de inmediato.Es posible que debas esperar a que el modelo se descargue antes de usarlo por primera vez.

Probar

Antes de comenzar

  1. En tu archivo build.gradle de nivel de proyecto, asegúrate de incluir el repositorio Maven de Google en las secciones buildscript y allprojects.

  2. Agrega las dependencias para las bibliotecas de Android del Kit de AA al archivo Gradle de nivel de la app de tu módulo, que suele ser app/build.gradle. Elige una de las siguientes dependencias según tus necesidades:

    Para empaquetar el modelo con tu app, haz lo siguiente:

    dependencies {
      // ...
      // Use this dependency to bundle the model with your app
      implementation 'com.google.mlkit:language-id:17.0.5'
    }
    

    Para usar el modelo en los Servicios de Google Play:

    dependencies {
      // ...
      // Use this dependency to use the dynamically downloaded model in Google Play Services
      implementation 'com.google.android.gms:play-services-mlkit-language-id:17.0.0'
    }
    
  3. Si eliges usar el modelo en los Servicios de Google Play, puedes configurar tu app para que descargue automáticamente el modelo al dispositivo después de instalar la app desde Play Store. Para ello, agrega la siguiente declaración al archivo AndroidManifest.xml de la app:

    <application ...>
          ...
          <meta-data
              android:name="com.google.mlkit.vision.DEPENDENCIES"
              android:value="langid" >
          <!-- To use multiple models: android:value="langid,model2,model3" -->
    </application>
    

    También puedes verificar de forma explícita la disponibilidad del modelo y solicitar su descarga a través de la API de ModuleInstallClient de los Servicios de Google Play.

    Si no habilitas las descargas de modelos en el momento de la instalación ni solicitas una descarga explícita, el modelo se descarga la primera vez que ejecutas el identificador. Las solicitudes que realizas antes de que se complete la descarga no generan resultados.

Identifica el idioma de una cadena

Para identificar el idioma de una cadena, llama a LanguageIdentification.getClient() para obtener una instancia de LanguageIdentifier y, luego, pasa la cadena al método identifyLanguage() de LanguageIdentifier.

Por ejemplo:

Kotlin

val languageIdentifier = LanguageIdentification.getClient()
languageIdentifier.identifyLanguage(text)
        .addOnSuccessListener { languageCode ->
            if (languageCode == "und") {
                Log.i(TAG, "Can't identify language.")
            } else {
                Log.i(TAG, "Language: $languageCode")
            }
        }
        .addOnFailureListener {
            // Model couldn’t be loaded or other internal error.
            // ...
        }

Java

LanguageIdentifier languageIdentifier =
        LanguageIdentification.getClient();
languageIdentifier.identifyLanguage(text)
        .addOnSuccessListener(
                new OnSuccessListener<String>() {
                    @Override
                    public void onSuccess(@Nullable String languageCode) {
                        if (languageCode.equals("und")) {
                            Log.i(TAG, "Can't identify language.");
                        } else {
                            Log.i(TAG, "Language: " + languageCode);
                        }
                    }
                })
        .addOnFailureListener(
                new OnFailureListener() {
                    @Override
                    public void onFailure(@NonNull Exception e) {
                        // Model couldn’t be loaded or other internal error.
                        // ...
                    }
                });

Si la llamada se ejecuta correctamente, se pasa un código de idioma BCP-47 al objeto de escucha que detecta el resultado correcto, lo que indica el idioma del texto. Si no se detecta un idioma con confianza, se pasa el código und (indeterminado).

Según la configuración predeterminada, el ML Kit muestra un valor distinto de und solo cuando identifica el idioma con un valor de confianza de al menos 0.5. Para cambiar este umbral, pasa un objeto LanguageIdentificationOptions a getClient():

Kotlin

val languageIdentifier = LanguageIdentification
        .getClient(LanguageIdentificationOptions.Builder()
                .setConfidenceThreshold(0.34f)
                .build())

Java

LanguageIdentifier languageIdentifier = LanguageIdentification.getClient(
        new LanguageIdentificationOptions.Builder()
                .setConfidenceThreshold(0.34f)
                .build());

Obtén los idiomas posibles de una cadena

Para conocer los valores de confianza de los idiomas más probables de una cadena, obtén una instancia de LanguageIdentifier y, luego, pasa la cadena al método identifyPossibleLanguages().

Por ejemplo:

Kotlin

val languageIdentifier = LanguageIdentification.getClient()
languageIdentifier.identifyPossibleLanguages(text)
        .addOnSuccessListener { identifiedLanguages ->
            for (identifiedLanguage in identifiedLanguages) {
                val language = identifiedLanguage.languageTag
                val confidence = identifiedLanguage.confidence
                Log.i(TAG, "$language $confidence")
            }
        }
        .addOnFailureListener {
            // Model couldn’t be loaded or other internal error.
            // ...
        }

Java

LanguageIdentifier languageIdentifier =
        LanguageIdentification.getClient();
languageIdentifier.identifyPossibleLanguages(text)
        .addOnSuccessListener(new OnSuccessListener<List<IdentifiedLanguage>>() {
            @Override
            public void onSuccess(List<IdentifiedLanguage> identifiedLanguages) {
                for (IdentifiedLanguage identifiedLanguage : identifiedLanguages) {
                    String language = identifiedLanguage.getLanguageTag();
                    float confidence = identifiedLanguage.getConfidence();
                    Log.i(TAG, language + " (" + confidence + ")");
                }
            }
        })
        .addOnFailureListener(
                new OnFailureListener() {
                    @Override
                    public void onFailure(@NonNull Exception e) {
                        // Model couldn’t be loaded or other internal error.
                        // ...
                    }
                });

Si la llamada se ejecuta correctamente, se pasará una lista de objetos IdentifiedLanguage al objeto de escucha que detecta el resultado correcto. De cada objeto, puedes obtener el código BCP-47 del idioma y la seguridad de que la cadena está en ese idioma. Ten en cuenta que estos valores indican con seguridad que la cadena completa está en el idioma determinado. El ML Kit no identifica varios idiomas en una sola cadena.

Según la configuración predeterminada, el ML Kit solo muestra los idiomas con valores de confianza de al menos 0.01. Para cambiar este umbral, pasa un objeto LanguageIdentificationOptions a getClient():

Kotlin

val languageIdentifier = LanguageIdentification
      .getClient(LanguageIdentificationOptions.Builder()
              .setConfidenceThreshold(0.5f)
              .build())

Java

LanguageIdentifier languageIdentifier = LanguageIdentification.getClient(
      new LanguageIdentificationOptions.Builder()
              .setConfidenceThreshold(0.5f)
              .build());

Si ningún idioma alcanza este umbral, la lista tiene un elemento con el valor und.