Wykrywanie i śledzenie obiektów za pomocą ML Kit na Androidzie

Za pomocą ML Kit możesz wykrywać i śledzić obiekty w kolejnych klatkach wideo.

Gdy przekazujesz obraz do narzędzia ML Kit, wykrywa on do 5 obiektów na obrazie wraz z pozycją każdego z nich. Każdy obiekt podczas wykrywania obiektów w strumieniach wideo ma unikalny identyfikator, który pozwala śledzić go od klatki do klatki. Możesz też opcjonalnie włączyć przybliżoną klasyfikację obiektów, która oznacza obiekty szerokimi opisami kategorii.

Wypróbuj

Zanim zaczniesz

  1. Upewnij się, że w sekcji buildscript i allprojects w pliku build.gradle na poziomie projektu znajduje się repozytorium Google Maven.
  2. Dodaj zależności dla bibliotek ML Kit na Androida do pliku Gradle na poziomie modułu. Zwykle ma on postać app/build.gradle:
    dependencies {
      // ...
    
      implementation 'com.google.mlkit:object-detection:17.0.1'
    
    }
    

1. Skonfiguruj detektor obiektów

Aby wykrywać i śledzić obiekty, najpierw utwórz instancję ObjectDetector i opcjonalnie określ ustawienia wzorca, które chcesz zmienić z wartości domyślnych.

  1. Skonfiguruj detektor obiektów na potrzeby swojego przypadku użycia za pomocą obiektu ObjectDetectorOptions. Możesz zmienić te ustawienia:

    Ustawienia wykrywania obiektów
    Tryb wykrywania STREAM_MODE (domyślny) | SINGLE_IMAGE_MODE

    W ustawieniu STREAM_MODE (domyślnie) detektor obiektów działa z krótkim czasem oczekiwania, ale w kilku pierwszych wywołaniach może zwracać niekompletne wyniki (takie jak nieokreślone ramki ograniczające lub etykiety kategorii). Poza tym w STREAM_MODE detektor przypisuje do obiektów identyfikatory śledzenia, których możesz używać do śledzenia obiektów w ramkach. Użyj tego trybu, gdy chcesz śledzić obiekty lub gdy ważne jest małe opóźnienie, np. przy przetwarzaniu strumieni wideo w czasie rzeczywistym.

    W SINGLE_IMAGE_MODE detektor obiektów zwraca wynik po określeniu ramki ograniczającej obiektu. Jeśli włączysz też klasyfikację, wynik będzie zwracany, gdy ramka ograniczająca i etykieta kategorii będą dostępne. W związku z tym opóźnienie wykrywania może być większe. W SINGLE_IMAGE_MODE identyfikatory śledzenia nie są przypisane. Użyj tego trybu, jeśli czas oczekiwania nie jest krytyczny i nie chcesz uwzględniać częściowych wyników.

    Wykrywaj i śledź wiele obiektów false (domyślny) | true

    Określa, czy wykrywane i śledzone są maksymalnie 5 obiektów, czy tylko najbardziej widoczny obiekt (ustawienie domyślne).

    Klasyfikowanie obiektów false (domyślny) | true

    Określa, czy wykryte obiekty mają być klasyfikowane w przybliżonych kategoriach. Gdy ta opcja jest włączona, detektor obiektów klasyfikuje obiekty w tych kategoriach: odzież, jedzenie, wyposażenie domu, miejsca i rośliny.

    Interfejs API do wykrywania i śledzenia obiektów jest zoptymalizowany pod kątem tych 2 głównych zastosowań:

    • Wykrywanie na żywo i śledzenie najbardziej widocznego obiektu w wizjerze kamery.
    • Wykrywanie wielu obiektów z obrazu statycznego.

    Aby skonfigurować interfejs API pod kątem tych przypadków użycia:

    Kotlin

    // Live detection and tracking
    val options = ObjectDetectorOptions.Builder()
            .setDetectorMode(ObjectDetectorOptions.STREAM_MODE)
            .enableClassification()  // Optional
            .build()
    
    // Multiple object detection in static images
    val options = ObjectDetectorOptions.Builder()
            .setDetectorMode(ObjectDetectorOptions.SINGLE_IMAGE_MODE)
            .enableMultipleObjects()
            .enableClassification()  // Optional
            .build()

    Java

    // Live detection and tracking
    ObjectDetectorOptions options =
            new ObjectDetectorOptions.Builder()
                    .setDetectorMode(ObjectDetectorOptions.STREAM_MODE)
                    .enableClassification()  // Optional
                    .build();
    
    // Multiple object detection in static images
    ObjectDetectorOptions options =
            new ObjectDetectorOptions.Builder()
                    .setDetectorMode(ObjectDetectorOptions.SINGLE_IMAGE_MODE)
                    .enableMultipleObjects()
                    .enableClassification()  // Optional
                    .build();
  2. Pobierz instancję ObjectDetector:

    Kotlin

    val objectDetector = ObjectDetection.getClient(options)

    Java

    ObjectDetector objectDetector = ObjectDetection.getClient(options);

2. Przygotowywanie obrazu wejściowego

Aby wykrywać i śledzić obiekty, przekazuj obrazy do metody process() instancji ObjectDetector.

Detektor obiektów działa bezpośrednio z Bitmap, NV21 ByteBuffer lub YUV_420_888 media.Image. Utworzenie InputImage z tych źródeł jest zalecane, jeśli masz do nich bezpośredni dostęp. Jeśli utworzysz InputImage z innych źródeł, przeprowadzimy konwersję wewnętrznie za Ciebie, co może być mniej efektywne.

W przypadku każdej klatki filmu lub obrazu w sekwencji wykonaj te czynności:

Obiekt InputImage możesz tworzyć z różnych źródeł. Zostały one wyjaśnione poniżej.

Przy użyciu: media.Image

Aby utworzyć obiekt InputImage z obiektu media.Image, na przykład podczas robienia zdjęcia aparatem urządzenia, przekaż obiekt media.Image i obrót obrazu do wartości InputImage.fromMediaImage().

Jeśli używasz biblioteki KameraX, klasy OnImageCapturedListener i ImageAnalysis.Analyzer obliczają za Ciebie wartość rotacji.

Kotlin

private class YourImageAnalyzer : ImageAnalysis.Analyzer {

    override fun analyze(imageProxy: ImageProxy) {
        val mediaImage = imageProxy.image
        if (mediaImage != null) {
            val image = InputImage.fromMediaImage(mediaImage, imageProxy.imageInfo.rotationDegrees)
            // Pass image to an ML Kit Vision API
            // ...
        }
    }
}

Java

private class YourAnalyzer implements ImageAnalysis.Analyzer {

    @Override
    public void analyze(ImageProxy imageProxy) {
        Image mediaImage = imageProxy.getImage();
        if (mediaImage != null) {
          InputImage image =
                InputImage.fromMediaImage(mediaImage, imageProxy.getImageInfo().getRotationDegrees());
          // Pass image to an ML Kit Vision API
          // ...
        }
    }
}

Jeśli nie korzystasz z biblioteki aparatu, która określa stopień obrotu obrazu, możesz ją obliczyć na podstawie stopnia obrotu urządzenia i orientacji czujnika aparatu:

Kotlin

private val ORIENTATIONS = SparseIntArray()

init {
    ORIENTATIONS.append(Surface.ROTATION_0, 0)
    ORIENTATIONS.append(Surface.ROTATION_90, 90)
    ORIENTATIONS.append(Surface.ROTATION_180, 180)
    ORIENTATIONS.append(Surface.ROTATION_270, 270)
}

/**
 * Get the angle by which an image must be rotated given the device's current
 * orientation.
 */
@RequiresApi(api = Build.VERSION_CODES.LOLLIPOP)
@Throws(CameraAccessException::class)
private fun getRotationCompensation(cameraId: String, activity: Activity, isFrontFacing: Boolean): Int {
    // Get the device's current rotation relative to its "native" orientation.
    // Then, from the ORIENTATIONS table, look up the angle the image must be
    // rotated to compensate for the device's rotation.
    val deviceRotation = activity.windowManager.defaultDisplay.rotation
    var rotationCompensation = ORIENTATIONS.get(deviceRotation)

    // Get the device's sensor orientation.
    val cameraManager = activity.getSystemService(CAMERA_SERVICE) as CameraManager
    val sensorOrientation = cameraManager
            .getCameraCharacteristics(cameraId)
            .get(CameraCharacteristics.SENSOR_ORIENTATION)!!

    if (isFrontFacing) {
        rotationCompensation = (sensorOrientation + rotationCompensation) % 360
    } else { // back-facing
        rotationCompensation = (sensorOrientation - rotationCompensation + 360) % 360
    }
    return rotationCompensation
}

Java

private static final SparseIntArray ORIENTATIONS = new SparseIntArray();
static {
    ORIENTATIONS.append(Surface.ROTATION_0, 0);
    ORIENTATIONS.append(Surface.ROTATION_90, 90);
    ORIENTATIONS.append(Surface.ROTATION_180, 180);
    ORIENTATIONS.append(Surface.ROTATION_270, 270);
}

/**
 * Get the angle by which an image must be rotated given the device's current
 * orientation.
 */
@RequiresApi(api = Build.VERSION_CODES.LOLLIPOP)
private int getRotationCompensation(String cameraId, Activity activity, boolean isFrontFacing)
        throws CameraAccessException {
    // Get the device's current rotation relative to its "native" orientation.
    // Then, from the ORIENTATIONS table, look up the angle the image must be
    // rotated to compensate for the device's rotation.
    int deviceRotation = activity.getWindowManager().getDefaultDisplay().getRotation();
    int rotationCompensation = ORIENTATIONS.get(deviceRotation);

    // Get the device's sensor orientation.
    CameraManager cameraManager = (CameraManager) activity.getSystemService(CAMERA_SERVICE);
    int sensorOrientation = cameraManager
            .getCameraCharacteristics(cameraId)
            .get(CameraCharacteristics.SENSOR_ORIENTATION);

    if (isFrontFacing) {
        rotationCompensation = (sensorOrientation + rotationCompensation) % 360;
    } else { // back-facing
        rotationCompensation = (sensorOrientation - rotationCompensation + 360) % 360;
    }
    return rotationCompensation;
}

Następnie przekaż obiekt media.Image i wartość stopnia obrotu do InputImage.fromMediaImage():

Kotlin

val image = InputImage.fromMediaImage(mediaImage, rotation)

Java

InputImage image = InputImage.fromMediaImage(mediaImage, rotation);

Korzystanie z identyfikatora URI pliku

Aby utworzyć obiekt InputImage na podstawie identyfikatora URI pliku, przekaż kontekst aplikacji i identyfikator URI pliku do InputImage.fromFilePath(). Jest to przydatne, gdy używasz intencji ACTION_GET_CONTENT, aby prosić użytkownika o wybranie obrazu z aplikacji galerii.

Kotlin

val image: InputImage
try {
    image = InputImage.fromFilePath(context, uri)
} catch (e: IOException) {
    e.printStackTrace()
}

Java

InputImage image;
try {
    image = InputImage.fromFilePath(context, uri);
} catch (IOException e) {
    e.printStackTrace();
}

Za pomocą: ByteBuffer lub ByteArray

Aby utworzyć obiekt InputImage na podstawie ByteBuffer lub ByteArray, najpierw oblicz stopień obrotu obrazu zgodnie z opisem powyżej dla danych wejściowych media.Image. Następnie utwórz obiekt InputImage z buforem lub tablicą oraz podaj wysokość, szerokość, format kodowania kolorów i stopień obrotu obrazu:

Kotlin

val image = InputImage.fromByteBuffer(
        byteBuffer,
        /* image width */ 480,
        /* image height */ 360,
        rotationDegrees,
        InputImage.IMAGE_FORMAT_NV21 // or IMAGE_FORMAT_YV12
)
// Or:
val image = InputImage.fromByteArray(
        byteArray,
        /* image width */ 480,
        /* image height */ 360,
        rotationDegrees,
        InputImage.IMAGE_FORMAT_NV21 // or IMAGE_FORMAT_YV12
)

Java

InputImage image = InputImage.fromByteBuffer(byteBuffer,
        /* image width */ 480,
        /* image height */ 360,
        rotationDegrees,
        InputImage.IMAGE_FORMAT_NV21 // or IMAGE_FORMAT_YV12
);
// Or:
InputImage image = InputImage.fromByteArray(
        byteArray,
        /* image width */480,
        /* image height */360,
        rotation,
        InputImage.IMAGE_FORMAT_NV21 // or IMAGE_FORMAT_YV12
);

Przy użyciu: Bitmap

Aby utworzyć obiekt InputImage z obiektu Bitmap, złóż tę deklarację:

Kotlin

val image = InputImage.fromBitmap(bitmap, 0)

Java

InputImage image = InputImage.fromBitmap(bitmap, rotationDegree);

Obraz jest reprezentowany przez obiekt Bitmap razem z obróconymi stopniami.

3. Przetwarzanie obrazu

Przekaż obraz do metody process():

Kotlin

objectDetector.process(image)
    .addOnSuccessListener { detectedObjects ->
        // Task completed successfully
        // ...
    }
    .addOnFailureListener { e ->
        // Task failed with an exception
        // ...
    }

Java

objectDetector.process(image)
    .addOnSuccessListener(
        new OnSuccessListener<List<DetectedObject>>() {
            @Override
            public void onSuccess(List<DetectedObject> detectedObjects) {
                // Task completed successfully
                // ...
            }
        })
    .addOnFailureListener(
        new OnFailureListener() {
            @Override
            public void onFailure(@NonNull Exception e) {
                // Task failed with an exception
                // ...
            }
        });

4. Uzyskiwanie informacji o wykrytych obiektach

Jeśli wywołanie process() zakończy się powodzeniem, lista elementów DetectedObject zostanie przekazana do detektora sukcesu.

Każdy element DetectedObject zawiera te właściwości:

Ramka ograniczająca Wartość Rect wskazująca pozycję obiektu na obrazie.
Identyfikator śledzenia Liczba całkowita określająca obiekt na obrazach. Puść w SINGLE_IMAGE_MODE.
Etykiety
Opis etykiety Opis tekstowy etykiety. Będzie to jedna ze stałych typu String zdefiniowanych w PredefinedCategory.
Indeks etykiet Indeks etykiety wśród wszystkich etykiet obsługiwanych przez klasyfikator. Będzie to jedna ze stałych liczb całkowitych zdefiniowanych w funkcji PredefinedCategory.
Poziom ufności etykiety Poziom ufności klasyfikacji obiektów.

Kotlin

for (detectedObject in detectedObjects) {
    val boundingBox = detectedObject.boundingBox
    val trackingId = detectedObject.trackingId
    for (label in detectedObject.labels) {
        val text = label.text
        if (PredefinedCategory.FOOD == text) {
            ...
        }
        val index = label.index
        if (PredefinedCategory.FOOD_INDEX == index) {
            ...
        }
        val confidence = label.confidence
    }
}

Java

// The list of detected objects contains one item if multiple
// object detection wasn't enabled.
for (DetectedObject detectedObject : detectedObjects) {
    Rect boundingBox = detectedObject.getBoundingBox();
    Integer trackingId = detectedObject.getTrackingId();
    for (Label label : detectedObject.getLabels()) {
        String text = label.getText();
        if (PredefinedCategory.FOOD.equals(text)) {
            ...
        }
        int index = label.getIndex();
        if (PredefinedCategory.FOOD_INDEX == index) {
            ...
        }
        float confidence = label.getConfidence();
    }
}

Dbanie o dobre wrażenia użytkowników

Aby zadbać o wygodę użytkowników, przestrzegaj tych wytycznych dotyczących aplikacji:

  • Pomyślne wykrywanie obiektów zależy od złożoności wizualnej obiektu. Aby obiekty o niewielkiej liczbie funkcji wizualnych mogły zostać wykryte, konieczne może być zajmowanie większej części obrazu. Przekaż użytkownikom wskazówki dotyczące przechwytywania danych wejściowych, które będą dobrze działać w przypadku rodzajów obiektów, które chcesz wykrywać.
  • Jeśli przy korzystaniu z klasyfikacji chcesz wykrywać obiekty, które nie należą do obsługiwanych kategorii, zaimplementuj specjalną obsługę nieznanych obiektów.

Zapoznaj się też z aplikacją do prezentowania w stylu ML Kit Material Design i z kolekcją Wzorców dla funkcji opartych na systemach uczących się Material Design.

Improving performance

Jeśli chcesz używać wykrywania obiektów w aplikacji czasu rzeczywistego, postępuj zgodnie z tymi wskazówkami, aby uzyskać najlepszą liczbę klatek na sekundę:

  • Jeśli korzystasz z trybu strumieniowego przesyłania danych w aplikacji przesyłającej dane w czasie rzeczywistym, nie używaj wykrywania wielu obiektów, ponieważ większość urządzeń nie jest w stanie uzyskać odpowiedniej liczby klatek.

  • Wyłącz klasyfikację, jeśli jej nie potrzebujesz.

  • Jeśli używasz interfejsu API Camera lub camera2, ogranicz wywołania wzorca do wykrywania treści. Jeśli podczas działania wzorca pojawi się nowa klatka wideo, upuść ją. Przykład znajdziesz w klasie VisionProcessorBase w przykładowej aplikacji krótkiego wprowadzenia.
  • Jeśli korzystasz z interfejsu API CameraX, upewnij się, że strategia dotycząca ciśnienia wstecznego jest ustawiona na wartość domyślną ImageAnalysis.STRATEGY_KEEP_ONLY_LATEST. Gwarantuje to, że w danym momencie do analizy będzie dostarczany tylko 1 obraz. Jeśli w czasie, gdy analizator jest zajęty, zostanie utworzonych więcej obrazów, zostaną one automatycznie usunięte i nie zostaną umieszczone w kolejce do dostarczenia. Gdy analizowany obraz zostanie zamknięty przez wywołanie ImageProxy.close(), zostanie dostarczony następny najnowszy obraz.
  • Jeśli używasz danych wyjściowych detektora do nakładania grafiki na obraz wejściowy, najpierw pobierz wynik z ML Kit, a następnie wyrenderuj obraz i nakładkę w jednym kroku. Wyświetla się na powierzchni wyświetlacza tylko raz dla każdej klatki wejściowej. Przykład znajdziesz w klasach CameraSourcePreview i GraphicOverlay w przykładowej aplikacji z krótkim wprowadzeniem.
  • Jeśli korzystasz z interfejsu Camera2 API, zrób zdjęcia w formacie ImageFormat.YUV_420_888. Jeśli używasz starszej wersji interfejsu Camera API, zrób zdjęcia w formacie ImageFormat.NV21.