Objekterkennung und -tracking

Mit der On-Device-Objekterkennungs- und Tracking-API von ML Kit können Sie Objekte in einem Bild- oder Livekamerafeed erkennen und verfolgen.

Optional können Sie erkannte Objekte klassifizieren, entweder mithilfe des groben Klassifikators in der API oder mit einem eigenen benutzerdefinierten Bildklassifizierungsmodell. Weitere Informationen finden Sie unter Benutzerdefiniertes TensorFlow Lite-Modell verwenden.

Da die Objekterkennung und -verfolgung auf dem Gerät erfolgt, funktioniert sie gut als Front-End der Pipeline der visuellen Suche. Nachdem Sie Objekte erkannt und gefiltert haben, können Sie sie an ein Cloud-Back-End wie die Cloud Vision-Produktsuche übergeben.

iOS Android

Hauptmerkmale

  • Schnelle Objekterkennung und -tracking Erkennen Sie Objekte und platzieren Sie deren Positionen im Bild. Erfassen Sie Objekte in aufeinanderfolgenden Bildframes.
  • Optimiertes On-Device-Modell Das Objekterkennungs- und Tracking-Modell ist für Mobilgeräte optimiert und für die Verwendung in Echtzeitanwendungen konzipiert, auch auf Low-End-Geräten.
  • Erkennung auffälliger Objekte Erkennt automatisch das auffälligste Objekt in einem Bild.
  • Grobe Klassifizierung Sie können Objekte in allgemeine Kategorien einteilen, um so Objekte zu filtern, die Sie nicht interessieren. Folgende Kategorien werden unterstützt: Haushaltswaren, Mode, Lebensmittel, Pflanzen und Orte.
  • Klassifizierung mit einem benutzerdefinierten Modell Verwenden Sie Ihr eigenes benutzerdefiniertes Bildklassifizierungsmodell, um bestimmte Objektkategorien zu identifizieren oder zu filtern. Sorgen Sie dafür, dass Ihr benutzerdefiniertes Modell eine bessere Leistung erzielt, indem Sie den Hintergrund des Bildes weglassen.

Beispielergebnisse

Das auffälligste Objekt über Bilder hinweg verfolgen

Das folgende Beispiel zeigt die Tracking-Daten von drei aufeinanderfolgenden Frames mit dem standardmäßigen groben Klassifikator, der von ML Kit zur Verfügung gestellt wurde.

Tracking-ID 0
Grenzwerte (95, 45), (496, 45), (496, 240), (95, 240)
Kategorie ORT
Klassifizierungskonfidenz 0,9296875
Tracking-ID 0
Grenzwerte (84, 46), (478, 46), (478, 247), (84, 247)
Kategorie ORT
Klassifizierungskonfidenz 0,8710938
Tracking-ID 0
Grenzwerte (53, 45), (519, 45), (519, 240), (53, 240)
Kategorie ORT
Klassifizierungskonfidenz 0,8828125

Foto: Christian Ferrer [CC BY-SA 4.0]

Mehrere Objekte in einem statischen Bild

Das folgende Beispiel zeigt die Daten für die vier im Bild erkannten Objekte mit dem standardmäßigen groben Klassifikator, der von ML Kit zur Verfügung gestellt wurde.

Objekt 0
Grenzwerte (1, 97), (332, 97), (332, 332), (1, 332)
Kategorie FASHION_GUT
Klassifizierungskonfidenz 0,95703125
Object 1
Grenzwerte (186, 80), (337, 80), (337, 226), (186, 226)
Kategorie FASHION_GUT
Klassifizierungskonfidenz 0,84375
Object 2
Grenzwerte (296, 80), (472, 80), (472, 388), (296, 388)
Kategorie FASHION_GUT
Klassifizierungskonfidenz 0,94921875
Object 3
Grenzwerte (439, 83), (615, 83), (615, 306), (439, 306)
Kategorie FASHION_GUT
Klassifizierungskonfidenz 0,9375

Benutzerdefiniertes TensorFlow Lite-Modell verwenden

Der standardmäßige grobe Klassifikator wurde für fünf Kategorien erstellt und liefert begrenzte Informationen zu den erkannten Objekten. Sie benötigen möglicherweise ein spezialisierteres Klassifikatormodell, das eine engere Auswahl von Konzepten im Detail beschreibt, z. B. ein Modell zur Unterscheidung zwischen Blumenarten oder Nahrungsmitteln.

Mit dieser API können Sie auf einen bestimmten Anwendungsfall zuschneiden, indem Sie benutzerdefinierte Modelle zur Bildklassifizierung aus einer Vielzahl von Quellen unterstützen. Weitere Informationen finden Sie unter Benutzerdefinierte Modelle mit ML Kit. Benutzerdefinierte Modelle können mit Ihrer Anwendung gebündelt oder dynamisch aus der Cloud heruntergeladen werden. Dazu wird der Modellbereitstellungsdienst von Firebase Machine Learning verwendet.

iOS Android

Eingabebild vorverarbeiten

Bei Bedarf werden bei der Objekterkennung und -verfolgung bilineare Bildskalierung und -streckung verwendet, um die Größe und das Seitenverhältnis des Eingabebilds an die Anforderungen des zugrunde liegenden Modells anzupassen.