Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.

Objekterkennung und -tracking

Mit der On-Device-Objekterkennungs- und Tracking-API von ML Kit können Sie Objekte in einem Bild- oder Livekamerafeed erkennen und verfolgen.

Optional können Sie erkannte Objekte entweder mit dem in der API integrierten groben Klassifikator oder mit Ihrem eigenen benutzerdefinierten Bildklassifizierungsmodell klassifizieren. Weitere Informationen finden Sie unter Benutzerdefiniertes TensorFlow Lite-Modell verwenden.

Da Objekterkennung und -tracking auf dem Gerät stattfinden, funktioniert es gut als Front-End der Pipeline für die visuelle Suche. Nachdem Sie Objekte erkannt und gefiltert haben, können Sie sie an ein Cloud-Back-End wie die Cloud Vision-Produktsuche übergeben.

iOS Android-Geräte

Hauptmerkmale

  • Schnelle Objekterkennung und -nachverfolgung Erkennen Sie Objekte und rufen Sie deren Positionen im Bild ab. Objekte über mehrere aufeinanderfolgende Frames erfassen.
  • Optimiertes On-Device-Modell: Das Objekterkennungs- und Tracking-Modell ist für Mobilgeräte optimiert und für die Verwendung in Echtzeitanwendungen konzipiert, auch auf Low-End-Geräten.
  • Erkennung auffälliger Objekte Erkennt automatisch das auffälligste Objekt in einem Bild.
  • Uneinheitliche Klassifizierung Sie können Objekte in weit gefasste Kategorien klassifizieren und mit ihnen Objekte herausfiltern, die Sie nicht interessieren. Folgende Kategorien werden unterstützt: Haushaltsartikel, Modeartikel, Lebensmittel, Pflanzen und Orte.
  • Klassifizierung mit einem benutzerdefinierten Modell Verwenden Sie Ihr eigenes benutzerdefiniertes Bildklassifizierungsmodell, um bestimmte Objektkategorien zu identifizieren oder zu filtern. Sie können die Leistung Ihres benutzerdefinierten Modells verbessern, indem Sie den Hintergrund des Bildes weglassen.

Beispielergebnisse

Aufgezeichnetes Objekt über Bilder hinweg verfolgen

Im Beispiel unten sehen Sie die Tracking-Daten von drei aufeinanderfolgenden Frames mit dem standardmäßigen groben Klassifikator von ML Kit.

Tracking-ID 0
Grenzwerte (95, 45), (496, 45), (496, 240), (95, 240)
Kategorie ORT
Klassifizierungskonfidenz 0,9296875
Tracking-ID 0
Grenzwerte (84, 46), (478, 46), (478, 247), (84, 247)
Kategorie ORT
Klassifizierungskonfidenz 0,8710938
Tracking-ID 0
Grenzwerte (53, 45), (519, 45), (519, 240), (53, 240)
Kategorie ORT
Klassifizierungskonfidenz 0,8828125

Foto: Christian Ferrer [CC BY-SA 4.0]

Mehrere Objekte in einem statischen Bild

Das folgende Beispiel zeigt die Daten für die vier im Bild erkannten Objekte mit dem standardmäßigen groben Klassifikator von ML Kit.

Objekt 0
Grenzwerte (1, 97), (332, 97), (332, 332), (1, 332)
Kategorie FASHION_GOOD
Klassifizierungskonfidenz 0,95703125
Object 1
Grenzwerte (186, 80), (337, 80), (337, 226), (186, 226)
Kategorie FASHION_GOOD
Klassifizierungskonfidenz 0,84375
Object 2
Grenzwerte (296, 80), (472, 80), (472, 388), (296, 388)
Kategorie FASHION_GOOD
Klassifizierungskonfidenz 0,94921875
Object 3
Grenzwerte (439, 83), (615, 83), (615, 306), (439, 306)
Kategorie FASHION_GOOD
Klassifizierungskonfidenz 0,9375

Benutzerdefiniertes TensorFlow Lite-Modell verwenden

Der grobe grobe Klassifikator wurde für fünf Kategorien erstellt und liefert begrenzte Informationen zu den erkannten Objekten. Möglicherweise benötigen Sie ein spezialisierteres Klassifikatormodell, das detailliertere Konzepte abdeckt, z. B. ein Modell zur Unterscheidung von Blumenarten oder Nahrungsmitteln.

Mit dieser API können Sie auf einen bestimmten Anwendungsfall zuschneiden, indem Sie benutzerdefinierte Bildklassifizierungsmodelle aus einer Vielzahl von Quellen unterstützen. Weitere Informationen finden Sie unter Benutzerdefinierte Modelle mit ML Kit. Benutzerdefinierte Modelle können mit Ihrer App gebündelt oder dynamisch aus der Cloud heruntergeladen werden. Dies geschieht mit dem Modellbereitstellungsdienst von Firebase Machine Learning.

iOS Android-Geräte

Eingabebild vorverarbeiten

Bei Bedarf werden für die Objekterkennung und das Tracking bilineare Bildskalierung und -strecke verwendet, um die Größe und das Seitenverhältnis des Eingabebilds an die Anforderungen des zugrunde liegenden Modells anzupassen.