Détectez les objets et assurez leur suivi.

Grâce à l'API de détection et de suivi des objets de ML Kit, vous pouvez détecter et suivre des objets dans un flux d'image ou de flux en direct de la caméra.

Vous pouvez éventuellement classer des objets détectés à l'aide du classificateur général intégré à l'API ou en utilisant votre propre modèle de classification d'images personnalisé. Pour en savoir plus, consultez la section Utiliser un modèle TensorFlow Lite personnalisé.

Étant donné que la détection et le suivi des objets sont effectués sur l'appareil, ils fonctionnent bien comme l'interface du pipeline de recherche visuelle. Après avoir détecté et filtré les objets, vous pouvez les transmettre à un backend cloud, tel que Cloud Vision Product Search.

iOS Android

Capacités clés

  • Détection et suivi rapides des objets Détectez des objets et localisez leur emplacement dans l'image. Suivez les objets sur des images successives.
  • Modèle optimisé sur l'appareil Le modèle de suivi et de détection d'objets est optimisé pour les appareils mobiles et conçu pour être utilisé dans des applications en temps réel, même sur des appareils d'entrée de gamme.
  • Détection d'objets bien visibles Permet de déterminer automatiquement l'objet le plus visible d'une image.
  • Classification approximative : classez les objets dans des catégories générales que vous pouvez utiliser pour filtrer les objets qui ne vous intéressent pas. Les catégories suivantes sont acceptées : articles pour la maison, articles de mode, alimentation, plantes et lieux.
  • Classification avec un modèle personnalisé Utilisez votre propre modèle de classification d'images personnalisé pour identifier ou filtrer des catégories d'objets spécifiques. Améliorez les performances de votre modèle personnalisé en excluant l'arrière-plan de l'image.

Exemples de résultats

Suivre l'objet le plus proéminent entre les images

L'exemple ci-dessous montre les données de suivi de trois images successives, avec le classificateur général par défaut fourni par ML Kit.

ID de suivi 0
Limites (95, 45), (496, 45), (496, 240) (95, 240)
Catégorie LIEU
Confiance dans la classification 0,9296875
ID de suivi 0
Limites (84, 46), (478, 46), (478, 247), (84, 247)
Catégorie LIEU
Confiance dans la classification 0,8710938
ID de suivi 0
Limites (53, 45), (519, 45), (519, 240), (53, 240)
Catégorie LIEU
Confiance dans la classification 0,8828125

Photo: Christian Ferrer [CC BY-SA 4.0]

Plusieurs objets dans une image statique

L'exemple ci-dessous montre les données des quatre objets détectés dans l'image avec le classificateur général par défaut fourni par ML Kit.

Objet 0
Limites (1, 97), (332, 97), (332, 332), (1, 332)
Catégorie FASHION_BON
Confiance dans la classification 0,95703125
Object 1
Limites (186, 80), (337, 80), (337, 226), (186, 226)
Catégorie FASHION_BON
Confiance dans la classification 0,84375
Object 2
Limites (296, 80), (472, 80), (472, 388), (296, 388)
Catégorie FASHION_BON
Confiance dans la classification 0,94921875
Object 3
Limites (439, 83), (615, 83), (615, 306), (439, 306)
Catégorie FASHION_BON
Confiance dans la classification 0,9375

Utiliser un modèle TensorFlow Lite personnalisé

Le classificateur général par défaut est conçu pour cinq catégories et fournit des informations limitées sur les objets détectés. Vous aurez peut-être besoin d'un modèle de classificateur plus spécialisé qui couvre plus en détail un domaine de concepts. Par exemple, un modèle permettant de distinguer des espèces de fleurs ou des types de nourriture.

Cette API vous permet de l'adapter à un cas d'utilisation particulier en proposant des modèles de classification d'images personnalisés provenant de nombreuses sources. Pour en savoir plus, consultez la page Modèles personnalisés avec ML Kit. Les modèles personnalisés peuvent être regroupés avec votre application ou téléchargés de manière dynamique depuis le cloud à l'aide du service de déploiement de modèles de Firebase Machine Learning.

iOS Android

Prétraitement des images d'entrée

Si nécessaire, la détection et le suivi des objets utilisent la mise à l'échelle et l'étirement d'images bilinéaires pour ajuster la taille et le format de l'image d'entrée afin qu'ils répondent aux exigences du modèle sous-jacent.