Маркировка изображений

С помощью API-интерфейсов маркировки изображений ML Kit вы можете обнаруживать и извлекать информацию об объектах в изображении по широкой группе категорий. Модель маркировки изображений по умолчанию может идентифицировать общие объекты, места, действия, виды животных, продукты и многое другое.

Вы также можете использовать пользовательскую модель классификации изображений, чтобы адаптировать обнаружение к конкретному варианту использования. Дополнительные сведения см. в разделе Использование пользовательской модели TensorFlow Lite .

Ключевые возможности

  • Мощный базовый классификатор общего назначения. Распознает более 400 категорий, описывающих наиболее часто встречающиеся объекты на фотографиях.
  • Адаптируйтесь к своему варианту использования с помощью пользовательских моделей Используйте другие предварительно обученные модели из TensorFlow Hub или собственную пользовательскую модель, обученную с помощью TensorFlow, AutoML Vision Edge или TensorFlow Lite Model maker.
  • Простые в использовании высокоуровневые API-интерфейсы Нет необходимости иметь дело с низкоуровневым вводом/выводом модели, предварительной и последующей обработкой изображений или созданием конвейера обработки. ML Kit извлекает метки из модели TensorFlow Lite и предоставляет их в виде текстового описания.

Обратите внимание, что этот API предназначен для моделей классификации изображений, описывающих полное изображение. Для классификации одного или нескольких объектов на изображении, таких как обувь или предметы мебели, может лучше подойти API обнаружения и отслеживания объектов .

Поддерживаемые модели классификации изображений

API маркировки изображений поддерживают различные модели классификации изображений:

Поддерживаемые модели классификации изображений
Базовая модель По умолчанию API использует мощную модель маркировки изображений общего назначения, которая распознает более 400 объектов, охватывающих наиболее часто встречающиеся понятия на фотографиях.
Пользовательские модели TensorFlow Lite Чтобы ориентироваться на концепции, специфичные для приложения, API принимает пользовательские модели классификации изображений из широкого круга источников. Это могут быть предварительно обученные модели, загруженные из TensorFlow Hub, или ваши собственные модели, обученные с помощью AutoML Vision Edge, TensorFlow Lite Model Maker или самого TensorFlow. Модели могут быть связаны с вашим приложением или размещены с помощью Firebase Machine Learning и загружены во время выполнения.

Использование базовой модели

Базовая модель ML Kit возвращает список сущностей, которые идентифицируют людей, вещи, места, действия и т. д. Каждая сущность имеет оценку, которая указывает на уверенность модели ML в ее актуальности. С помощью этой информации вы можете выполнять такие задачи, как автоматическая генерация метаданных и модерация контента. Модель по умолчанию, поставляемая с ML Kit, распознает более 400 различных объектов .

iOS Android

Примеры этикеток

Базовая модель в API маркировки изображений поддерживает более 400 меток, например следующие примеры:

Категория Примеры этикеток
Люди Crowd
Selfie
Smile
Деятельность Dancing
Eating
Surfing
Вещи Car
Piano
Receipt
Животные Bird
Cat
Dog
Растения Flower
Fruit
Vegetable
Места Beach
Lake
Mountain

Пример результатов

Вот пример сущностей, которые были распознаны на сопроводительном фото.

Фото: Клеман Букко-Леша / Wikimedia Commons / CC BY-SA 3.0
Метка 0
Текст Стадион
Уверенность 0,9205354
Этикетка 1
Текст Спортивный
Уверенность 0,7531109
Этикетка 2
Текст Событие
Уверенность 0,66905296
Этикетка 3
Текст Досуг
Уверенность 0,59904146
Этикетка 4
Текст Футбольный
Уверенность 0,56384534
Этикетка 5
Текст Сеть
Уверенность 0,54679185
Этикетка 6
Текст Растение
Уверенность 0,524364

Использование пользовательской модели TensorFlow Lite

Базовая модель маркировки изображений ML Kit создана для универсального использования. Он обучен распознавать 400 категорий, описывающих наиболее часто встречающиеся объекты на фотографиях. Вашему приложению может потребоваться специализированная модель классификации изображений, которая более подробно распознает более узкое число категорий, например модель, которая различает виды цветов или типы продуктов питания.

Этот API позволяет адаптироваться к конкретному варианту использования, поддерживая пользовательские модели классификации изображений из широкого круга источников. Дополнительные сведения см. в разделе Пользовательские модели с комплектом ML . Пользовательские модели могут быть объединены с вашим приложением или динамически загружены из облака с помощью службы развертывания моделей Firebase Machine Learning.

iOS Android

Предварительная обработка входного изображения

При необходимости функция маркировки изображений использует билинейное масштабирование и растяжение изображения, чтобы настроить размер и соотношение сторон входного изображения, чтобы они соответствовали требованиям базовой модели.