Dodawanie etykiet do obrazów

Za pomocą interfejsów API do oznaczania obrazów w ML Kit możesz wykrywać i wyodrębniać informacje o encjach na obrazach z szerokiej grupy kategorii. Domyślny model etykietowania obrazów może identyfikować ogólne obiekty, miejsca, działania, gatunki zwierząt, produkty itp.

Możesz też użyć niestandardowego modelu klasyfikacji obrazów, aby dostosować wykrywanie do konkretnego przypadku użycia. Więcej informacji znajdziesz w artykule o używaniu niestandardowego modelu TensorFlow Lite.

Najważniejsze funkcje

  • Zaawansowany klasyfikator podstawowy do ogólnego zastosowania Rozpoznaje ponad 400 kategorii opisujących najczęściej spotykane obiekty na zdjęciach.
  • Dostosowywanie do przypadku użycia dzięki modelom niestandardowym Użyj innych wytrenowanych modeli z TensorFlow Hub lub własnego modelu niestandardowego wytrenowanego za pomocą TensorFlow, AutoML Vision Edge lub TensorFlow Lite.
  • Łatwe w użyciu interfejsy API wysokiego poziomu Nie trzeba zajmować się danymi wejściowymi i danymi wyjściowymi modelu niskiego poziomu, przetwarzaniem obrazów przed i po nim ani tworzeniem potoku przetwarzania. ML Kit wyodrębnia etykiety z modelu TensorFlow Lite i udostępnia je w postaci opisu tekstowego.

Ten interfejs API jest przeznaczony dla modeli klasyfikacji obrazów, które opisują cały obraz. Do sklasyfikowania co najmniej jednego obiektu z obrazu, np. butów lub mebli, lepszym rozwiązaniem może być interfejs API Wykrywanie i śledzenie obiektów.

Obsługiwane modele klasyfikacji obrazów

Interfejsy Image Labeling API obsługują różne modele klasyfikacji obrazów:

Obsługiwane modele klasyfikacji obrazów
Model podstawowy Domyślnie interfejs API używa zaawansowanego ogólnego modelu oznaczania obrazów etykietami, który rozpoznaje ponad 400 elementów obejmujących najczęściej spotykane koncepcje na zdjęciach.
Niestandardowe modele TensorFlow Lite Aby kierować reklamy na koncepcje dotyczące konkretnych aplikacji, interfejs API akceptuje niestandardowe modele klasyfikacji obrazów z wielu źródeł. Mogą to być już wytrenowane modele pobrane z TensorFlow Hub lub Twoje własne modele wytrenowane w AutoML Vision Edge, TensorFlow Lite Maker lub samym TensorFlow. Modele można połączyć w pakiet z aplikacją lub hostować za pomocą systemów uczących się Firebase i pobierać je w czasie działania.

Korzystanie z modelu podstawowego

Model podstawowy ML Kit zwraca listę jednostek, które identyfikują osoby, rzeczy, miejsca, działania itp. Każdy element ma swój wynik, który określa poziom trafności modelu ML. Dzięki nim możesz np. automatycznie generować metadane i moderować treści. Model domyślny udostępniany w ramach pakietu ML Kit rozpoznaje ponad 400 różnych encji.

iOS Android

Przykładowe etykiety

Model podstawowy w interfejsie Image Labeling API obsługuje ponad 400 etykiet, na przykład te:

KategoriaPrzykładowe etykiety
Osoby Crowd
Selfie
Smile
Aktywności Dancing
Eating
Surfing
Rzeczy Car
Piano
Receipt
Zwierzęta Bird
Cat
Dog
Rośliny Flower
Fruit
Vegetable
Miejsca Beach
Lake
Mountain

Przykładowe wyniki

Oto przykład podmiotów, które zostały rozpoznane na towarzyszącym zdjęciu.

Zdjęcie: Clément Bucco-Lechat / Wikimedia Commons / CC BY-SA 3.0
Etykieta 0
Tekst Stadion
Poufność 0,9205354
Etykieta 1
Tekst Obiekty sportowe
Poufność 0,7531109
Etykieta 2
Tekst Zdarzenie
Poufność 0,66905296
Etykieta 3
Tekst Rozrywka
Poufność 0,59904146
Etykieta 4
Tekst Piłka nożna
Poufność 0,56384534
Etykieta 5
Tekst Netto
Poufność 0,54679185
Etykieta 6
Tekst Roślina
Poufność 0,524364

Używanie niestandardowego modelu TensorFlow Lite

Podstawowy model oznaczania obrazów etykietami w ML Kit jest przeznaczony do użytku ogólnego. Została wytrenowana tak, aby rozpoznawała 400 kategorii, które opisują najczęściej spotykane obiekty na zdjęciach. Twoja aplikacja może wymagać specjalistycznego modelu klasyfikacji obrazów, który bardziej szczegółowo rozpoznaje węższą liczbę kategorii. Może to być np. model odróżniający gatunki kwiatów czy rodzaje pożywienia.

Ten interfejs API umożliwia dostosowywanie się do konkretnego przypadku użycia dzięki obsłudze niestandardowych modeli klasyfikacji obrazów pochodzących z wielu źródeł. Więcej informacji znajdziesz w artykule Modele niestandardowe z użyciem ML Kit. Modele niestandardowe można połączyć w pakiet z aplikacją lub pobierać dynamicznie z chmury za pomocą usługi wdrażania modeli systemów uczących się Firebase.

iOS Android

Wstępne przetwarzanie obrazu wejściowego

W razie potrzeby funkcja Etykiety obrazów korzysta z dwuliniowego skalowania obrazu i rozciągania, aby dostosować rozmiar i współczynnik proporcji obrazu wejściowego, tak aby spełniał on wymagania modelu bazowego.