Zadbaj o dobrą organizację dzięki kolekcji Zapisuj i kategoryzuj treści zgodnie ze swoimi preferencjami.

Oznaczanie obrazów

Dzięki interfejsom API do etykietowania obrazów ML Kit możesz wykrywać i wyodrębniać informacje o elementach w dużej grupie kategorii. Domyślny model dodawania etykiet do obrazów może identyfikować ogólne obiekty, miejsca, aktywności, gatunki zwierząt, produkty itp.

Możesz też użyć niestandardowego modelu klasyfikacji obrazów, aby dostosować wykrywanie do konkretnego przypadku użycia. Więcej informacji znajdziesz w artykule o używaniu niestandardowego modelu TensorFlow Lite.

Najważniejsze funkcje

  • Zaawansowany klasyfikator podstawowy do użytku ogólnego Rozpoznaje ponad 400 kategorii opisujących najczęściej spotykane obiekty na zdjęciach.
  • Dostosowywanie do swoich przypadków użycia za pomocą modeli niestandardowych Użyj innych wytrenowanych modeli z TensorFlow Hub lub własnego modelu wytrenowanego za pomocą TensorFlow, AutoML Vision Edge lub kreatora modeli TensorFlow Lite
  • Łatwe w użyciu interfejsy API wysokiego poziomu Nie musisz zajmować się niskopoziomowymi danymi wejściowych/wyjściowymi modeli, przetwarzaniem obrazu i po nim ani tworzyć potoku przetwarzania. ML Kit wyodrębnia etykiety z modelu TensorFlow Lite i udostępnia je jako tekst.

Pamiętaj, że ten interfejs API jest przeznaczony dla modeli klasyfikacji obrazów opisujących cały obraz. Do klasyfikowania obiektów na obrazie, np. butów lub elementów mebli, lepszym rozwiązaniem może być użycie interfejsu Wykrywanie obiektów i śledzenie.

Obsługiwane modele klasyfikacji obrazów

Interfejsy API dodawania etykiet do obrazów obsługują różne modele klasyfikacji obrazów:

Obsługiwane modele klasyfikacji obrazów
Model podstawowy Domyślnie interfejs API wykorzystuje zaawansowany model etykiet obrazów ogólnego przeznaczenia, który rozpoznaje ponad 400 elementów obejmujących najczęstsze zagadnienia na zdjęciach.
Niestandardowe modele TensorFlow Lite Aby można było kierować koncepcje na potrzeby aplikacji, interfejs API akceptuje niestandardowe modele klasyfikacji obrazów z szerokiego zakresu źródeł. Mogą to być już wytrenowane modele pobrane z TensorFlow Hub, Twoje własne modele wytrenowane za pomocą AutoML Vision Edge, TensorFlow Lite Maker lub TensorFlow. Modele można połączyć z aplikacją lub hostować za pomocą Firebase Systemy uczące się i pobierać w czasie działania.

Korzystanie z modelu podstawowego

Podstawowy model ML Kit zwraca listę encji identyfikujących osoby, rzeczy, miejsca, aktywności itd. Każdy element ma wynik, który wskazuje, że model ML ma pewność co do jego trafności. Dzięki tym informacjom możesz wykonywać takie zadania jak automatyczne generowanie metadanych czy moderowanie treści. Domyślny model dostępny w systemie ML Kit rozpoznaje ponad 400 różnych encji.

iOS Android

Przykładowe etykiety

Model podstawowy w interfejsie API dodawania etykiet obrazów obsługuje ponad 400 etykiet, na przykład:

KategoriaPrzykładowe etykiety
Osoby Crowd
Selfie
Smile
Zadania Dancing
Eating
Surfing
Rzeczy Car
Piano
Receipt
Zwierzęta Bird
Cat
Dog
Rośliny Flower
Fruit
Vegetable
Miejsca Beach
Lake
Mountain

Przykładowe wyniki

Oto przykłady elementów rozpoznawanych na powiązanym zdjęciu.

Zdjęcie: Clément Bucco-Lechat / Wikimedia Commons / CC BY-SA 3.0
Etykieta 0
tekstowy. Stadion
Zaufanie 0,9205354
Etykieta 1
tekstowy. Sport
Zaufanie 0,7531109
Etykieta 2
tekstowy. Zdarzenie
Zaufanie 0,66905296
Etykieta 3
tekstowy. Rozrywka
Zaufanie 0,59904146
Etykieta 4
tekstowy. Piłka nożna
Zaufanie 0,56384534
Etykieta 5
tekstowy. Netto
Zaufanie 0,54679185
Etykieta 6
tekstowy. Roślina
Zaufanie 0,524364

Korzystanie z niestandardowego modelu TensorFlow Lite

Podstawowy model oznaczania obrazów etykietami ML Kit jest przeznaczony do ogólnego zastosowania. Wytrenowano ją tak, aby rozpoznawała 400 kategorii opisujących najczęściej występujące obiekty na zdjęciach. Twoja aplikacja może potrzebować specjalistycznego modelu klasyfikacji obrazów, który rozpoznaje bardziej wąską liczbę kategorii, np. modelu odróżniającego gatunki kwiatów lub rodzaje żywności.

Ten interfejs API umożliwia dopasowanie do konkretnego przypadku użycia dzięki obsłudze niestandardowych modeli klasyfikacji obrazów z wielu źródeł. Więcej informacji znajdziesz w artykule Modele niestandardowe z zestawem ML. Modele niestandardowe można połączyć w pakiet z aplikacją lub dynamicznie pobierać z chmury za pomocą usługi wdrażania modeli systemów uczących się Firebase.

iOS Android

Wstępne przetwarzanie obrazu

W razie potrzeby funkcja Etykiety obrazów skaluje i rozciąga obraz binarnie, aby dostosować rozmiar obrazu i współczynnik proporcji do wymagań bazowego modelu.