Dostępne opcje są opisane poniżej.
Załóżmy, że internetowy sklep obuwniczy chce utworzyć nadzorowany model systemów uczących się, który będzie dostarczał spersonalizowane rekomendacje butów użytkownikom. Model będzie więc rekomendować Marty określone pary butów, a Marcie różne pary butów. System wygeneruje dane treningowe na podstawie danych o wcześniejszych zachowaniach użytkowników. Które z poniższych stwierdzeń są prawdziwe?
&Rozmiar buta" jest przydatną funkcją.
& „Rozmiar obuwia” to miarodajny sygnał, który prawdopodobnie ma duży wpływ na to, czy użytkownikowi spodoba się ten but. Jeśli na przykład Marta nosi rozmiar 9, model nie powinien zalecać butów w rozmiarze 7.
&Piękne buty"
Dobre funkcje muszą być konkretne i miarodajne.
Uroda jest zbyt ogólnikowa, aby służyła jako przydatna funkcja.
Uroda to prawdopodobnie połączenie betonowych cech, takich jak styl i kolor. Styl i kolor będą lepszymi cechami niż uroda.
&Użytkownik klika przydatną etykietę.
Użytkownicy prawdopodobnie chcą tylko dowiedzieć się więcej o tych butach, które im się podobają. Kliknięcia użytkowników to więc obserwowalne, wymierne dane, które mogą służyć za dobrą etykietę treningową. Nasze dane treningowe pochodzą z wcześniejszych zachowań użytkowników, więc nasze etykiety muszą pochodzić z obiektywnych zachowań, np. kliknięć, które są ściśle powiązane z preferencjami użytkownika.
"Buty, które użytkownik dopasowuje do swoich potrzeb – to przydatna etykieta.
Adoracja nie jest obserwowalna i wymierna. Najlepiej wyszukać obserwowalne wskaźniki proxy dla adoracji.