Kadrowanie: sprawdzian wiedzy

Nauka nadzorowana

Dostępne opcje są opisane poniżej.

Załóżmy, że chcesz opracować nadzorowany model systemów uczących się, aby przewidywać, czy dany e-mail jest „spamem”, czy „nie spam”." Które z poniższych stwierdzeń są prawdziwe?
E-maile, które nie są oznaczone jako „&spam” ani „nie spam”, nie są etykietami.
Ponieważ etykieta składa się z wartości o nazwie &spam, a nie spam, wszystkie wiadomości, które nie zostały jeszcze oznaczone jako spam lub nie są spamem, nie są oznaczone etykietą.
Słowa z nagłówka tematu będą działać prawidłowo.
Słowa w nagłówku tematu mogą cieszyć się świetnymi funkcjami, ale nie będą dobrej etykiety.
Do trenowania modelu użyjemy przykładów bez etykiet.
Do trenowania modelu użyjemy przykładów oznaczonych etykietą. Dzięki temu możemy wytrenować model na nieoznaczonych przykładach, aby stwierdzić, czy e-maile bez etykiet są spamem.
Etykiety zastosowane do niektórych przykładów mogą być nierzetelne.
Jak najbardziej. Warto sprawdzić wiarygodność danych. Etykiety tego zbioru danych prawdopodobnie pochodzą od użytkowników, którzy oznaczają określone e-maile jako spam. Większość użytkowników nie oznacza wszystkich podejrzanych e-maili jako spam, więc możemy mieć problemy z rozpoznaniem, czy e-mail to spam. Co więcej, spamerzy mogli celowo otruć nasz model, podając nieprawidłowe etykiety.

Cechy i etykiety

Dostępne opcje są opisane poniżej.

Załóżmy, że internetowy sklep obuwniczy chce utworzyć nadzorowany model systemów uczących się, który będzie dostarczał spersonalizowane rekomendacje butów użytkownikom. Model będzie więc rekomendować Marty określone pary butów, a Marcie różne pary butów. System wygeneruje dane treningowe na podstawie danych o wcześniejszych zachowaniach użytkowników. Które z poniższych stwierdzeń są prawdziwe?
&Rozmiar buta" jest przydatną funkcją.
& „Rozmiar obuwia” to miarodajny sygnał, który prawdopodobnie ma duży wpływ na to, czy użytkownikowi spodoba się ten but. Jeśli na przykład Marta nosi rozmiar 9, model nie powinien zalecać butów w rozmiarze 7.
&Piękne buty&quot
Dobre funkcje muszą być konkretne i miarodajne. Uroda jest zbyt ogólnikowa, aby służyła jako przydatna funkcja. Uroda to prawdopodobnie połączenie betonowych cech, takich jak styl i kolor. Styl i kolor będą lepszymi cechami niż uroda.
&Użytkownik klika przydatną etykietę.
Użytkownicy prawdopodobnie chcą tylko dowiedzieć się więcej o tych butach, które im się podobają. Kliknięcia użytkowników to więc obserwowalne, wymierne dane, które mogą służyć za dobrą etykietę treningową. Nasze dane treningowe pochodzą z wcześniejszych zachowań użytkowników, więc nasze etykiety muszą pochodzić z obiektywnych zachowań, np. kliknięć, które są ściśle powiązane z preferencjami użytkownika.
"Buty, które użytkownik dopasowuje do swoich potrzeb – to przydatna etykieta.
Adoracja nie jest obserwowalna i wymierna. Najlepiej wyszukać obserwowalne wskaźniki proxy dla adoracji.