Etykiety i źródła

Etykiety bezpośrednie a pochodne

Systemy uczące się są łatwiejsze, jeśli etykiety są odpowiednio zdefiniowane. Najlepsza etykieta to bezpośrednia etykieta dla prognozy. Jeśli na przykład chcesz przewidzieć, że użytkownik jest fanem Taylora Swift, bezpośrednia etykieta to „Użytkownik”, ale jest fanem Taylora Swifta.

Prostszym sposobem przetestowania fanów może być np. obejrzenie w YouTube filmu Taylor Swift. Etykieta &użytkownik obejrzała film Taylor Swift w YouTube, ponieważ jest to etykieta pochodna, która nie wskazuje bezpośrednio na to, co przewidujesz. Czy ta przypisana etykieta jest niezawodnym wskaźnikiem, że użytkownik lubi Taylor Swift? Twój model będzie równie dobry jak połączenie między etykietą wyodrębnioną a prognozowaną.

Źródła etykiet

Dane wyjściowe modelu mogą obejmować zdarzenie lub atrybut. Zostaną wyświetlone 2 rodzaje etykiet:

  • Bezpośrednia etykieta zdarzeń, np. „Czy użytkownik kliknął pierwszy wynik wyszukiwania?”.
  • Bezpośrednia etykieta atrybutów, np. „Czy reklamodawca w ciągu następnego tygodnia wyda więcej niż X USD?”

Bezpośrednie etykiety zdarzeń

W przypadku zdarzeń etykiety bezpośrednie są zwykle proste, ponieważ można rejestrować zachowanie użytkowników w czasie trwania zdarzenia jako etykiety. Podczas oznaczania zdarzeń zadaj sobie te pytania:

  • Jaka jest struktura Twoich dzienników?
  • Co oznacza „zdarzenie” w Twoich dziennikach?

Na przykład, czy system rejestruje użytkownika po kliknięciu wyniku wyszukiwania lub czy podczas wyszukiwania? Jeśli masz logi kliknięć, pamiętaj, że bez żadnych kliknięć nie zobaczysz wyświetlenia. Potrzebujesz dzienników, w których zdarzenia są wyświetleniami, więc obejmujesz wszystkie przypadki, w których użytkownicy widzą najpopularniejszy wynik wyszukiwania.

Bezpośrednie etykiety dla atrybutów

Załóżmy, że etykieta: „W następnym tygodniu reklamodawca wyda więcej niż X USD”. Zwykle na podstawie danych z poprzednich dni prognozujesz, co nastąpi w kolejnych dniach. Na przykład ta ilustracja pokazuje 10 dni trenowania danych, które pozwalają przewidzieć następne 7 dni:

Kalendarz z blokadą 10-dniową, a następnie blokiem 7-dniowym.
Model wykorzystuje dane z bloku 10-dniowego do prognozowania na podstawie danych z 7-dniowego bloku.

Pamiętaj, aby brać pod uwagę efekty sezonowe i cykliczne, np. reklamodawcy mogą zwiększać wydatki w weekendy. Z tego względu możesz zamiast tego wykorzystać 14-dniowy okres lub użyć daty jako funkcji, aby model mógł poznać efekty roczne.

Etykiety bezpośrednie potrzebują zapisów wcześniejszych zachowań

W poprzednich przypadkach potrzebujemy danych o prawdziwym wyniku. Niezależnie od tego, ile reklamodawcy wydali, a którzy oglądali filmy Taylor Swift, potrzebujemy danych historycznych, aby korzystać z nadzorowanych systemów uczących się. Systemy uczące się przewidują to, co wydarzyło się w przeszłości, jeśli więc nie masz dzienników w przeszłości, musisz je pobrać.

Co zrobić, jeśli nie masz danych do zapisania?

Być może Twój produkt jeszcze nie istnieje, więc nie masz żadnych danych do zapisania. Możesz wtedy wykonać którąś z tych czynności:

  • Użyj reguły heurystycznej przy pierwszym uruchomieniu, a następnie wytrenuj system na podstawie zapisanych danych.
  • Używaj logów z podobnego problemu do rozruchu systemu.
  • Wykorzystuj weryfikatory do generowania danych, wykonując zadania.

Dlaczego warto używać danych oznaczonych przez ludzi?

Korzystanie z danych oznaczonych przez ludzi ma swoje zalety i wady.

Zalety

  • Weryfikatorzy mogą wykonywać wiele różnych zadań.
  • Dane wymuszają wyraźną definicję problemu.

Wady

  • W przypadku niektórych domen dane są drogie.
  • Dobre dane wymagają zwykle wielu iteracji.

Poprawianie jakości

Zawsze sprawdzaj pracę weryfikatorów. Możesz na przykład oznaczyć etykietą 1000 przykładów i sprawdzić, jak Twoje wyniki wypadają na tle innych. Samodzielne oznaczanie danych etykietami to także świetny sposób, by je poznać. Jeśli widzisz rozbieżności, nie zakładaj, że Twoje oceny są prawidłowe, zwłaszcza jeśli pod uwagę brana jest ocena wartości. Jeśli testerzy uwzględnili błędy, zastanów się nad dodaniem instrukcji, które im w tym pomogą, i spróbuj ponownie.

Przeglądanie danych ręcznie to dobre ćwiczenie, niezależnie od sposobu ich uzyskania. Andrej Karpathy zrobił to w ImageNet i pisze o tym doświadczeniu.