Próbkowanie i dzielenie danych

Wprowadzenie do próbkowania

Zbieranie danych do projektu systemów uczących się jest często trudne. Czasami danych jest za dużo, więc musisz wybrać podzbiór przykładów do trenowania.

Jak wybierasz ten podzbiór? Weźmy za przykład wyszukiwarkę Google. W jakiej szczegółowości można zastosować tak ogromne ilości danych? Czy można użyć losowych zapytań? Sesje losowe? Losowi użytkownicy?

Odpowiedź różni się w zależności od problemu: co chcemy przewidzieć i jakie funkcje chcemy mieć?

  • Aby użyć funkcji poprzedniego zapytania, musisz próbkować na poziomie sesji, bo sesje zawierają sekwencję zapytań.
  • Aby móc korzystać z funkcji użytkownika z poprzednich dni, musisz próbkować ją na poziomie użytkownika.

Filtrowanie według informacji umożliwiających identyfikację (informacje umożliwiające identyfikację)

Jeśli Twoje dane zawierają informacje umożliwiające identyfikację osób, konieczne może być odfiltrowanie ich. Zasada może wymagać usunięcia rzadkich funkcji.

To filtrowanie zaburzy rozkład. Utracisz informacje z tyłu strony (część rozkładu o bardzo niskich wartościach, daleko od średniej).

Takie filtrowanie jest pomocne, ponieważ bardzo rzadkie funkcje są trudne do opanowania. Trzeba jednak pamiętać, że zbiór danych będzie stronniczości pod kątem zapytań nagłówka. W tym czasie możesz mieć problemy z wyświetlaniem przykładów z ogólnego zakresu, ponieważ zostały one odfiltrowane z danych treningowych. Zniekształcenia tej nie można uniknąć, ale należy o niej pamiętać podczas analizy.