Zbieranie danych: zrozumienie

W przypadku tych pytań kliknij wybraną strzałkę, aby sprawdzić odpowiedź:

Załóżmy, że pracujesz nad modelem systemów uczących się związanym z reklamami i chcesz przewidzieć wydatki reklamodawców w styczniu. Masz limity dotyczące ilości danych, które możesz przechowywać na dysku, więc możesz użyć tylko podzbioru dostępnych danych. Możesz użyć wszystkich najnowszych danych z poprzedniego miesiąca, czyli grudnia. Ktoś inny zaproponował próbkę danych z zeszłego roku. Co może być lepsze i dlaczego?
Dane z poprzedniego miesiąca (grudzień)
Te dane są nowsze, ale mogą zależeć od sezonowych wydatków reklamodawców w okresie grudnia.
Dane próbkowane w ciągu roku
Chociaż te dane są stare, prawdopodobieństwo wpływu sezonowych wydatków reklamodawców na grudniowe święta jest mniejsze.
Chcesz pokazywać filmy, które chcą obejrzeć użytkownicy. Jako etykiety używasz filmów, które oglądały w YouTube. Czy ta etykieta jest bezpośrednia czy pochodzą?
Pochodna
Ta etykieta została określona, ponieważ nie jest to dokładna prognoza, jaką chcesz utworzyć. Być może użytkownik otworzył film, ale wkrótce go zamknął. Takie zdarzenie zostanie zliczone jako wyświetlenie, mimo że użytkownik nie obejrzał filmu. W niektórych przypadkach może to być jedyna metoda, ale pamiętaj o typie etykiety (bezpośredniej lub pochodnej) i o tym, jak ogranicza ona Twoje prognozy.
Bezpośrednie
Choć etykiety mogą być dokładne w większości przypadków, nie jest to dokładna prognoza.