Przykład z serwisu informacyjnego pokazuje, że czysty podział nie zawsze jest właściwym podejściem.
częstą metodą w przypadku systemów online jest dzielenie danych według czasu, co pozwala na:
- Zbierz dane z 30 dni.
- Trenuj dane z dni 1–29.
- Oceń dane z 30. dnia.
W przypadku systemów online dane treningowe są starsze niż dane wyświetlania, więc ta metoda zapewnia, że zestaw weryfikacji odzwierciedla upływ czasu między trenowaniem a udostępnianiem. Podziały czasowe najlepiej sprawdzają się jednak w przypadku bardzo dużych zbiorów danych, np. zawierających dziesiątki milionów przykładów. W projektach z mniejszą ilością danych rozkłady są bardzo różne między trenowaniem, weryfikacją i testowaniem.
Czuć też błąd podziału danych z projektu literatury systemów uczących się opisanego w systemie uczenia się systemów uczących się. Dane literatury zostały stworzone przez jednego z trzech autorów, więc zostały podzielone na 3 główne grupy. Zespół zastosował losowy podział, więc dane z każdej grupy były uwzględniane w zestawach przeznaczonych do trenowania, oceny i testowania, więc model nauczył się z informacji, których nie musiałby mieć w czasie prognozowania. Ten problem może wystąpić, gdy Twoje dane są zgrupowane – jako dane ciągu czasowego lub pogrupowane według innych kryteriów. Informacje o domenie mogą pomóc w podziale danych.
Dodatkowe moduły znajdziesz w kursie dotyczącym systemów uczących się: