Rozmiar i jakość zbioru danych

„Odpadki, śmieci”.

Poprzednie rozwiązanie dotyczy systemów uczących się. W końcu model jest tak dobry jak dane. Jak mierzycie jakość i jakość zbioru danych? I ile danych potrzebujesz, aby uzyskać przydatne wyniki? Odpowiedzi zależą od typu problemu.

Rozmiar zbioru danych

Ogólnie rzecz biorąc, model powinien trenować przy co najmniej rządzie większej liczby przykładów niż w przypadku trenowania. Proste modele w dużych zbiorach danych mają przeważnie wyższe modele niż małe. Google z powodzeniem trenuje proste modele regresji liniowej w dużych zbiorach danych.

Co wlicza się do danych? To zależy od projektu. Weź pod uwagę względny rozmiar tych zbiorów danych:

Zbiór danych Rozmiar (liczba przykładów)
Zbiór danych z kwiatami tęczowymi 150 (łącznie)
MovieLens (20 mln danych) 20 000 263 (łącznie)
Inteligentna odpowiedź Google Gmail 238 000 000 (zestaw treningowy)
Ngram w Książkach Google 468 000 000 000 (łącznie)
Tłumacz Google biliony

Jak widać, zbiory danych są dostępne w różnych rozmiarach.

Jakość zbioru danych

Lepiej jest nie mieć też dużej ilości danych, jeśli są one niewłaściwe. Zajmują się też jakością danych. Ale co tak naprawdę się liczy? Jest to niejasne hasło. Warto rozważyć empiryczne podejście i wybór opcji, która daje najlepsze rezultaty. Mając to na uwadze, zbiór danych wysokiej jakości umożliwia osiągnięcie sukcesu biznesowego. Innymi słowy, dane są dobre, jeśli spełniają swoje zamierzenie.

Jednak przy gromadzeniu danych warto opracować bardziej szczegółową definicję jakości. Niektóre aspekty jakości odnoszą się do skuteczniejszych modeli:

  • niezawodność
  • reprezentacja cech
  • minimalizowanie zniekształcenia

Niezawodność

Wiarygodność oznacza stopień, w jakim możesz ufać danym. Model wytrenowany na niezawodnym zbiorze danych częściej generuje przydatne prognozy niż model wytrenowany na nierzetelnych danych. Podczas pomiaru niezawodności musisz określić:

  • Jak często występują błędy dotyczące etykiet? Jeśli na przykład danymi są oznaczone przez ludzi, czasem ludzie popełniają błędy.
  • Czy Twoje funkcje są głośne? Na przykład pomiary GPS się zmieniają. Jakiś szum jest w porządku. Nigdy nie trwale usuwasz zbioru danych wszystko. Możesz też zebrać więcej przykładów.
  • Czy dane są prawidłowo filtrowane pod kątem problemu? Czy na przykład, jeśli zbiór danych powinien zawierać zapytania generowane przez boty? Jeśli tworzysz system wykrywania spamu, zapewne tak, ale jeśli próbujesz poprawić wyniki wyszukiwania wyświetlane użytkownikom, nie.

Co sprawia, że dane są niewiarygodne? Zwróć uwagę na to, że z kursu awarii systemów uczących się wiele przykładów w zbiorach danych jest nierzetelnych z tych powodów:

  • Pomiń wartości. Na przykład użytkownik zapomniał wpisać wartość domu.
  • Zduplikowane przykłady. Na przykład serwer błędnie przesłał te same logi.
  • Nieprawidłowe etykiety. Ktoś na przykład błędnie oznaczył zdjęcie dęba jako klon.
  • Nieprawidłowe wartości elementu. Na przykład ktoś wpisał dodatkową cyfrę lub termometr został pominięty w słońcu.

Skoncentrowaliśmy się na niezawodności Google, aby wybrać najlepsze podzbiory danych. Oznacza to, że niektóre dane mają etykiety wyższej jakości niż inne części.

Przedstawienie funkcji

Przypomnienie z kursu dotyczącego awarii systemów uczących się, który pokazuje mapowanie danych na przydatne funkcje. Warto wziąć pod uwagę te pytania:

  • Jak dane są wyświetlane w modelu?
  • Czy należy normalizować wartości liczbowe?
  • Jak postępować w przypadku wyjątków?

Ten kurs skupia się na przedstawieniu sekcji Przekształć dane.

Trenowanie a prognozowanie

Załóżmy, że osiągasz świetne wyniki offline. A w wyniku eksperymentu ich wyniki nie są trwałe. Co może się zdarzyć?

Ten problem sugeruje zniekształcenie między trenowaniem a wyświetleniem, co oznacza, że dla czasu trenowania porównywane są różne wyniki, a nie czas wyświetlania. Przyczyny zniekształceń mogą być subtelne, ale mieć poważne skutki. Zawsze bierz pod uwagę to, jakie dane są dostępne dla modelu w czasie prognozowania. Podczas trenowania używaj tylko funkcji, które będą dostępne do obsługi, i upewnij się, że zbiór treningowy jest reprezentatywny dla ruchu związanego z wyświetlaniem.