Ta strona została przetłumaczona przez Cloud Translation API.

Rozmiar i jakość zbioru danych

„Odpadki, śmieci”.

Poprzednie rozwiązanie dotyczy systemów uczących się. W końcu model jest tak dobry jak dane. Jak mierzycie jakość i jakość zbioru danych? I ile danych potrzebujesz, aby uzyskać przydatne wyniki? Odpowiedzi zależą od typu problemu.

Rozmiar zbioru danych

Ogólnie rzecz biorąc, model powinien trenować przy co najmniej rządzie większej liczby przykładów niż w przypadku trenowania. Proste modele w dużych zbiorach danych mają przeważnie wyższe modele niż małe. Google z powodzeniem trenuje proste modele regresji liniowej w dużych zbiorach danych.

Co wlicza się do danych? To zależy od projektu. Weź pod uwagę względny rozmiar tych zbiorów danych:

Zbiór danych	Rozmiar (liczba przykładów)
Zbiór danych z kwiatami tęczowymi	150 (łącznie)
MovieLens (20 mln danych)	20 000 263 (łącznie)
Inteligentna odpowiedź Google Gmail	238 000 000 (zestaw treningowy)
Ngram w Książkach Google	468 000 000 000 (łącznie)
Tłumacz Google	biliony

Jak widać, zbiory danych są dostępne w różnych rozmiarach.

Jakość zbioru danych

Lepiej jest nie mieć też dużej ilości danych, jeśli są one niewłaściwe. Zajmują się też jakością danych. Ale co tak naprawdę się liczy? Jest to niejasne hasło. Warto rozważyć empiryczne podejście i wybór opcji, która daje najlepsze rezultaty. Mając to na uwadze, zbiór danych wysokiej jakości umożliwia osiągnięcie sukcesu biznesowego. Innymi słowy, dane są dobre, jeśli spełniają swoje zamierzenie.

Jednak przy gromadzeniu danych warto opracować bardziej szczegółową definicję jakości. Niektóre aspekty jakości odnoszą się do skuteczniejszych modeli:

niezawodność
reprezentacja cech
minimalizowanie zniekształcenia

Niezawodność

Wiarygodność oznacza stopień, w jakim możesz ufać danym. Model wytrenowany na niezawodnym zbiorze danych częściej generuje przydatne prognozy niż model wytrenowany na nierzetelnych danych. Podczas pomiaru niezawodności musisz określić:

Jak często występują błędy dotyczące etykiet? Jeśli na przykład danymi są oznaczone przez ludzi, czasem ludzie popełniają błędy.
Czy Twoje funkcje są głośne? Na przykład pomiary GPS się zmieniają. Jakiś szum jest w porządku. Nigdy nie trwale usuwasz zbioru danych wszystko. Możesz też zebrać więcej przykładów.
Czy dane są prawidłowo filtrowane pod kątem problemu? Czy na przykład, jeśli zbiór danych powinien zawierać zapytania generowane przez boty? Jeśli tworzysz system wykrywania spamu, zapewne tak, ale jeśli próbujesz poprawić wyniki wyszukiwania wyświetlane użytkownikom, nie.

Co sprawia, że dane są niewiarygodne? Zwróć uwagę na to, że z kursu awarii systemów uczących się wiele przykładów w zbiorach danych jest nierzetelnych z tych powodów:

Pomiń wartości. Na przykład użytkownik zapomniał wpisać wartość domu.
Zduplikowane przykłady. Na przykład serwer błędnie przesłał te same logi.
Nieprawidłowe etykiety. Ktoś na przykład błędnie oznaczył zdjęcie dęba jako klon.
Nieprawidłowe wartości elementu. Na przykład ktoś wpisał dodatkową cyfrę lub termometr został pominięty w słońcu.

Skoncentrowaliśmy się na niezawodności Google, aby wybrać najlepsze podzbiory danych. Oznacza to, że niektóre dane mają etykiety wyższej jakości niż inne części.

Przedstawienie funkcji

Przypomnienie z kursu dotyczącego awarii systemów uczących się, który pokazuje mapowanie danych na przydatne funkcje. Warto wziąć pod uwagę te pytania:

Jak dane są wyświetlane w modelu?
Czy należy normalizować wartości liczbowe?
Jak postępować w przypadku wyjątków?

Ten kurs skupia się na przedstawieniu sekcji Przekształć dane.

Trenowanie a prognozowanie

Załóżmy, że osiągasz świetne wyniki offline. A w wyniku eksperymentu ich wyniki nie są trwałe. Co może się zdarzyć?

Ten problem sugeruje zniekształcenie między trenowaniem a wyświetleniem, co oznacza, że dla czasu trenowania porównywane są różne wyniki, a nie czas wyświetlania. Przyczyny zniekształceń mogą być subtelne, ale mieć poważne skutki. Zawsze bierz pod uwagę to, jakie dane są dostępne dla modelu w czasie prognozowania. Podczas trenowania używaj tylko funkcji, które będą dostępne do obsługi, i upewnij się, że zbiór treningowy jest reprezentatywny dla ruchu związanego z wyświetlaniem.

Załóżmy, że masz sklep internetowy i chcesz przewidzieć, ile zarobisz w danym dniu. Celem systemów uczących się jest prognozowanie dziennych przychodów na podstawie liczby klientów. Jaki problem możesz napotkać? Kliknij ikonę plusa, aby sprawdzić odpowiedź.

Problem polega na tym, że przed dniem sprzedaży nie wiadomo, ilu klientów ma czas. Ta funkcja nie jest więc przydatna, nawet jeśli wyraźnie przewiduje Twoje dzienne przychody. Podobnie podczas trenowania modelu i uzyskiwania niesamowitych danych wynikających z oceny (np.0, 99 AUC) trzeba zwrócić uwagę na tego typu funkcje, które można dodać do etykiety.

Wstecz

Wprowadzenie do tworzenia zbioru danych

Dalej

Dołączam logi