Wprowadzenie do tworzenia zbioru danych

Etapy tworzenia zbioru danych

Aby utworzyć zbiór danych (i przed przekształceniem danych):

  1. Zbierz nieprzetworzone dane.
  2. Identyfikuj źródła funkcji i etykiet.
  3. Wybierz strategię próbkowania.
  4. Podziel dane.

Kroki te w dużej mierze zależą od tego, jak ujęto w nim model ML. Sprawdź poniżej, jak odświeżyć wspomnienie w zakresie kadrowania i sprawdzić swoje założenia dotyczące zbierania danych.

Samodzielna weryfikacja problemów i gromadzenie danych

W przypadku tych pytań kliknij wybraną strzałkę, aby sprawdzić odpowiedź:

Korzystasz z nowego projektu systemów uczących się, w którym możesz wybrać pierwsze funkcje. Ile funkcji powinien wybrać?
Wybierz 1–3 funkcje, które wydają się mieć wysoką wydajność prognozowaną.
Najlepiej, aby potok zbierania danych zaczynał się tylko od 1 lub 2 funkcji. Pomoże Ci to sprawdzić, czy model ML działa zgodnie z oczekiwaniami. Budując wartość bazową na podstawie kilku funkcji, czujesz, że jesteś na dobrej drodze!
Wybierz 4–6 funkcji, które wydają się mieć wysoką wydajność.
Z czasem możesz korzystać z wielu funkcji, ale lepiej jest zacząć od mniejszej ich liczby. Mniejsza liczba funkcji oznacza zwykle mniej niepotrzebnych komplikacji.
Wybierz jak najwięcej funkcji, aby zacząć obserwować te, które mają największą moc prognostyczną.
Zacznij od mniejszych. Każda nowa funkcja dodaje nowy wymiar do zbioru danych do trenowania. Gdy wymiarowość się zwiększa, ilość miejsca na dane rośnie tak bardzo, że dostępne dane treningowe są rozproszone. Im bardziej jest danych, tym trudniej jest poznać zależność między ważnymi funkcjami a etykietą. Ten fenomen jest nazywany „przyzwoitym wymiarem”."
Twój znajomy Szymon jest podekscytowany początkowymi wynikami analizy statystycznej. Zauważa on, że istnieje duża zależność między liczbą pobrań aplikacji a liczbą wyświetleń opinii. Nie jest pewna, czy mimo to nie mogłaby pobrać tej opinii. Która odpowiedź będzie najbardziej przydatna dla niego?
Możesz przeprowadzić eksperyment, aby porównać zachowanie użytkowników, którzy nie widzieli opinii z podobnymi użytkownikami.
Dobrze! Jeśli Adam zauważa, że użytkownicy, którzy zobaczyli pozytywną opinię, są bardziej skłonni do pobrania aplikacji niż osoby, które nie widziały takiej opinii, ma uzasadnione dowody sugerujące, że ta opinia zachęca użytkowników do jej pobrania.
Zaufaj danym. Widać, że użytkownicy chętnie pobierali daną aplikację.
Źle. To nie pomogło Janowi w prawidłowym kierunku. Nie można określić przyczyny tylko na podstawie danych obserwacyjnych. Jan widzi korelację (czyli zależność statystyczną między liczbami), która może oznaczać, czy nie. Nie pozwól, aby Twoje analizy dołączały do rankingu nieprawdziwych korelacji.