Próbkowanie i dzielenie: sprawdź swoją wiedzę

W przypadku tych pytań kliknij wybraną strzałkę, aby sprawdzić odpowiedź:

Załóżmy, że masz zbiór danych o współczynniku ujemnym 1:1000. Twój model zawsze przewiduje większość klasy. Która metoda pomoże Ci rozwiązać ten problem? Pamiętaj, że model ma raportować skalibrowane prawdopodobieństwo.
Po prostu należy zmniejszyć próbkę negatywnych przykładów.
To dobry początek, ale spowoduje to zmianę stawki podstawowej modelu, przez co nie zostanie on skalibrowany.
Przykładowe negatywne przykłady (klasa większość). Potem przenieś wagę klasy niższej o ten sam współczynnik.
To skuteczny sposób radzenia sobie z nierównościami danych, ale i tak uzyskać rzeczywisty rozkład etykiet. Pamiętaj, że to ważne, czy model zgłasza skalibrowane prawdopodobieństwo. Jeśli nie musisz kalibrować, nie musisz się martwić o zmianę stawki podstawowej.
Które techniki tracą dane z tyłu zbioru danych? Zaznacz wszystkie właściwe odpowiedzi.
Filtrowanie informacji umożliwiających identyfikację osoby
Filtrowanie informacji umożliwiających identyfikację osób może spowodować usunięcie informacji z ogona, co wpływa na rozkład.
Przypisywanie wagi
Przykład wagowy zmienia znaczenie różnych przykładów, ale nie powoduje utraty informacji. Dodanie wagi do ogonów może pomóc modelowi nauczyć się, jak działają.
Dobór próby
Ogólnoświatowe rozkłady cech utracą informacje przesyłane w dół. Ponieważ jednak większość prób jest wyodrębniona w przypadku większości klas, ta utrata nie jest zwykle dużym problemem.
Normalizacja
Normalizacja działa w przypadku poszczególnych przykładów, więc nie powoduje odchylenia prób.
Pracujesz nad klasyfikacją i losowo dzielisz dane na zbiory do trenowania, oceny i testowania. Wygląda na to, że Twój klasyfikator działa idealnie. Jednak w środowisku produkcyjnym klasyfikator kończy się niepowodzeniem. Później odkryjesz, że problem był związany z losowym podziałem. Jakie dane są podatne na ten problem?
Dane ciągów czasowych
Podział losowy dzieli każdą grupę według podziału testowego/trenowania, aby uzyskać „szybki podgląd” modelu, który nie będzie dostępny w środowisku produkcyjnym.
Dane, które zmieniają się znacznie w czasie
Jeśli dane nie zmienią się zbyt często, będziesz mieć większe szanse na losowość podziału. Możesz na przykład zidentyfikować rasę psa na zdjęciach lub przewidywać pacjentów narażonych na wadę serca na podstawie wcześniejszych danych biometrycznych. W obu przypadkach dane zwykle się nie zmieniają, więc losowy podział nie powinien być problemem.
Grupowanie danych
Zbiór testowy będzie zawsze zbyt podobny do zbioru treningowego, ponieważ klastry podobnych danych znajdują się w obu zbiorach. Model będzie miał lepszą moc prognozowaną niż obecnie.
Dane z serią (przychodzące w czasowych seriach, a nie w strumieniu ciągłym)
Klastry podobnych danych (serie) będą wyświetlane zarówno podczas trenowania, jak i testowania. Model będzie przewidywać lepsze prognozy niż nowe dane.