Zadbaj o dobrą organizację dzięki kolekcji
Zapisuj i kategoryzuj treści zgodnie ze swoimi preferencjami.
Jabłoń to mieszanina świetnych owoców i robaków.
Jednak jabłka w ekskluzywnych sklepach spożywczych oferują 100% doskonałe owoce.
Poza sadem a sklepem spożywczym ktoś poświęca sporo czasu
lub trochę wosku na te, które można odzyskać.
Jako inżynier systemów uczących się będziesz spędzać mnóstwo czasu
odrzucanie złych przykładów i sprzątanie tych, które można odzyskać.
Nawet kilka złych jabłek może zepsuć duży zbiór danych.
Wiele przykładów w zbiorach danych jest niewiarygodnych z powodu co najmniej jednej
następujące problemy:
Kategoria problemu
Przykład
Pominięte wartości
Osoba przeprowadzająca spis nie rejestruje wieku mieszkańców.
Zduplikowane przykłady
Serwer przesyła te same logi dwa razy.
Wartości cech spoza zakresu.
Ktoś przypadkowo wpisuje dodatkową cyfrę.
Nieprawidłowe etykiety
Weryfikator błędnie oznacza zdjęcie dębu jako
klon.
Możesz napisać program lub skrypt do wykrywania następujących problemów:
Pominięte wartości
Zduplikowane przykłady
Wartości cech spoza zakresu
Na przykład ten zbiór danych zawiera 6 powtarzających się wartości:
Rysunek 15. Pierwszych 6 wartości jest powtarzanych.
W kolejnym przykładzie załóżmy, że zakres temperatur dla określonej cechy musi
musi mieścić się w przedziale od 10 do 30 stopni włącznie. Zdarzają się jednak wypadki,
termometr jest tymczasowo wystawiony na działanie światła słonecznego, co powoduje występowanie nieprawidłowej wartości odstającej.
Twój program lub skrypt musi określać wartości temperatury mniejsze niż 10 lub większe
niż 30:
Rysunek 16. Wartość spoza zakresu.
Jeśli etykiety są generowane przez wiele osób, zalecamy stosowanie statystyk
określając, czy każdy oceniający wygenerował równoważne zestawy etykiet.
Być może jeden weryfikator był ostrzejszy niż reszta
inny zestaw kryteriów oceniania?
Zazwyczaj trzeba je „naprawić” przykłady z nieprawidłowymi funkcjami
lub nieprawidłowych etykiet przez usunięcie ich ze zbioru danych lub przypisanie ich wartości.
Więcej informacji:
Cechy danych
strony
Zbiory danych, uogólnianie i nadmierne dopasowanie
.
[[["Łatwo zrozumieć","easyToUnderstand","thumb-up"],["Rozwiązało to mój problem","solvedMyProblem","thumb-up"],["Inne","otherUp","thumb-up"]],[["Brak potrzebnych mi informacji","missingTheInformationINeed","thumb-down"],["Zbyt skomplikowane / zbyt wiele czynności do wykonania","tooComplicatedTooManySteps","thumb-down"],["Nieaktualne treści","outOfDate","thumb-down"],["Problem z tłumaczeniem","translationIssue","thumb-down"],["Problem z przykładami/kodem","samplesCodeIssue","thumb-down"],["Inne","otherDown","thumb-down"]],["Ostatnia aktualizacja: 2024-08-13 UTC."],[[["Like sorting good apples from bad, ML engineers spend significant time cleaning data by removing or fixing bad examples to improve dataset quality."],["Common data problems include omitted values, duplicate examples, out-of-range values, and incorrect labels, which can negatively impact model performance."],["You can use programs or scripts to identify and handle data issues such as omitted values, duplicates, and out-of-range feature values by removing or correcting them."],["When multiple individuals label data, it's important to check for consistency and identify potential biases to ensure label quality."],["Addressing data quality issues before training a model leads to better model accuracy and overall performance."]]],[]]