Zadbaj o dobrą organizację dzięki kolekcji
Zapisuj i kategoryzuj treści zgodnie ze swoimi preferencjami.
Specjaliści zajmujący się uczeniem maszynowym poświęcają znacznie więcej czasu na ocenę, oczyszczanie i przekształcanie danych niż na budowaniu modeli.
Dane są tak ważne, że ten kurs poświęca temu tematowi 3 całe jednostki:
Ta część koncentruje się
dane liczbowe,
oznaczające liczby całkowite lub wartości zmiennoprzecinkowe
które zachowują się jak liczby. czyli sumować się, zliczać, porządkować,
i tak dalej. Następna część dotyczy
danych kategorialnych, które mogą
zawierają liczby, które są podobne do kategorii. W treningu i ocenie modelu należy zadbać o odpowiednie przygotowanie danych, aby zapewnić wysoką jakość wyników.
Przykłady danych liczbowych:
Temperatura
Waga
Liczba jeleni zimujących w rezerwacie przyrody
W przeciwieństwie do nich amerykańskie kody pocztowe, mimo że są pięcio- lub dziewięciocyfrowe, nie zachowują się jak liczby ani nie reprezentują relacji matematycznych. Kod pocztowy 40004 (w hrabstwie Nelson, Kentucky) nie jest podwojoną wartością kodu pocztowego 20002 (w Waszyngtonie, D.C.). Te numery
reprezentują kategorie, konkretne obszary geograficzne i są uważane
dane kategorialne.
[[["Łatwo zrozumieć","easyToUnderstand","thumb-up"],["Rozwiązało to mój problem","solvedMyProblem","thumb-up"],["Inne","otherUp","thumb-up"]],[["Brak potrzebnych mi informacji","missingTheInformationINeed","thumb-down"],["Zbyt skomplikowane / zbyt wiele czynności do wykonania","tooComplicatedTooManySteps","thumb-down"],["Nieaktualne treści","outOfDate","thumb-down"],["Problem z tłumaczeniem","translationIssue","thumb-down"],["Problem z przykładami/kodem","samplesCodeIssue","thumb-down"],["Inne","otherDown","thumb-down"]],["Ostatnia aktualizacja: 2025-07-27 UTC."],[[["This module focuses on preparing numerical data, such as temperature or weight, for use in machine learning models."],["Machine learning practitioners spend significant time on data preparation tasks like cleaning and transformation."],["The module covers techniques like feature scaling, outlier detection, and binning to improve data quality for model training."],["Learners should have a basic understanding of machine learning concepts before starting this module."],["Categorical data, like postal codes, will be addressed in a separate module due to its distinct characteristics and handling requirements."]]],[]]