Praca z danymi liczbowymi

Specjaliści zajmujący się uczeniem maszynowym poświęcają znacznie więcej czasu na ocenę, oczyszczanie i przekształcanie danych niż na budowaniu modeli. Dane są tak ważne, że ten kurs poświęca temu tematowi 3 całe jednostki:

Ta część koncentruje się dane liczbowe, oznaczające liczby całkowite lub wartości zmiennoprzecinkowe które zachowują się jak liczby. czyli sumować się, zliczać, porządkować, i tak dalej. Następna część dotyczy danych kategorialnych, które mogą zawierają liczby, które są podobne do kategorii. W treningu i ocenie modelu należy zadbać o odpowiednie przygotowanie danych, aby zapewnić wysoką jakość wyników.

Przykłady danych liczbowych:

  • Temperatura
  • Waga
  • Liczba jeleni zimujących w rezerwacie przyrody

W przeciwieństwie do nich amerykańskie kody pocztowe, mimo że są pięcio- lub dziewięciocyfrowe, nie zachowują się jak liczby ani nie reprezentują relacji matematycznych. Kod pocztowy 40004 (w hrabstwie Nelson, Kentucky) nie jest podwojoną wartością kodu pocztowego 20002 (w Waszyngtonie, D.C.). Te numery reprezentują kategorie, konkretne obszary geograficzne i są uważane dane kategorialne.