Prawdziwe dane liczbowe
można mnożyć przez znaczącą liczbę. Na przykład rozważ zastosowanie
który prognozuje wartość domu na podstawie jego powierzchni.
Przydatny model oceny cen domów zwykle opiera się
setki funkcji. Przy założeniu, że wszystkie inne są równe, dom o 200 kwadratach
metry powinny być mniej więcej dwa razy cenniejsze niż taki sam dom o powierzchni 100 kwadratów
m
Cechy, które zawierają wartości całkowite, często należy przedstawić jako
w postaci danych kategorialnych, a nie liczbowych. Weźmy na przykład adres pocztowy
funkcję kodu, w której wartości są liczbami całkowitymi. Jeśli reprezentujesz tę firmę
w postaci liczbowej, a nie kategorialnej, modelujesz,
znaleźć zależność liczbową
między różnymi kodami pocztowymi. Chodzi o to, aby model
traktowanie kodu pocztowego 20004 jako dwa razy (lub połowę) większego sygnału, co kod pocztowy
10002. Prezentowanie kodów pocztowych jako danych kategorialnych pozwala modelowi
wagi poszczególnych kodów pocztowych.
Kodowanie
Kodowanie oznacza konwertowanie danych kategorialnych lub innych na wektory liczbowe.
na których model może trenować. Ta konwersja jest niezbędna, ponieważ modele mogą
trenuj tylko na wartościach zmiennoprzecinkowych; które nie mogą trenować na ciągach znaków,
"dog" lub "maple". W tym module objaśniamy różne
metod kodowania danych kategorialnych.
[[["Łatwo zrozumieć","easyToUnderstand","thumb-up"],["Rozwiązało to mój problem","solvedMyProblem","thumb-up"],["Inne","otherUp","thumb-up"]],[["Brak potrzebnych mi informacji","missingTheInformationINeed","thumb-down"],["Zbyt skomplikowane / zbyt wiele czynności do wykonania","tooComplicatedTooManySteps","thumb-down"],["Nieaktualne treści","outOfDate","thumb-down"],["Problem z tłumaczeniem","translationIssue","thumb-down"],["Problem z przykładami/kodem","samplesCodeIssue","thumb-down"],["Inne","otherDown","thumb-down"]],["Ostatnia aktualizacja: 2024-08-13 UTC."],[[["This module focuses on differentiating between categorical and numerical data within machine learning."],["You will learn how to represent categorical data using one-hot vectors and address common issues associated with it."],["The module covers encoding techniques for converting categorical data into numerical vectors suitable for model training."],["Feature crosses, a method for combining categorical features to capture interactions, are also discussed."],["It is assumed you have prior knowledge of introductory machine learning and working with numerical data."]]],[]]