Les nombres peuvent aussi être des données catégorielles
Vraies données numériques
peuvent être multipliées
de manière significative. Prenons l'exemple d'une
qui prédit la valeur d'un logement en fonction de sa superficie.
Notez qu'un modèle utile pour évaluer
le prix des maisons repose généralement sur
des centaines de fonctionnalités. Cela dit, toutes choses égales par ailleurs, une maison de 200 places
Les mètres doivent avoir une valeur environ deux fois supérieure à celle d'une maison identique de 100 mètres carrés.
mètres.
Souvent, vous devez représenter les caractéristiques contenant des valeurs entières sous la forme
des données catégorielles
au lieu de données numériques. Prenons l'exemple d'un code postal
caractéristique de code dont les valeurs sont des entiers. Si vous représentez
des caractéristiques numériques plutôt que catégorielles, vous demandez au modèle
pour trouver une relation numérique
entre différents codes postaux. Autrement dit, vous demandez au modèle
Traiter le code postal 20004 comme étant deux fois (ou la moitié) plus grand que le code postal
10002. Représenter les codes postaux en tant que données catégorielles permet au modèle
pondérer chaque code postal séparément.
Encodage
L'encodage désigne la conversion de données catégorielles ou autres en vecteurs numériques
pour l'entraînement d'un modèle. Cette conversion est nécessaire, car les modèles
l'entraînement sur des valeurs à virgule flottante uniquement. ne peuvent pas être entraînés sur des chaînes
"dog" ou "maple". Ce module présente différentes
pour les données catégorielles.
Sauf indication contraire, le contenu de cette page est régi par une licence Creative Commons Attribution 4.0, et les échantillons de code sont régis par une licence Apache 2.0. Pour en savoir plus, consultez les Règles du site Google Developers. Java est une marque déposée d'Oracle et/ou de ses sociétés affiliées.
Dernière mise à jour le 2024/08/13 (UTC).
[[["Facile à comprendre","easyToUnderstand","thumb-up"],["J'ai pu résoudre mon problème","solvedMyProblem","thumb-up"],["Autre","otherUp","thumb-up"]],[["Il n'y a pas l'information dont j'ai besoin","missingTheInformationINeed","thumb-down"],["Trop compliqué/Trop d'étapes","tooComplicatedTooManySteps","thumb-down"],["Obsolète","outOfDate","thumb-down"],["Problème de traduction","translationIssue","thumb-down"],["Mauvais exemple/Erreur de code","samplesCodeIssue","thumb-down"],["Autre","otherDown","thumb-down"]],["Dernière mise à jour le 2024/08/13 (UTC)."],[[["This module focuses on differentiating between categorical and numerical data within machine learning."],["You will learn how to represent categorical data using one-hot vectors and address common issues associated with it."],["The module covers encoding techniques for converting categorical data into numerical vectors suitable for model training."],["Feature crosses, a method for combining categorical features to capture interactions, are also discussed."],["It is assumed you have prior knowledge of introductory machine learning and working with numerical data."]]],[]]