Cómo trabajar con datos categóricos

Los datos categóricos tienen una conjunto específico de valores posibles. Por ejemplo:

  • Las diferentes especies de animales en un parque nacional
  • Los nombres de las calles de una ciudad en particular
  • Si un correo electrónico es o no spam
  • Los colores con los que se pintan los exteriores de las casas
  • Números agrupados, que se describen en el módulo Cómo trabajar con datos numéricos

Los números también pueden ser datos categóricos

Datos numéricos verdaderos puedan multiplicarse de manera significativa. Por ejemplo, considera un que predice el valor de una vivienda en función de su área. Ten en cuenta que un modelo útil para evaluar los precios de las casas suele basarse en centenas de atributos. Dicho esto, si todo lo demás es igual, una casa de 200 metros cuadrados debería tener aproximadamente el doble de valor que una casa idéntica de 100 metros cuadrados.

A menudo, debes representar los atributos que contienen valores enteros como datos categóricos en lugar de datos numéricos. Por ejemplo, considera una solicitud en el que los valores son números enteros. Si representas esto, de forma numérica en lugar de categórico, le pedirás al modelo para encontrar una relación numérica entre distintos códigos postales. Es decir, le estás diciendo al modelo que trate el código postal 20004 como una señal dos veces (o la mitad) más grande que el código postal 10002. La representación de códigos postales como datos categóricos le permite al modelo ponderar cada código postal individual por separado.

Codificación

Codificación significa convertir datos categóricos o de otro tipo en vectores numéricos con los que un modelo puede entrenarse. Esta conversión es necesaria porque los modelos solo pueden entrenarse con valores de punto flotante; no pueden entrenarse con cadenas como "dog" o "maple". En este módulo, se explican los diferentes métodos de codificación para datos categóricos.