El aprendizaje supervisado es el sistema de AA dominante en Google. Debido a que las tareas de aprendizaje supervisado están bien definidas, como la identificación del spam o la predicción de precipitaciones, tiene más casos prácticos potenciales que el aprendizaje no supervisado. En comparación con el aprendizaje por refuerzo, el aprendizaje supervisado utiliza mejor los datos históricos.
Conceptos básicos sobre el aprendizaje supervisado
El aprendizaje automático supervisado se basa en los siguientes conceptos principales:
- Datos
- Modelo
- Capacitación
- Evaluación
- Inferencia
Datos
Los datos son la fuerza impulsora del AA. Los datos vienen en forma de palabras y números almacenados en tablas, o como valores de píxeles y formas de onda capturadas en imágenes y archivos de audio. Almacenamos datos relacionados en conjuntos de datos. Por ejemplo, podríamos tener un conjunto de datos de lo siguiente:
- Imágenes de gatos
- Precios de viviendas
- Información del tiempo
Los conjuntos de datos se componen de ejemplos individuales que contienen características y una etiqueta. Un ejemplo puede ser como análogo a una sola fila de una hoja de cálculo. Los atributos son los valores que usa un modelo supervisado para predecir la etiqueta. La etiqueta es la &answer (respuesta) o el valor que queremos que prediga el modelo. En un modelo meteorológico que predice lluvia, los atributos pueden ser latitud, longitud, temperatura, humedad, cobertura en la nube, dirección del viento y presión atmosférica. La etiqueta sería importe de lluvia.
Los ejemplos que contienen atributos y una etiqueta se denominan ejemplos etiquetados.
Dos ejemplos etiquetados
Por el contrario, los ejemplos sin etiqueta contienen atributos, pero no etiquetas. Después de crear un modelo, este predice la etiqueta a partir de los atributos.
Dos ejemplos sin etiqueta
Características del conjunto de datos
Un conjunto de datos se caracteriza por su tamaño y diversidad. El tamaño indica la cantidad de ejemplos. La diversidad indica el rango que abarcan esos ejemplos. Los conjuntos de datos buenos son grandes y muy diversos.
Algunos conjuntos de datos son grandes y diversos. Sin embargo, algunos conjuntos de datos son grandes, pero tienen diversidad, y otros son pequeños, pero sumamente diversos. En otras palabras, un conjunto de datos grande no garantiza una diversidad suficiente, y un conjunto de datos que es muy diverso no garantiza suficientes ejemplos.
Por ejemplo, un conjunto de datos puede contener datos de 100 años, pero solo para el mes de julio. El uso de este conjunto de datos para predecir lluvias en enero producirá predicciones deficientes. Por el contrario, un conjunto de datos puede abarcar solo algunos años, pero puede contenerlos todos los meses. Este conjunto de datos puede producir predicciones deficientes porque no contiene suficientes años para justificar la variabilidad.
Comprueba tu comprensión
Un conjunto de datos también se puede caracterizar por la cantidad de sus atributos. Por ejemplo, algunos conjuntos de datos meteorológicos pueden contener cientos de atributos, desde imágenes satelitales hasta valores de cobertura de nube. Otros conjuntos de datos pueden contener solo tres o cuatro atributos, como humedad, presión atmosférica y temperatura. Los conjuntos de datos con más atributos pueden ayudar a un modelo a descubrir patrones adicionales y realizar mejores predicciones. Sin embargo, los conjuntos de datos con más atributos no producen siempre modelos que hagan mejores predicciones porque es posible que algunos atributos no tengan una relación causal con la etiqueta.
Modelo
En el aprendizaje supervisado, un modelo es una colección compleja de números que definen la relación matemática desde patrones de atributos de entrada específicos hasta valores de etiquetas de salida específicos. El modelo descubre estos patrones a través del entrenamiento.
Capacitación
Antes de que un modelo supervisado pueda hacer predicciones, se debe entrenar. Para entrenar un modelo, le proporcionamos un conjunto de datos con ejemplos etiquetados. El objetivo del modelo es determinar la mejor solución para predecir las etiquetas a partir de los atributos. El modelo encuentra la mejor solución mediante la comparación del valor predicho con el valor real de la etiqueta. Según la diferencia entre los valores previstos y reales, definidos como la pérdida, el modelo actualiza su solución de forma gradual. En otras palabras, el modelo aprende la relación matemática entre los atributos y la etiqueta para poder realizar las mejores predicciones sobre datos no vistos.
Por ejemplo, si el modelo predijo 1.15 inches
de lluvia, pero el valor real era .75 inches
, el modelo modifica su solución para que su predicción esté más cerca de .75 inches
. Después de que el modelo observó cada ejemplo en el conjunto de datos (en algunos casos, varias veces), llega a una solución que realiza las mejores predicciones, en promedio, para cada uno de los ejemplos.
A continuación, se muestra el entrenamiento de un modelo:
El modelo toma un solo ejemplo etiquetado y proporciona una predicción.
Figura 1. Modelo de AA que realiza una predicción a partir de un ejemplo etiquetado.
El modelo compara su valor predicho con el valor real y actualiza su solución.
Figura 2. Un modelo de AA que actualiza su valor previsto.
El modelo repite este proceso para cada ejemplo etiquetado en el conjunto de datos.
Figura 3. Un modelo de AA que actualiza sus predicciones para cada ejemplo etiquetado en el conjunto de datos de entrenamiento.
De esta manera, el modelo aprende de forma gradual la relación correcta entre los atributos y la etiqueta. Esta comprensión gradual es también la razón por la que los conjuntos de datos grandes y diversos producen un mejor modelo. El modelo vio más datos con un rango de valores más amplio y definió mejor su relación con los atributos y la etiqueta.
Durante el entrenamiento, los profesionales del AA pueden realizar ajustes sutiles en la configuración y los atributos que usa el modelo para hacer predicciones. Por ejemplo, ciertas funciones tienen más poder predictivo que otras. Por lo tanto, los profesionales del AA pueden seleccionar qué atributos usa el modelo durante el entrenamiento. Por ejemplo, supongamos que un conjunto de datos meteorológicos contiene time_of_day
como atributo. En este caso, un profesional del AA puede agregar o quitar time_of_day
durante el entrenamiento para ver si el modelo hace mejores predicciones con o sin él.
Evaluación
Evaluamos un modelo entrenado para determinar qué tan bien aprendió. Cuando evaluamos un modelo, usamos un conjunto de datos etiquetados, pero solo le damos los atributos del conjunto de datos. Luego, comparamos las predicciones del modelo con los valores verdaderos de la etiqueta.
Figura 4. Evaluar un modelo de AA mediante la comparación de sus predicciones con los valores reales
Según las predicciones del modelo, es posible que realicemos más entrenamientos y evaluaciones antes de implementar el modelo en una aplicación real.
Comprueba tu comprensión
Inferencia
Una vez que estemos satisfechos con los resultados de la evaluación del modelo, podemos usarlo para realizar predicciones, llamadas inferencias, en ejemplos sin etiqueta. En el ejemplo de la app meteorológica, se le darían al modelo las condiciones climáticas actuales, como la temperatura, la presión atmosférica y la humedad relativa, y se predeciría la cantidad de lluvias.