Generalización: Riesgos del sobreajuste

Este módulo se centra en la generalización. Para desarrollar algo de intuición sobre este concepto, observarás tres figuras. Imagina que cada punto en estas figuras representa la posición de un árbol en un bosque. Los dos colores tienen los siguientes significados:

  • Los puntos azules representan árboles enfermos.
  • Los puntos anaranjados representan árboles sanos.

Con eso en mente, echa un vistazo a la Figura 1.

Esta figura contiene alrededor de 50 puntos, de los cuales la mitad son azules y la otra mitad son anaranjados. Los puntos anaranjados están principalmente en el cuadrante suroeste, aunque algunos puntos anaranjados se pasan un poco a los otros tres cuadrantes. Los puntos azules están principalmente en el cuadrante noreste, aunque algunos puntos azules se salen a los otros cuadrantes.

Figura 1. Árboles enfermos (azules) y sanos (anaranjados).

¿Puedes imaginar un buen modelo para predecir los árboles enfermos o sanos subsiguientes? Tómate un momento para dibujar mentalmente un arco que divida los puntos azules de los anaranjados, o enlaza mentalmente un lote de puntos azules o anaranjados. Luego, observa la Figura 2, que muestra cómo un determinado modelo de aprendizaje automático separó los árboles enfermos de los sanos. Ten en cuenta que este modelo produjo una pérdida muy baja.

 

¿Sigue siendo un modelo malo a pesar de la pérdida baja?

La Figura 3 muestra qué ocurrió cuando se agregaron datos al modelo. Resultó que el modelo se adaptó de manera muy deficiente a los datos nuevos. Observa que el modelo categorizó mal muchos de los datos nuevos.

Se trata de la misma ilustración que la Figura 2, excepto por alrededor de 100 puntos más que se agregaron. Muchos de los puntos nuevos quedan fuera del modelo predicho.

Figura 3. El modelo no se desempeñó bien al predecir datos nuevos.

El modelo que se muestra en las Figuras 2 y 3 sobreajusta las peculiaridades de los datos con los que se entrenó. Un modelo sobreajustado obtiene una pérdida baja durante el entrenamiento, pero no se desempeña bien al predecir datos nuevos. Si un modelo se adapta bien a la muestra actual, ¿cómo podemos confiar en que realizará buenas predicciones sobre los datos nuevos? Como verás más adelante, el sobreajuste se genera al desarrollar un modelo más complejo que lo necesario. La presión fundamental del aprendizaje automático está en el ajuste correcto de nuestros datos, pero también en el ajuste de los datos de la manera más simple posible.

El objetivo del aprendizaje automático es realizar buenas predicciones sobre datos nuevos obtenidos de una distribución probablemente verdadera (oculta). Lamentablemente, el modelo no puede ver toda la verdad; este solo puede tomar una muestra de un conjunto de datos de entrenamiento. Si un modelo se adapta bien a los ejemplos actuales, ¿cómo podemos confiar en que también realizará buenas predicciones sobre los ejemplos nunca antes vistos?

Guillermo de Ockham, un fraile y filósofo del siglo XIV, amaba la simplicidad. Creía que los científicos debían preferir las fórmulas o teorías más simples en lugar de aquellas más complejas. Para expresar la navaja de Ockham en términos de aprendizaje automático:

Cuanto menos complejo sea un modelo de AA, más probable será que un buen resultado empírico no se deba simplemente a las peculiaridades de la muestra.

En la actualidad, hemos formalizado la navaja de Ockham en los campos de la teoría del aprendizaje estadístico y la teoría del aprendizaje computacional. Estos campos han desarrollado límites de generalización, es decir, una descripción estadística de la capacidad de un modelo para generalizar sobre datos nuevos en función de factores como los siguientes:

  • la complejidad del modelo
  • el rendimiento del modelo con respecto a los datos de entrenamiento

Si bien el análisis teórico ofrece garantías formales en supuestos idealizados, esos límites pueden ser difíciles de aplicar en la práctica. El Curso intensivo de aprendizaje automático se centra más bien en la evaluación empírica, a fin de juzgar la capacidad de un modelo para generalizar sobre datos nuevos.

Un modelo de aprendizaje automático tiene como objetivo realizar buenas predicciones sobre datos nuevos nunca antes vistos. Pero, si desarrollas un modelo a partir de tu conjunto de datos, ¿cómo obtendrías los datos nunca antes vistos? Una forma es dividir el conjunto de datos en dos subconjuntos:

  • Conjunto de entrenamiento: Un subconjunto para entrenar un modelo.
  • Conjunto de prueba: Un subconjunto para probar el modelo.

Un buen rendimiento en el conjunto de prueba es un indicador útil de buen rendimiento en los datos nuevos en general, suponiendo lo siguiente:

  • El conjunto de prueba es lo suficientemente grande.
  • No haces trampa usando el mismo conjunto de prueba una y otra vez.

Las condiciones del AA

Las tres suposiciones básicas siguientes guían la generalización:

  • Los ejemplos se obtienen independiente e idénticamente (i.i.d) de manera aleatoria de la distribución. En otras palabras, los ejemplos no se influyen entre sí. (Una explicación alternativa: i.i.d. es una forma de hacer referencia a la aleatoriedad de las variables).
  • La distribución es estacionaria, es decir, no cambia dentro del conjunto de datos.
  • Los ejemplos se obtienen de particiones de la misma distribución.

En la práctica, a veces infringimos estas suposiciones. Por ejemplo:

  • Considera un modelo que elige los anuncios para mostrar. La suposición de i.i.d. se infringiría si, en parte, el modelo basara su elección en función de los anuncios que el usuario visualizó anteriormente.
  • Considera un conjunto de datos que contenga la información de ventas minoristas de un año. Las compras de los usuarios cambian todas las temporadas, lo cual infringiría la estacionariedad.

Cuando sabemos que se infringe alguna de las tres suposiciones básicas anteriores, debemos prestar mucha atención a las métricas.

Enviar comentarios sobre…

Curso intensivo de aprendizaje automático