Validación: Otra partición

En el módulo anterior, se presentó la partición de un conjunto de datos en un conjunto de entrenamiento y otro de prueba. Esta partición te permitió entrenar un conjunto de ejemplos y luego probar el modelo con un conjunto de ejemplos diferente. Con dos particiones, el flujo de trabajo podría verse de la siguiente manera:

Un diagrama de flujo de trabajo que consta de tres etapas. 1. Entrenar el modelo con el conjunto de entrenamiento. 2. Evaluar el modelo con el conjunto de prueba. 3. Ajustar el modelo en función de los resultados con el conjunto de prueba. Itera sobre 1, 2 y 3 y, en definitiva, selecciona el modelo que mejor se desempeñe con el conjunto de prueba.

Figura 1. ¿Un flujo de trabajo posible?

En la figura, "Ajustar el modelo" significa modificar cualquier aspecto que puedas imaginar del modelo, desde cambiar la tasa de aprendizaje hasta agregar o quitar atributos, o diseñar un modelo completamente nuevo desde cero. Al final de este flujo de trabajo, elijes el modelo que mejor se desempeñe con respecto al conjunto de prueba.

La división del conjunto de datos en dos conjuntos es una buena idea, pero no constituye una panacea. Puedes reducir en gran medida las posibilidades de sobreajuste al particionar el conjunto de datos en los tres subconjuntos que se muestran en la siguiente figura:

Una barra horizontal dividida en tres partes: el 70% es el conjunto de entrenamiento, el 15% es el conjunto de validación y el 15% es el conjunto de prueba

Figura 2. División de un único conjunto de datos en tres subconjuntos.

Usa el conjunto de validación para evaluar los resultados del conjunto de entrenamiento. A continuación, usa el conjunto de prueba para verificar la evaluación después de que el modelo haya "pasado" el conjunto de validación. En la siguiente figura, se muestra el nuevo flujo de trabajo:

Un flujo de trabajo similar al de la Figura 2, excepto que, en lugar de evaluar el modelo con el conjunto de prueba, el flujo de trabajo evalúa el modelo con el conjunto de validación. A continuación, una vez que el conjunto de entrenamiento y el de validación concuerdan en mayor o menor grado, confirma el modelo con el conjunto de prueba.

Figura 3. Un flujo de trabajo más eficaz.

En este flujo de trabajo mejorado, realiza lo siguiente:

  1. Selecciona el modelo que mejor se desempeñe con el conjunto de validación.
  2. Verifica el modelo con respecto al conjunto de prueba.

Este flujo de trabajo es más eficaz porque crea menos exposiciones al conjunto de prueba.