Regresión lineal: Pérdida

La pérdida es una métrica numérica que describe qué tan incorrectas son las predicciones de un modelo. La pérdida mide la distancia entre las predicciones del modelo y las etiquetas reales. El objetivo de entrenar un modelo es minimizar la pérdida y reducirla a su valor más bajo posible.

En la siguiente imagen, puedes visualizar la pérdida como flechas dibujadas desde los puntos de datos hacia el modelo. Las flechas muestran qué tan lejos están las predicciones del modelo de los valores reales.

Figura 9: Las líneas de pérdida conectan los puntos de datos con el modelo.

Figura 9. La pérdida se mide desde el valor real hasta el valor predicho.

Distancia de pérdida

En estadística y aprendizaje automático, la pérdida mide la diferencia entre los valores predichos y los reales. La pérdida se enfoca en la distancia entre los valores, no en la dirección. Por ejemplo, si un modelo predice 2, pero el valor real es 5, no nos importa que la pérdida sea negativa ($ 2-5=-3 $). En cambio, nos importa que la distancia entre los valores sea $ 3 $. Por lo tanto, todos los métodos para calcular la pérdida quitan el signo.

Estos son los dos métodos más comunes para quitar el signo:

  • Toma el valor absoluto de la diferencia entre el valor real y la predicción.
  • Eleva al cuadrado la diferencia entre el valor real y la predicción.

Tipos de pérdidas

En la regresión lineal, hay cuatro tipos principales de pérdida, que se describen en la siguiente tabla.

Tipo de pérdida Definición Ecuación
Pérdida de L1 Es la suma de los valores absolutos de la diferencia entre los valores predichos y los valores reales. $ ∑ | valor\ real - valor\ predicho | $
Error absoluto medio (MAE) Es el promedio de las pérdidas de L1 en un conjunto de *N* ejemplos. $ \frac{1}{N} ∑ | valor\ real - valor\ predicho | $
Pérdida de L2 Es la suma de la diferencia al cuadrado entre los valores predichos y los valores reales. $ ∑(valor\ real - valor\ predicho)^2 $
Error cuadrático medio (ECM) Es el promedio de las pérdidas de L2 en un conjunto de *N* ejemplos. $ \frac{1}{N} ∑ (valor\ real - valor\ predicho)^2 $

La diferencia funcional entre la pérdida L1 y la pérdida L2 (o entre el MAE y el MSE) es la elevación al cuadrado. Cuando la diferencia entre la predicción y la etiqueta es grande, elevar al cuadrado hace que la pérdida sea aún mayor. Cuando la diferencia es pequeña (menor que 1), elevar al cuadrado hace que la pérdida sea aún menor.

Cuando proceses varios ejemplos a la vez, te recomendamos que calcules el promedio de las pérdidas en todos los ejemplos, ya sea que uses el MAE o el MSE.

Ejemplo de cálculo de pérdida

Con la línea de mejor ajuste anterior, calcularemos la pérdida L2 para un solo ejemplo. A partir de la línea de mejor ajuste, obtuvimos los siguientes valores para el peso y el sesgo:

  • $ \small{Peso: -4.6} $
  • $ \small{Bias: 34} $

Si el modelo predice que un automóvil de 1,075 kg rinde 10.4 km por litro, pero en realidad rinde 11.7 km por litro, calcularíamos la pérdida de L2 de la siguiente manera:

Valor Ecuación Resultado
Predicción

$\small{bias + (peso * valor\ del\ atributo)}$

$\small{34 + (-4.6*2.37)}$

$\small{23.1}$
Valor real $ \small{ label } $ $ \small{ 26 } $
Pérdida L2

$ \small{ (valor\ real - valor\ predicho)^2 } $

$\small{ (26 - 23.1)^2 }$

$\small{8.41}$

En este ejemplo, la pérdida L2 para ese único dato es de 8.41.

Cómo elegir una función de pérdida

Decidir si usar el MAE o el MSE puede depender del conjunto de datos y de la forma en que deseas controlar ciertas predicciones. La mayoría de los valores de atributos de un conjunto de datos suelen encontrarse dentro de un rango distinto. Por ejemplo, los automóviles suelen pesar entre 900 y 2,200 kg, y rinden entre 3 y 20 km por litro. Un automóvil de 3,600 kg o uno que rinde 160 km por litro se consideran valores atípicos, ya que están fuera del rango típico.

Un valor atípico también puede referirse a qué tan alejadas están las predicciones de un modelo de los valores reales. Por ejemplo, 1,360 kg se encuentra dentro del rango de peso típico de un automóvil, y 17 km/l se encuentra dentro del rango de eficiencia de combustible típico. Sin embargo, un automóvil de 1,360 kg que rinde 64 km por galón sería un valor atípico en términos de la predicción del modelo, ya que este predeciría que un automóvil de 1,360 kg rendiría alrededor de 32 km por galón.

Cuando elijas la mejor función de pérdida, ten en cuenta cómo quieres que el modelo trate los valores atípicos. Por ejemplo, el MSE desplaza el modelo más hacia los valores atípicos, mientras que el MAE no lo hace. La pérdida L2 genera una penalización mucho mayor para un valor atípico que la pérdida L1. Por ejemplo, las siguientes imágenes muestran un modelo entrenado con MAE y un modelo entrenado con MSE. La línea roja representa un modelo completamente entrenado que se usará para hacer predicciones. Los valores atípicos están más cerca del modelo entrenado con MSE que del modelo entrenado con MAE.

Figura 10: El modelo se inclina más hacia los valores atípicos.

Figura 10: Un modelo entrenado con MSE acerca el modelo a los valores atípicos.

Figura 11. El modelo se aleja aún más de los valores atípicos.

Figura 11: Un modelo entrenado con el MAE está más lejos de los valores atípicos.

Ten en cuenta la relación entre el modelo y los datos:

  • MSE. El modelo está más cerca de los valores atípicos, pero más lejos de la mayoría de los otros puntos de datos.

  • MAE. El modelo está más lejos de los valores atípicos, pero más cerca de la mayoría de los otros puntos de datos.

Comprueba tu comprensión

Considera los siguientes dos diagramas:

Una representación de 10 puntos.
      Una línea atraviesa 6 de los puntos. 2 puntos están 1 unidad por encima de la línea, y otros 2 puntos están 1 unidad por debajo de la línea. Una representación de 10 puntos. Una línea atraviesa 8 de los puntos. 1 punto está 2 unidades por encima de la línea, y otro punto está 2 unidades por debajo de la línea.
¿Cuál de los dos conjuntos de datos que se muestran en las representaciones anteriores tiene el error cuadrático medio (ECM) más alto?
El conjunto de datos de la izquierda.
Los seis ejemplos de la línea generan una pérdida total de 0. Los cuatro ejemplos que no están en la línea no están muy alejados de esta, de manera que al elevar su compensación al cuadrado, igualmente se obtiene un valor bajo: $ECM = \frac{0^2 + 1^2 + 0^2 + 1^2 + 0^2 + 1^2 + 0^2 + 1^2 + 0^2 + 0^2} {10} = 0.4$
El conjunto de datos de la derecha
Los ocho ejemplos de la línea generan una pérdida total de 0. Sin embargo, aunque solo dos puntos están fuera de la línea, ambos están dos veces más alejados de la línea que los puntos de valores atípicos de la figura de la izquierda. La pérdida al cuadrado amplifica esas diferencias, por lo que una compensación de dos incurre en una pérdida cuatro veces mayor que una compensación de uno: $ECM = \frac{0^2 + 0^2 + 0^2 + 2^2 + 0^2 + 0^2 + 0^2 + 2^2 + 0^2 + 0^2} {10} = 0.8$