Estudio detallado del AA: Regresión lineal

Es sabido que los grillos cantan con más frecuencias en los días de más calor. Durante décadas, entomólogos profesionales y aficionados han catalogado datos sobre la cantidad de cantos por minuto y la temperatura. Para tu cumpleaños, la tía Ruth te regaló su amada base de datos sobre grillos y te invita a que aprendas un modelo para predecir dicha relación.

En primer lugar, es necesario realizar una representación de los datos para examinarlos:

Datos sin procesar de los cantos por minuto (eje x) en comparación con la temperatura (eje y).

Figura 1. Cantos por minuto contra temperatura

Efectivamente, la representación muestra que la cantidad de cantos aumenta con la temperatura. ¿Es lineal la relación entre los cantos y la temperatura? Sí, ya que es posible dibujar una línea recta como la siguiente para representar dicha relación:

Mejor línea que establece la relación entre los cantos por minuto (eje x) en comparación con la temperatura (eje y).

Figura 2. Una relación lineal

Si bien la línea no pasa perfectamente por cada punto, demuestra con claridad la relación entre la temperatura y los cantos por minuto para dichos puntos. Si aplicamos un poco de álgebra, podemos determinar esta relación de la siguiente manera:

$$ y = mx + b $$

donde:

  • \(y\) es la temperatura en grados centígrados, correspondiente al valor que intentamos predecir.
  • \(m\) es la pendiente de la línea.
  • \(x\) es la cantidad de cantos por minuto, correspondiente al valor de nuestro atributo de entrada.
  • \(b\) es la intersección en y.

Según las convenciones del aprendizaje automático, la ecuación para un modelo se escribirá de una forma un poco diferente:

$$ y' = b + w_1x_1 $$

donde:

  • \(y'\) es la etiqueta predicha (un resultado deseado).
  • \(b\) es la ordenada al origen (la intersección en y). En alguna literatura de aprendizaje automático, se hace referencia a ella como \(w_0\).
  • \(w_1\) es la ponderación del atributo 1. La ponderación es el mismo concepto de la "pendiente" \(m\), que se indicó anteriormente.
  • \(x_1\) es un atributo (una entrada conocida).

Para inferir (predecir) la temperatura \(y'\) para un valor nuevo de cantos por minuto \(x_1\), solo agrega el valor de \(x_1\) a este modelo.

Los subíndices (p. ej., \(w_1\) y \(x_1\)) indican modelos más sofisticados que se basan en varios atributos. Por ejemplo, un modelo que se basa en tres atributos usaría la siguiente ecuación:

$$y' = b + w_1x_1 + w_2x_2 + w_3x_3$$