Redes neuronales

Es posible que recuerdes de los ejercicios de combinación de atributos en el módulo de datos categóricos que el siguiente problema de clasificación no es lineal:

Figura 1: Plano de coordenadas cartesianas, dividido en cuatro
      cuadrantes, cada uno lleno de puntos aleatorios en una forma que se asemeja a
      cuadrado. Los puntos en los cuadrantes inferior derecho y superior son azules,
      y los puntos en los cuadrantes superior izquierdo e inferior derecho son de color naranja.
Figura 1: Problema de clasificación no lineal. Una función lineal no puede separar limpiamente todos los puntos azules de los puntos anaranjados.

"No lineal" significa que no se puede predecir con exactitud una etiqueta con una con el formato \(b + w_1x_1 + w_2x_2\). En otras palabras, la "superficie de decisión" no es una línea.

Sin embargo, si hacemos una combinación de atributos en los atributos $x_1$ y $x_2$, podemos luego representar la relación no lineal entre los dos atributos con un modelo lineal: $b + w_1x_1 + w_2x_2 + w_3x_3$, donde $x_3$ es la combinación de atributos $x_1$ y $x_2$:

Figura 2: El mismo plano de coordenadas cartesianas de puntos azules y naranjas que en la Figura 1.  Sin embargo, esta vez, se traza una curva hiperbólica blanca sobre la cuadrícula, que separa los puntos azules en los cuadrantes superior derecho e inferior izquierdo (ahora sombreados con un fondo azul) de los puntos naranjas en los cuadrantes superior izquierdo e inferior derecho (ahora sombreados con un fondo naranja).
Figura 2: Cuando se agrega la combinación de atributos x1x2, el modelo lineal puede aprender una forma hiperbólica que separa los puntos azules de los anaranjados.

Ahora, considera el siguiente conjunto de datos:

Figura 3: Plano de coordenadas cartesianas, dividido en cuatro cuadrantes.
      Un clúster circular de puntos azules se centra en el origen del gráfico y está rodeado por un anillo de puntos anaranjados.
Figura 3: Un problema de clasificación no lineal más difícil.

Es posible que también lo recuerdes de los ejercicios de combinación de atributos. que determinar las combinaciones de atributos correctas para ajustar un modelo lineal a estos datos requería un poco más de esfuerzo y experimentación.

Pero ¿qué pasaría si no tuvieras que hacer toda esa experimentación por tu cuenta? Las redes neuronales son un conjunto de arquitecturas de modelos diseñadas para encontrar nonlinear patrones en los datos. Durante el entrenamiento de una red neuronal, el modelo aprende automáticamente las combinaciones de atributos óptimas que se deben realizar en los datos de entrada para minimizar la pérdida.

En las siguientes secciones, analizaremos con más detalle cómo funcionan las redes neuronales.