Redes neurais

Você pode se lembrar dos exercícios de cruzamento de atributos no Módulo de dados categóricos, que o seguinte problema de classificação não é linear:

Figura 1. Plano de coordenadas cartesiano, dividido em quatro
      quadrantes, cada um preenchido por pontos aleatórios em uma forma semelhante a uma
      quadrado. Os pontos no quadrante superior direito e inferior esquerdo são azuis,
      e os pontos nos quadrantes superior esquerdo e inferior direito são laranja.
Figura 1. Problema de classificação não linear. Uma função linear não pode separar claramente todos os pontos azuis dos pontos laranja.

"Não linear" significa que não é possível prever com precisão um rótulo com um modelo do formulário \(b + w_1x_1 + w_2x_2\). Em outras palavras, a "superfície de decisão" não é uma linha.

No entanto, se realizarmos um cruzamento de atributos em nossos atributos $x_1$ e $x_2$, poderemos depois representam a relação não linear entre os dois atributos usando uma modelo linear: $b + w_1x_1 + w_2x_2 + w_3x_3$, em que $x_3$ é o cruzamento de atributos $x_1$ e $x_2$:

Figura 2. O mesmo plano de coordenadas cartesianos em azul e laranja
      pontos, como na Figura 1.  No entanto, desta vez, uma curva hiperbólica branca é
      traçada sobre a grade, o que separa os pontos azuis nos quadrantes superior direito
      e inferior esquerdo (agora sombreados com um plano de fundo azul) dos
      pontos laranja nos quadrantes superior esquerdo e inferior direito (agora
      sombreados com um plano de fundo laranja).
Figura 2. Ao adicionar o cruzamento de atributos, x1x2, o modelo linear pode aprender uma forma hiperbólica que separa os pontos azuis dos pontos laranjas.

Agora, considere o seguinte conjunto de dados:

Figura 3. Plano de coordenadas cartesiano, dividido em quatro quadrantes.
      Um cluster circular de pontos azuis está centralizado na origem do gráfico e é cercado por um anel de pontos laranja.
Figura 3. Um problema de classificação não linear mais difícil.

Talvez você também se lembre dos exercícios de cruzamento de atributos que determinar os cruzamentos de atributos corretos para ajustar um modelo linear a esses dados exigia um pouco mais de esforço e experimentação.

Mas e se você não tivesse que fazer todos os experimentos por conta própria? Redes neurais são uma família de arquiteturas de modelos projetadas para encontrar padrões não lineares nos dados. Durante o treinamento de uma rede neural, o modelo aprende automaticamente as combinações de recursos ideais a serem realizadas nos dados de entrada para minimizar a perda.

Nas próximas seções, vamos analisar mais detalhadamente como as redes neurais funcionam.