Machine Learning | Google for Developers

Se usó la API de Cloud Translation para traducir esta página.

Una primera red neuronal

En este ejercicio, entrenaremos nuestra primera red neuronal. Las redes neuronales nos brindarán una forma de aprender modelos no lineales el uso de combinaciones de atributos explícitas.

Tarea 1: El modelo proporcionado combina nuestros dos atributos de entrada en un una neurona. ¿Este modelo aprenderá alguna no linealidad? Ejecútalo para confirmar tu suposición.

Tarea 2: Intenta aumentar el número de neuronas en la capa oculta de 1 a 2 y, además, intentar cambiar de una activación lineal a una no lineal como ReLU. ¿Puedes crear un modelo que aprenda no linealidades? ¿Puede modelar los datos con eficacia?

Tarea 3: Intenta aumentar el número de neuronas en la capa oculta de de 2 a 3 con una activación no lineal como ReLU. ¿Puede modelar los datos de manera efectiva? ¿Cómo varía la calidad del modelo de una ejecución a otra?

Tarea 4: Agrega o quita capas ocultas para seguir experimentando. y neuronas por capa. Siéntete libre de cambiar las tasas de aprendizaje, regularización y otros parámetros de configuración de aprendizaje. ¿Cuál es la actividad más pequeña la cantidad de neuronas y capas que puedes usar para generar pérdida de prueba de 0.177 o menos?

¿Aumentar el tamaño del modelo mejora el ajuste o la rapidez con la que converge? ¿Esto cambia la frecuencia con la que converge a un buen modelo? Por ejemplo, prueba la la siguiente arquitectura:

Primera capa oculta con 3 neuronas.
Segunda capa oculta con 3 neuronas.
Tercera capa oculta con 2 neuronas.

(Las respuestas aparecen justo debajo del ejercicio).

Haz clic en el ícono de signo más para obtener la respuesta de la Tarea 1.

La activación se establece en Lineal, por lo que este modelo no puede aprender cualquier no linealidad. La pérdida es muy alta y decimos que el modelo subajusta los datos.

Haz clic en el ícono de signo más para obtener la respuesta de la Tarea 2.

La función de activación no lineal puede aprender modelos no lineales. Sin embargo, una sola capa oculta con 2 neuronas no puede reflejar todas las no linealidades en este conjunto de datos y tendrá una pérdida alta incluso sin ruido: aún subajusta los datos. Estos ejercicios no son deterministas, por lo que algunas carreras no aprenderás un modelo eficaz, mientras que otras ejecuciones harán un buen trabajo. Es posible que el mejor modelo no tenga la forma que esperas.

Haz clic en el ícono de signo más para obtener la respuesta de la Tarea 3.

La naturaleza no determinista de Playground se destaca en este ejercicio. R una sola capa oculta con 3 neuronas es suficiente para modelar el conjunto de datos ruidos), pero no todas las ejecuciones converjan en un buen modelo.

3 neuronas son suficientes porque la función XOR se puede expresar como una combinación de 3 semiplanos (activación ReLU). Esto se puede observar si observas imágenes de neuronas, que muestran el resultado de las neuronas individuales. Con un buen modelo con 3 neuronas y activación de ReLU, habrá 1 imagen con una vertical, detectando que X¹ es positivo (o negativo; el signo puede cambiar), una imagen con una línea casi horizontal, que detecta el signo de X² y 1 imagen con una línea diagonal, que detecta su interacción.

Sin embargo, no todas las ejecuciones convergerán en un buen modelo. Algunas ejecuciones no harán es mejor que un modelo con 2 neuronas, y puedes ver neuronas duplicadas en estas diferentes.

Haz clic en el ícono de signo más para obtener la respuesta de la Tarea 4.

Una sola capa oculta con 3 neuronas puede modelar los datos, pero por lo que, en muchas ejecuciones, perderá una neurona de forma efectiva y no aprenderá modelo bueno. Una sola capa con más de 3 neuronas tiene más redundancia. por lo que es más probable que converja en un buen modelo.

Como vimos, una sola capa oculta con solo 2 neuronas no puede modelar los datos en la nube. Si lo intentas, verás que todos los elementos de la capa de salida solo pueden ser formas compuestas por las líneas de esos dos nodos. En este caso, un una red más profunda puede modelar el conjunto de datos mejor que la primera capa oculta sola: Las neuronas individuales en la segunda capa pueden modelar formas más complejas, como la en el cuadrante superior derecho, mediante la combinación de neuronas en la primera capa. Al agregar eso la segunda capa oculta aún puede modelar el conjunto de datos mejor que la primera capa oculta sola capa, podría tener más sentido agregar más nodos a la primera capa permitir que más líneas formen parte del kit a partir del cual la segunda capa construye su formas.

Sin embargo, un modelo con 1 neurona en la primera capa oculta no puede aprender un buen sin importar qué tan profunda sea. Esto se debe a que el resultado de la primera solo varía a lo largo de una dimensión (por lo general, una línea diagonal), que no es para modelar bien este conjunto de datos. Las capas posteriores no pueden compensar esto, no hay independientemente de la complejidad; información en los datos de entrada no se han recuperado perdido.

¿Qué sucedería si en lugar de tratar de tener una red pequeña, tuviéramos muchas capas con muchas neuronas para un problema simple como este? Bueno, como vimos, la primera tendrá la capacidad de probar muchas pendientes de línea. Y el segundo tienen la capacidad de acumularlos en muchas formas diferentes, con muchísimas formas en las capas siguientes.

Al permitir que el modelo considere tantas formas diferentes a través de tantas en diferentes neuronas ocultas, creaste suficiente espacio para que el modelo sobreajustar fácilmente el ruido en el conjunto de entrenamiento, lo que permite más complejas para que coincidan con las debilidades de los datos de entrenamiento verdad fundamental generalizada. En este ejemplo, los modelos más grandes pueden tener un problema límites para que coincidan con los puntos de datos precisos. En casos extremos, un modelo grande podríamos aprender una isla alrededor de un punto de ruido individual, lo que se denomina memorizar los datos. Al permitir que el modelo sea mucho más grande, notamos que, en realidad, su rendimiento suele ser peor que el modelo más simple con solo suficientes neuronas para resolver el problema.