Organiza tus páginas con colecciones
Guarda y categoriza el contenido según tus preferencias.
Una primera red neuronal
En este ejercicio, entrenaremos nuestra primera red neuronal.
Las redes neuronales nos brindarán una forma
de aprender modelos no lineales
el uso de combinaciones de atributos explícitas.
Tarea 1: El modelo proporcionado combina nuestros dos atributos de entrada en un
una neurona. ¿Este modelo aprenderá alguna no linealidad? Ejecútalo para confirmar tu
suposición.
Tarea 2: Intenta aumentar el número de neuronas en la capa oculta de
1 a 2 y, además, intentar cambiar de una activación lineal a una no lineal
como ReLU. ¿Puedes crear un modelo que aprenda no linealidades? ¿Puede modelar
los datos con eficacia?
Tarea 3: Intenta aumentar el número de neuronas en la capa oculta de
de 2 a 3 con una activación no lineal como ReLU. ¿Puede modelar los datos
de manera efectiva? ¿Cómo varía la calidad del modelo de una ejecución a otra?
Tarea 4: Agrega o quita capas ocultas para seguir experimentando.
y neuronas por capa. Siéntete libre de cambiar las tasas de aprendizaje,
regularización y otros parámetros
de configuración de aprendizaje. ¿Cuál es la actividad más pequeña
la cantidad de neuronas y capas que puedes usar para generar pérdida de prueba
de 0.177 o menos?
¿Aumentar el tamaño del modelo mejora el ajuste o la rapidez con la que converge?
¿Esto cambia la frecuencia con la que converge a un buen modelo? Por ejemplo, prueba la
la siguiente arquitectura:
Primera capa oculta con 3 neuronas.
Segunda capa oculta con 3 neuronas.
Tercera capa oculta con 2 neuronas.
(Las respuestas aparecen justo debajo del ejercicio).
Haz clic en el ícono de signo más para obtener la respuesta de la Tarea 1.
La activación se establece en Lineal, por lo que este modelo no puede aprender
cualquier no linealidad. La pérdida es muy alta y decimos que el modelo subajusta
los datos.
Haz clic en el ícono de signo más para obtener la respuesta de la Tarea 2.
La función de activación no lineal puede aprender modelos no lineales. Sin embargo,
una sola capa oculta con 2 neuronas no puede reflejar todas las no linealidades en
este conjunto de datos y tendrá una pérdida alta incluso sin ruido: aún
subajusta los datos. Estos ejercicios no son deterministas, por lo que algunas carreras
no aprenderás un modelo eficaz, mientras que otras ejecuciones harán un buen trabajo.
Es posible que el mejor modelo no tenga la forma que esperas.
Haz clic en el ícono de signo más para obtener la respuesta de la Tarea 3.
La naturaleza no determinista de Playground se destaca en este ejercicio. R
una sola capa oculta con 3 neuronas es suficiente para modelar el conjunto de datos
ruidos), pero no todas las ejecuciones converjan en un buen modelo.
3 neuronas son suficientes porque la función XOR se puede expresar como una combinación de 3 semiplanos (activación ReLU). Esto se puede observar si observas
imágenes de neuronas, que muestran el resultado de las neuronas individuales. Con un buen modelo
con 3 neuronas y activación de ReLU, habrá 1 imagen con una
vertical, detectando que X1 es positivo (o negativo; el signo puede
cambiar), una imagen con una línea casi horizontal, que detecta el signo de
X2 y 1 imagen con una línea diagonal, que detecta su
interacción.
Sin embargo, no todas las ejecuciones convergerán en un buen modelo. Algunas ejecuciones no harán
es mejor que un modelo con 2 neuronas, y puedes ver neuronas duplicadas en estas
diferentes.
Haz clic en el ícono de signo más para obtener la respuesta de la Tarea 4.
Una sola capa oculta con 3 neuronas puede modelar los datos, pero
por lo que, en muchas ejecuciones, perderá una neurona de forma efectiva y no aprenderá
modelo bueno. Una sola capa con más de 3 neuronas tiene más redundancia.
por lo que es más probable que converja en un buen modelo.
Como vimos, una sola capa oculta con solo 2 neuronas no puede modelar los datos
en la nube. Si lo intentas, verás que todos
los elementos de la capa de salida
solo pueden ser formas compuestas por las líneas de esos dos nodos. En este caso, un
una red más profunda puede modelar el conjunto de datos mejor que la primera capa oculta sola:
Las neuronas individuales en la segunda capa pueden modelar formas más complejas, como la
en el cuadrante superior derecho, mediante la combinación de neuronas en la primera capa. Al agregar eso
la segunda capa oculta aún puede modelar el conjunto de datos mejor que la primera capa oculta
sola capa, podría tener más sentido agregar más nodos a la primera capa
permitir que más líneas formen parte del kit a partir del cual la segunda capa construye su
formas.
Sin embargo, un modelo con 1 neurona en la primera capa oculta no puede aprender un buen
sin importar qué tan profunda sea. Esto se debe a que el resultado de la primera
solo varía a lo largo de una dimensión (por lo general, una línea diagonal), que no es
para modelar bien
este conjunto de datos. Las capas posteriores no pueden compensar esto, no hay
independientemente de la complejidad; información en los datos de entrada no se han recuperado
perdido.
¿Qué sucedería si en lugar de tratar de tener una red pequeña, tuviéramos muchas capas con
muchas neuronas para un problema simple como este? Bueno, como vimos, la primera
tendrá la capacidad de probar muchas pendientes de línea. Y el segundo
tienen la capacidad de acumularlos en muchas formas diferentes,
con muchísimas formas en las capas siguientes.
Al permitir que el modelo considere tantas formas diferentes a través de tantas
en diferentes neuronas ocultas, creaste suficiente espacio para que el modelo
sobreajustar fácilmente el ruido en el conjunto de entrenamiento, lo que permite
más complejas para que coincidan
con las debilidades de los datos de entrenamiento
verdad fundamental generalizada. En este ejemplo, los modelos más grandes
pueden tener un problema
límites para que coincidan
con los puntos de datos precisos. En casos extremos, un modelo grande
podríamos aprender una isla alrededor de un punto de ruido individual, lo que se denomina
memorizar los datos. Al permitir que el modelo sea mucho más grande,
notamos que, en realidad, su rendimiento suele ser peor que el modelo más simple con
solo suficientes neuronas para resolver el problema.
[[["Fácil de comprender","easyToUnderstand","thumb-up"],["Resolvió mi problema","solvedMyProblem","thumb-up"],["Otro","otherUp","thumb-up"]],[["Falta la información que necesito","missingTheInformationINeed","thumb-down"],["Muy complicado o demasiados pasos","tooComplicatedTooManySteps","thumb-down"],["Desactualizado","outOfDate","thumb-down"],["Problema de traducción","translationIssue","thumb-down"],["Problema con las muestras o los códigos","samplesCodeIssue","thumb-down"],["Otro","otherDown","thumb-down"]],["Última actualización: 2024-08-22 (UTC)"],[[["This exercise explores training a neural network to learn nonlinearities and model data effectively."],["Increasing the number of neurons and using nonlinear activation functions like ReLU improves model performance."],["A single hidden layer with 3 neurons using ReLU can sufficiently model the data, but model quality varies between runs."],["Deeper and wider networks risk overfitting, potentially memorizing noise instead of generalizing patterns."],["While adding layers can improve model performance, redundant layers and neurons might lead to worse results compared to a simpler, well-structured model."]]],[]]