آموزش شبکه های عصبی

پس انتشار رایج ترین الگوریتم آموزشی برای شبکه های عصبی است. این نزول گرادیان را برای شبکه های عصبی چند لایه امکان پذیر می کند. TensorFlow به طور خودکار انتشار پس‌زمینه را کنترل می‌کند، بنابراین نیازی به درک عمیق الگوریتم ندارید. برای درک نحوه عملکرد آن، موارد زیر را طی کنید: توضیح تصویری الگوریتم پس انتشار . همانطور که در توضیحات قبلی پیمایش می کنید، به موارد زیر توجه کنید:

  • نحوه عبور داده ها از طریق نمودار
  • چگونه برنامه نویسی پویا به ما امکان می دهد از محاسبه نمایی بسیاری از مسیرها در نمودار اجتناب کنیم. در اینجا "برنامه نویسی پویا" فقط به معنای ثبت نتایج میانی روی پاس های رو به جلو و عقب است.

آموزش شبکه های عصبی

  • گرادیان ها مهم هستند
    • اگر قابل تمایز باشد، احتمالاً می توانیم از آن یاد بگیریم
  • گرادیان ها مهم هستند
    • اگر قابل تمایز باشد، احتمالاً می توانیم از آن یاد بگیریم
  • گرادیان ها می توانند ناپدید شوند
    • هر لایه اضافی می تواند به طور متوالی سیگنال را در مقابل نویز کاهش دهد
    • ReLus در اینجا مفید است
  • گرادیان ها مهم هستند
    • اگر قابل تمایز باشد، احتمالاً می توانیم از آن یاد بگیریم
  • گرادیان ها می توانند ناپدید شوند
    • هر لایه اضافی می تواند به طور متوالی سیگنال را در مقابل نویز کاهش دهد
    • ReLus در اینجا مفید است
  • گرادیان ها می توانند منفجر شوند
    • نرخ یادگیری در اینجا مهم است
    • عادی سازی دسته ای (دستگیره مفید) می تواند کمک کند
  • گرادیان ها مهم هستند
    • اگر قابل تمایز باشد، احتمالاً می توانیم از آن یاد بگیریم
  • گرادیان ها می توانند ناپدید شوند
    • هر لایه اضافی می تواند به طور متوالی سیگنال را در مقابل نویز کاهش دهد
    • ReLus در اینجا مفید است
  • گرادیان ها می توانند منفجر شوند
    • نرخ یادگیری در اینجا مهم است
    • عادی سازی دسته ای (دستگیره مفید) می تواند کمک کند
  • لایه های ReLu می توانند بمیرند
    • آرامش خود را حفظ کنید و میزان یادگیری خود را کاهش دهید
  • ما می خواهیم ویژگی های ما مقیاس های معقولی داشته باشد
    • محدوده تقریباً در مرکز صفر، [-1، 1] اغلب به خوبی کار می کند
    • به همگرایی شیب نزول کمک می کند. اجتناب از تله NaN
    • اجتناب از مقادیر پرت نیز می تواند کمک کند
  • می توان از چند روش استاندارد استفاده کرد:
    • مقیاس بندی خطی
    • کلاهک سخت (بریدن) تا حداکثر، حداقل
    • مقیاس بندی ورود به سیستم
  • Dropout: شکل دیگری از منظم سازی، مفید برای NN ها
  • این کار با "خروج" تصادفی واحدها در یک شبکه برای یک مرحله گرادیان واحد
    • در اینجا ارتباطی با مدل های گروه وجود دارد
  • هرچه بیشتر ترک تحصیل کنید، منظم‌سازی قوی‌تر است
    • 0.0 = بدون انصراف منظم
    • 1.0 = همه چیز را رها کنید! چیزی یاد نمی گیرد
    • مقادیر متوسط ​​مفیدتر است