신경망 학습

역전파는 신경망의 가장 일반적인 학습 알고리즘입니다. 다계층 신경망에서 경사하강법을 사용하려면 이 알고리즘이 필요합니다. 텐서플로우는 역전파를 자동으로 처리하므로 알고리즘을 자세히 이해할 필요는 없습니다. 이 알고리즘의 원리를 이해하려면 역전파 알고리즘 시각적 설명을 참조하세요. 이 설명 과정을 진행하면서 다음 사항에 주목하세요.

  • 데이터가 그래프를 통과하는 방식
  • 동적 프로그래밍을 사용하면 기하급수적으로 증가하는 그래프 통과 경로를 일일이 계산할 필요가 없는 이유. 여기에서 '동적 프로그래밍'은 정방향 및 역방향 전달에서 중간 결과를 기록함을 의미합니다.

신경망 학습

  • 경사의 중요성
    • 미분 가능하면 학습이 가능할 확률이 높음
  • 경사의 중요성
    • 미분 가능하면 학습이 가능할 확률이 높음
  • 경사의 소실 가능성
    • 레이어를 추가할수록 신호와 노이즈가 연속적으로 감소할 수 있음
    • ReLu의 유용성
  • 경사의 중요성
    • 미분 가능하면 학습이 가능할 확률이 높음
  • 경사의 소실 가능성
    • 레이어를 추가할수록 신호와 노이즈가 연속적으로 감소할 수 있음
    • ReLu의 유용성
  • 경사의 발산 가능성
    • 학습률의 중요성
    • batch 정규화(유용한 노브)로 해결 가능
  • 경사의 중요성
    • 미분 가능하면 학습이 가능할 확률이 높음
  • 경사의 소실 가능성
    • 레이어를 추가할수록 신호와 노이즈가 연속적으로 감소할 수 있음
    • ReLu의 유용성
  • 경사의 발산 가능성
    • 학습률의 중요성
    • batch 정규화(유용한 노브)로 해결 가능
  • ReLu 레이어의 소멸 가능성
    • 당황하지 말고 학습률 낮추기
  • 특성에 합리적인 척도를 부여해야 함
    • 0에 대략적인 중심을 둔 [-1, 1] 범위가 일반적으로 유리함
    • 경사하강법이 더 빠르게 수렴되고 NaN 트랩이 방지됨
    • 이상점 값을 배제하는 방법도 도움이 됨
  • 몇 가지 표준 방법 사용 가능
    • 선형 조정
    • 최대값, 최소값 강제 제한(클리핑)
    • 로그 조정
  • 드롭아웃: 또 하나의 정규화 형태, NN에 유용
  • 단일 경사 스텝에서 네트워크의 유닛을 무작위로 배제
    • 앙상블 모델과의 접점
  • 드롭아웃이 많을수록 정규화가 강력해짐
    • 0.0 = 드롭아웃 정규화 없음
    • 1.0 = 전체 드롭아웃. 학습 중지
    • 중간 범위의 값이 유용함