이 페이지는 Cloud Translation API를 통해 번역되었습니다.

손실 줄이기: 학습률

앞서 언급했듯이 경사 벡터에는 방향과 크기가 모두 있습니다. 경사하강법 알고리즘은 경사에 학습률 (걸음 크기라고도 함)이라는 스칼라를 곱해서 다음 지점을 결정합니다. 예를 들어 경사 크기가 2.5이고 학습률이 0.01이면 경사하강법 알고리즘은 이전 지점에서 0.025 떨어진 다음 지점을 선택합니다.

초매개변수는 프로그래머가 머신러닝 알고리즘에서 조정하는 값입니다. 대부분의 머신러닝 프로그래머는 학습률을 조정하는 데 상당한 시간을 할애합니다 너무 작은 학습률을 선택하면 학습 시간이 너무 오래 걸립니다.

동일한 U자형 곡선입니다. 많은 지점이 서로 매우 가깝고 자국이 U의 바닥으로 향하는 진전을 매우 느리게 진행하고 있습니다.

그림 6. 학습률이 너무 작습니다.

반대로 학습률을 너무 크게 지정하면 양자역학 실험이 엄청나게 잘못되었음처럼 다음 지점이 우물 하단을 지나 무질서하게 이탈합니다.

동일한 U자형 곡선입니다. 이 항목에는 포인트가 거의 없습니다. 점의 자취가 U자형 곡선의 하단을 가로질러 정돈되었다가 다시 돌아옵니다.

그림 7. 학습률이 너무 큽니다.

모든 회귀 문제에는 골디락스 학습률이 있습니다. 골디락스 값은 손실 함수가 얼마나 평탄한지와 관련이 있습니다. 손실 함수의 기울기가 작다는 것을 알고 있으면 더 큰 학습률을 시험해 볼 수 있습니다. 그러면 작은 기울기를 보완하고 보폭 크기가 커집니다.

동일한 U자형 곡선입니다. 점의 자취가 약 8걸음을 거쳐 최저점에 도달합니다.

그림 8. 학습률이 적절합니다.

더하기 아이콘을 클릭하여 이상적인 학습률을 자세히 알아보세요.

1차원에서 이상적인 학습률은 \(\frac{ 1 }{ f''(x) }\) (x에서 f(x)의 이계도함수의 역)입니다.

2차원 이상에서 이상적인 학습률은 헤시안 행렬 (2계편미분의 행렬)의 역입니다.

일반적인 볼록 함수의 경우 이야기는 좀 더 복잡합니다.

경사하강법

학습률 최적화

달리 명시되지 않는 한 이 페이지의 콘텐츠에는 Creative Commons Attribution 4.0 라이선스에 따라 라이선스가 부여되며, 코드 샘플에는 Apache 2.0 라이선스에 따라 라이선스가 부여됩니다. 자세한 내용은 Google Developers 사이트 정책을 참조하세요. 자바는 Oracle 및/또는 Oracle 계열사의 등록 상표입니다.

최종 업데이트: 2023-12-02(UTC)