손실 줄이기: 학습률

앞에서 살펴본 것처럼 기울기 벡터는 방향과 크기를 모두 갖습니다. 경사하강법 알고리즘은 기울기에 학습률 또는 보폭이라 불리는 스칼라를 곱하여 다음 지점을 결정합니다. 예를 들어 기울기가 2.5이고 학습률이 0.01이면 경사하강법 알고리즘은 이전 지점으로부터 0.025 떨어진 지점을 다음 지점으로 결정합니다.

초매개변수는 프로그래머가 머신러닝 알고리즘에서 조정하는 값입니다. 대부분의 머신러닝 프로그래머는 학습률을 미세 조정하는 데 상당한 시간을 소비합니다. 학습률을 너무 작게 설정하면 학습 시간이 매우 오래 걸릴 것입니다.

동일한 U자형 곡선입니다. 여러 개의 지점이 서로 가까이 붙어 있고 자취가 U자형 곡선의 바닥 쪽으로 매우 느리게 진행하고 있습니다.

그림 6. 학습률이 너무 작습니다.

반대로 학습률을 너무 크게 설정하면 양자역학 실험을 잘못한 것처럼 다음 지점이 곡선의 최저점을 무질서하게 이탈할 우려가 있습니다.

동일한 U자형 곡선입니다. 이 곡선에는 지점이 매우 적습니다. 점의 자취가 U자형 곡선의 바닥을 가로질러 이동하고 다시 위로 향하고 있습니다.

그림 7. 학습률이 너무 큽니다.

모든 회귀 문제에는 골디락스 학습률이 있습니다. 골디락스 값은 손실 함수가 얼마나 평탄한지 여부와 관련 있습니다. 손실 함수의 기울기가 작다면 더 큰 학습률을 시도해 볼 수 있습니다. 이렇게 하면 작은 기울기를 보완하고 더 큰 보폭을 만들어 낼 수 있습니다.

동일한 U자형 곡선입니다. 점의 자취가 약 8개 보폭을 거쳐 최저점에 도달합니다.

그림 8. 학습률이 적절합니다.