Learning Rate학습률
학습률(Learning Rate, η)은 경사 하강법에서 가중치를 기울기 방향의 반대로 얼마나 이동할지 결정하는 스칼라 값이다. 가중치 갱신 규칙 w ← w - η∇L(w)에서 η가 이 역할을 담당한다. 학습률은 모델 훈련 결과에 가장 큰 영향을 미치는 하이퍼파라미터 중 하나다.
학습률 크기의 영향
학습률이 너무 크면 손실 함수의 최솟값을 넘어 발산하는 현상이 나타난다. 손실이 감소하지 않고 오히려 크게 진동하거나 NaN이 발생하면 학습률이 과도하게 큰 신호다. 반대로 너무 작으면 수렴이 지나치게 느려 훈련에 불필요하게 많은 시간이 소요된다. 또한 너무 작은 학습률은 지역 최솟값(local minimum)에 일찍 갇힐 위험도 있다.
학습률의 좋은 시작점을 찾기 위해 학습률 범위 탐색(learning rate range test, LR finder)이 사용된다. 매우 작은 학습률에서 시작해 점점 키우면서 손실 변화를 관찰하고, 손실이 가장 빠르게 감소하기 직전의 학습률을 선택하는 방법이다.
학습률 스케줄링
훈련 과정에서 학습률을 동적으로 조절하는 학습률 스케줄링은 초기에는 크게 이동해 빠른 수렴을 이끌고, 나중에는 학습률을 줄여 최솟값 근처에서 정밀하게 탐색하는 전략이다. 스텝 감소(step decay)는 일정 에포크마다 학습률을 고정 비율로 줄이고, 코사인 어닐링(cosine annealing)은 코사인 함수 형태로 부드럽게 줄인다. Adam 같은 적응형 최적화 알고리즘은 내부적으로 파라미터별 실효 학습률을 조절하므로, 전역 학습률에 덜 민감하다.