RMSpropRMSprop
RMSprop(Root Mean Square Propagation)은 각 가중치별로 기울기의 크기에 따라 학습률을 자동 조절하는 적응형 최적화 알고리즘이다. Geoffrey Hinton이 2012년 Coursera 강의 자료를 통해 비공식적으로 제안했으며, 공식 논문 없이 딥러닝 커뮤니티에 빠르게 퍼졌다. 이후 Adam 알고리즘의 직접적인 전신이 됐다.
동작 원리
RMSprop의 핵심 아이디어는 기울기 제곱의 지수 이동 평균 E[g²]ₜ를 유지하고, 실제 가중치 갱신 시 학습률을 이 값의 제곱근으로 나누는 것이다. 기울기가 지속적으로 크게 진동하는 방향은 E[g²]ₜ가 커져 실효 학습률이 작아지고, 기울기가 작은 방향은 실효 학습률이 커진다. 이를 통해 방향별로 손실 곡면의 곡률 차이를 자동으로 보상해 빠르고 안정적인 수렴을 이끌어낸다.
기본 경사 하강법의 전역 학습률 η 대신 각 파라미터마다 서로 다른 실효 학습률이 적용되므로, 일부 파라미터는 크게 다른 파라미터는 작게 갱신하는 적응적 동작이 가능하다. 감쇠율 ρ(기본값 0.9)가 이동 평균의 기억 길이를 결정하며, 너무 작으면 과거 정보를 빠르게 잊어 불안정해지고 너무 크면 적응이 느려진다.
Adam과의 관계와 적용
Adam은 RMSprop에 모멘텀 개념을 결합한 알고리즘으로 볼 수 있다. Adam이 기울기의 1차 모멘트(방향 정보)와 2차 모멘트(크기 정보)를 모두 추적하는 반면, RMSprop은 2차 모멘트만 사용한다. 실제 성능에서는 Adam이 대부분의 경우 RMSprop을 앞서지만, RMSprop이 더 단순하고 메모리를 적게 사용한다는 장점이 있다. 순환 신경망(RNN) 훈련처럼 시계열 데이터에서 RMSprop이 특히 효과적이라는 실증 결과도 있다.