두꺼운 꼬리 노이즈 속 AdamW의 수렴 가능성, LLM 옵티마이저 이론의 미해결 과제

거의 모든 거대 언어 모델이 AdamW로 학습되지만, 정작 이 옵티마이저가 실제 학습 환경의 두꺼운 꼬리 노이즈 아래에서 수렴한다는 증명은 아직 없다. Lion과 Muon, AdaGrad는 이미 그 영역을 통과했는데 왜 AdamW만 빈칸으로 남아 있을까. 분모에 쌓인 기억이 큰 경사를 숨겨버리는 메커니즘에서 그 단서를 찾는다.

거대 언어 모델을 훈련하는 사람이라면 사실상 예외 없이 AdamW를 쓴다. 학습률 스케줄을 바꾸고 모델 구조를 바꿔도 옵티마이저 자리에는 거의 항상 AdamW가 앉아 있다. 그런데 이렇게 압도적인 표준이 된 도구치고는, 정작 그것이 왜 잘 작동하는지를 설명하는 이론이 여전히 절반쯤 비어 있다는 사실은 잘 알려져 있지 않다. Dingzhi Yu와 동료들이 내놓은 이 논문은 바로 그 빈칸 하나를 정면으로 겨냥한다. 제목부터가 단정적인 결론이 아니라 열린 질문이다. 두꺼운 꼬리를 가진 경사 노이즈 아래에서 AdamW는 과연 수렴하는가.

유한 분산이라는 낡은 전제

기존의 수렴 분석은 대부분 확률적 경사의 노이즈가 유한한 분산을 가진다는 가정 위에 세워져 있다. 직관적으로는 매 스텝에서 측정한 경사가 참값 주변에서 적당히 흔들리되 그 흔들림의 크기가 통제 가능한 범위 안에 머문다는 뜻이다. 이 가정은 수학적으로 다루기 편하고, 오랫동안 최적화 이론의 기본 토대 역할을 해 왔다.

문제는 이 전제가 실제 LLM 사전학습 환경과 점점 어긋난다는 데 있다. 여러 경험적 관찰에 따르면 대규모 언어 모델을 학습할 때 발생하는 경사 노이즈는 전형적으로 두꺼운 꼬리 분포를 따른다. 대부분의 스텝에서는 노이즈가 얌전하지만, 드물게 비정상적으로 거대한 경사가 튀어나온다. 그 빈도가 정규분포가 예측하는 것보다 훨씬 높고, 극단적인 경우 분산 자체가 정의되지 않을 정도로 꼬리가 무겁다. 학습 곡선에서 가끔 보이는 손실 급증이나 발산은 이런 두꺼운 꼬리의 직접적 흔적이다. 따라서 유한 분산을 전제로 한 깔끔한 수렴 정리는, 정작 그 정리가 설명하고 싶어 하는 현실의 학습 과정과는 다른 세계를 묘사하고 있는 셈이다.

흥미로운 점은 같은 두꺼운 꼬리 조건에서도 일부 옵티마이저는 이미 엄밀한 보증을 확보했다는 사실이다. Lion이나 Muon 같은 부호 기반 방법은 경사의 크기 대신 방향만 취하기 때문에 거대한 경사가 튀어나와도 한 스텝의 이동량이 제한되고, 그 덕분에 두꺼운 꼬리에서도 날카로운 수렴 속도가 증명되어 있다. 좌표별로 누적된 경사 제곱을 활용하는 AdaGrad 역시 이 영역에서 수렴한다는 결과가 나와 있다. 그런데 유독 가장 널리 쓰이는 AdamW만은 이 명단에서 빠져 있다.

분모에 쌓인 기억이라는 함정

왜 하필 AdamW가 어려운가. 논문이 지목하는 핵심은 AdamW의 이차 모멘트 누적기, 즉 갱신식의 분모에 자리한 항이다. Adam 계열은 과거 경사 제곱의 지수이동평균을 분모로 삼아 각 좌표의 보폭을 자동으로 조절한다. 이 설계가 평소에는 학습을 안정시키지만, 두꺼운 꼬리 환경에서는 미묘한 함정으로 바뀐다.

어느 순간 거대한 경사가 한 번 들어오면 분모가 크게 부풀어 오른다. 그리고 이 분모는 지수이동평균이기 때문에, 부풀어 오른 값이 한 스텝 만에 사라지지 않고 일정 기간 기억으로 남는다. 문제는 그다음이다. 분모가 여전히 큰 상태에서 다시 의미 있는 큰 경사가 도착하면, 그 경사는 부풀어 있는 분모로 나눠지면서 실제보다 훨씬 작은 신호로 축소된다. 정작 모델이 강하게 반응해야 할 중요한 경사가, 과거에 쌓인 분모의 기억 때문에 묻혀 버리는 것이다. 저자들은 이 현상을 통로 형태의 하한 메커니즘으로 정식화해, 분모의 기억이 어떻게 큰 경사를 체계적으로 가릴 수 있는지를 보인다. 부호 기반 방법이 거대한 경사를 방향 정보로 환원해 안전하게 처리하는 것과 정반대로, AdamW의 분모는 그 거대함을 자기 안에 담아 두었다가 이후의 신호를 깎아내리는 쪽으로 작동할 여지가 있다.

긍정과 부정 사이, 열린 채로 남은 질문

그렇다고 이 논문이 AdamW의 패배를 선언하는 것은 아니다. 저자들은 한쪽에서 긍정적인 결과를 함께 제시한다. 가중치를 부여한 척도 위에서 보면 AdamW가 도달할 수 있는 수렴 벤치마크가 존재한다는 것이다. 즉 어떤 관점에서 측정하면 AdamW도 두꺼운 꼬리 아래에서 의미 있는 진전을 보장받는다. 그러나 다른 한편으로 앞서 말한 통로 하한이 분모의 기억이라는 진짜 장애물이 실재함을 드러낸다. 결국 긍정과 부정의 두 결과가 한 논문 안에서 팽팽히 맞서고, 저자들은 그 사이의 간극을 무리하게 메우는 대신 정직하게 열린 문제로 남겨 둔다.

이 태도 자체가 이 연구의 가치다. 가장 많이 쓰이는 도구일수록 그 작동 원리를 안다고 착각하기 쉽지만, 실제로는 현실의 노이즈 구조 아래에서 AdamW가 수렴한다는 기본적인 보증조차 아직 없다. 이 논문은 그 공백을 분명한 언어로 지목하고, 분모의 기억이라는 구체적인 용의자를 제시하며, 이론가들이 달려들 수 있는 정밀한 질문으로 다듬어 놓았다. 사인 기반 옵티마이저로의 전환을 고민하는 실무자에게도, 누적기 설계가 두꺼운 꼬리에서 양날의 검이 될 수 있다는 점은 곱씹어 볼 만한 통찰이다. 답이 아니라 잘 벼린 질문을 내놓는 것, 그것이 때로는 분야를 더 멀리 밀고 간다.