이산 마스크의 한계를 넘은 연속 발산 정규화, LLM 강화학습 안정화의 새 지평

대형 언어 모델의 강화학습은 구조적으로 오프-폴리시가 되며, 신뢰 영역 제어 없이는 학습이 발산한다. 기존 방법들은 경계를 넘은 토큰의 기울기를 통째로 버리는 하드 마스크에 의존했지만, 이는 교정 신호를 원천 차단하는 설계였다. DRPO는 이 이분법을 연속적인 이차 정규화로 대체해 경계 너머에서도 방향성 있는 교정 신호를 유지한다.

왜 LLM 강화학습은 구조적으로 오프-폴리시가 되는가

대형 언어 모델을 강화학습으로 훈련할 때 가장 먼저 맞닥뜨리는 현실적 장벽은 데이터 수집 방식과 학습 방식 사이의 괴리다. 언어 모델은 토큰을 하나씩 자기 회귀적으로 생성하기 때문에, 배치 처리로 이루어지는 GPU 연산과 실제 추론 과정 사이에는 필연적인 불일치가 발생한다. 설상가상으로 한 번 수집된 롤아웃 데이터는 정책이 여러 번 업데이트되는 동안 계속 재사용된다. 이 두 가지 이유로 LLM 강화학습은 구조적으로 오프-폴리시가 된다. 데이터를 수집할 때의 정책과, 그 데이터로 학습하는 정책이 서로 다르다는 뜻이다.

이 상황에서 안정적인 학습을 보장하려면 매 업데이트 단계에서 정책이 얼마나 변할 수 있는지를 제한하는 신뢰 영역(trust region) 제어가 필수적이다. 변화가 너무 크면 이미 오래된 데이터에서 추출한 기울기 신호가 현재 정책에 맞지 않게 되어 학습이 발산하기 때문이다. PPO와 그 후속 변형인 GRPO는 이 문제를 중요도 비율의 클리핑으로 해결해왔다. 중요도 비율이란 새 정책과 옛 정책이 같은 토큰을 선택할 확률의 비율로, 이 값이 일정 범위를 벗어나면 기울기를 자르는 방식이다. 그러나 이 방법에는 치명적인 약점이 있다. 어휘 분포의 꼬리에 해당하는 희귀 토큰은 확률 자체가 매우 작기 때문에, 조금만 변해도 비율이 폭발적으로 커지거나 작아진다. 비율이라는 척도 자체가 분포 이동의 신뢰할 만한 대리 지표가 되지 못하는 것이다.

DPPO의 절반의 혁신, 그리고 남겨진 문제

이 문제를 인식한 DPPO는 비율 기반 클리핑을 버리고 개별 토큰의 절대적 확률 이동량을 신뢰 영역의 척도로 삼았다. 희귀 토큰이든 흔한 토큰이든 상관없이, 토큰별 확률이 얼마나 절대적으로 변했는가를 직접 보겠다는 발상이다. 이 설계는 어휘 분포의 꼬리 문제를 상당 부분 해소한다. 비율 대신 절대 이동량을 쓰면 어휘 크기에 관계없이 일관된 신뢰 영역 경계를 정의할 수 있기 때문이다.

그러나 DPPO는 여전히 하드 마스크에 의존한다. 토큰이 신뢰 영역 경계를 해로운 방향으로 넘어서는 순간, 그 토큰의 기울기는 통째로 버려진다. 이 이분법적 처리에는 두 가지 문제가 있다. 하나는 학습 신호의 낭비다. 경계를 조금 넘어선 토큰과 훨씬 많이 넘어선 토큰이 동일하게 기울기 0을 받는 것은 정보 손실이다. 다른 하나는 교정 신호의 부재다. 기울기를 버리면 정책에게는 어느 방향으로 돌아와야 하는지에 대한 신호조차 주어지지 않는다. 경계를 넘어선 정책이 되돌아올 이유를 학습 알고리즘 차원에서 만들어주지 않는 것이다.

DRPO: 끊김 없는 신호로 경계를 교정하다

이 논문이 제안하는 DRPO의 핵심 아이디어는 하드 마스크를 연속적인 이차 정규화 항으로 대체하는 것이다. 토큰이 신뢰 영역 경계에 가까워질수록 기울기의 크기는 점진적으로 줄어들고, 경계를 넘어선 이후에도 기울기가 0이 되는 대신 교정 방향의 신호가 유지된다. 비유하자면 낭떠러지에서 갑자기 바닥이 사라지는 DPPO와 달리, DRPO는 경계선 근처에서 점점 가팔라지는 경사면처럼 작동한다. 경계 안쪽에서는 완만하고, 경계에 다가갈수록 저항이 강해지며, 경계를 넘어서도 다시 안으로 끌어당기는 힘이 남아 있는 구조다.

이 정규화 항은 이점(advantage)으로 가중된다. 해당 토큰의 행동이 얼마나 좋고 나쁜지에 비례해 페널티가 설계되는 것이다. 이점이 클수록 경계를 넘는 토큰에 대한 교정 신호도 강해지는 구조로, 강화학습 목적함수와 신뢰 영역 제약이 일관된 방식으로 결합된다. 결과적으로 DRPO는 DPPO와 동일한 신뢰 영역의 기하학적 개념을 유지하면서도, 기울기를 유계이고 연속적으로 만든다. 경계를 넘어선 업데이트는 감쇠되고, 경계 너머에도 교정 방향의 신호가 남아 정책이 자연스럽게 신뢰 영역 안으로 수렴하도록 유도된다.

실험 결과는 다양한 모델 규모와 아키텍처, 수치 정밀도 설정에 걸쳐 DRPO가 LLM 강화학습의 안정성과 효율성을 일관되게 개선함을 보여준다. 이 연구가 시사하는 바는 간결하다. 신뢰 영역이라는 개념을 유지하되, 그 경계를 이분법이 아닌 연속적 신호로 구현해야 한다는 것이다. 고전 강화학습에서 빌려온 설계 원칙을 언어 모델의 현실에 맞게 재고하는 작업은 아직 초입 단계에 있다.