AI · Web3 · Tech trends and insights at a glance
AI · Web3 · Tech trends and insights at a glance
by Liminal·P
2026.06.18원문 논문 ↗
Rethinking Reward Supervision: Rubric-Conditioned Self-Distillation
Siyi Gu, Jialin Chen, Sophia Zhou, Arman Cohan, Rex Ying
발행일: 2026.06.17
언어 모델 추론 훈련의 두 주류 방식인 지식 증류와 강화학습은 각각 참조 궤적의 품질 의존성과 스칼라 보상의 정보 손실이라는 구조적 결함을 안고 있다. 예일대 연구팀이 제안한 Rubric-Conditioned Self-Distillation은 채점 기준표(루브릭)를 훈련 신호로 삼아 두 방식의 약점을 동시에 우회하고, 추론 과정에 대한 세밀한 크레딧 할당을 가능하게 한다.
언어 모델이 복잡한 추론을 수행하도록 훈련시키는 방법은 크게 두 갈래로 나뉜다. 하나는 정답에 이르는 사고 과정, 즉 chain-of-thought 예시를 모아 모델에게 그대로 흉내 내게 하는 지식 증류 방식이다. 다른 하나는 모델이 스스로 답을 생성하게 한 뒤 그 답의 정오에 따라 보상 신호를 부여하는 강화학습 방식이다. 두 접근 모두 나름의 타당한 동기를 가지고 있지만, 예일대 연구팀이 지적하는 것처럼 각각 고유한 구조적 결함을 안고 있다.
지식 증류의 문제는 참조 추론 과정의 품질에 전적으로 의존한다는 점이다. 인간 전문가 또는 더 큰 모델이 생성한 chain-of-thought 데이터를 수집하는 일은 비용이 많이 들 뿐 아니라, 결과적으로 옳은 답에 도달하더라도 그 과정이 비효율적이거나 부분적으로 잘못된 경우가 적지 않다. 학생 모델은 결국 그 잡음까지 함께 배우게 된다. 단일한 모범 답안 궤적을 유일한 학습 목표로 삼는 구조 자체가 지나치게 경직되어 있다.
강화학습은 이 문제를 우회하는 것처럼 보인다. 모델이 자유롭게 생성한 응답에 대해 정답 여부로만 보상을 부여하면, 특정 추론 궤적에 얽매이지 않아도 된다. 그러나 여기서 다른 문제가 생긴다. 0점 아니면 1점, 또는 연속적인 단일 점수로 표현되는 스칼라 보상은 무엇이 좋고 무엇이 나빴는가를 구분하지 않는다. 응답 전체가 하나의 숫자로 압축되면, 어떤 부분이 잘못된 추론이었는지, 어떤 부분이 논리적으로 강건했는지 모델은 알 수 없다. 이것이 크레딧 할당 문제다. 결과를 알아도 과정의 어느 지점이 문제였는지를 알 수 없다는 뜻이다.
Siyi Gu, Jialin Chen, Sophia Zhou, Arman Cohan, Rex Ying은 이 두 방식의 약점을 정면으로 겨냥한 새로운 프레임워크를 제안한다. 이름은 Rubric-Conditioned Self-Distillation, 줄여서 RCSD다.
루브릭은 교육 현장에서 오래전부터 쓰인 개념이다. 단순히 맞다·틀리다를 판정하는 대신, 평가 대상이 충족해야 할 여러 기준 항목을 명시한 채점 기준표다. 논문에서 루브릭은 이 발상을 언어 모델 훈련에 그대로 끌어들인다. 올바른 추론이란 어떤 기준들을 만족해야 하는가를 구조화된 형태로 기술하고, 이를 교사 모델이 학생 모델의 생성 결과를 평가하고 지도하는 근거로 삼는다.
RCSD의 파이프라인은 두 단계로 구성된다. 첫 번째 단계에서 모델은 주어진 문제 유형에 맞는 루브릭 자체를 생성하는 방법을 배운다. 두 번째 단계에서는 그 루브릭에 조건화된 교사 모델이 학생 모델의 자체 샘플링된 추론 궤적을 평가하며 토큰 수준의 피드백을 제공한다. 여기서 핵심은 on-policy라는 특성이다. 학생 모델이 직접 생성한 응답 위에 루브릭 기반 피드백이 얹히기 때문에, 기존 증류처럼 외부에서 가져온 단일 모범 궤적을 맹목적으로 따르지 않아도 된다.
스칼라 보상의 맹점, 즉 전체 응답이 하나의 숫자로 뭉뚱그려지는 문제 대신, 루브릭은 추론 과정의 여러 측면을 각각 분리해 평가할 수 있게 한다. 어떤 부분에서 추론이 흔들렸는지, 어떤 기준을 만족했고 어떤 기준을 놓쳤는지가 토큰 수준으로 반영된다. 이것이 논문이 강조하는 세밀한 크레딧 할당이다.
연구팀은 다양한 과학 추론 벤치마크에서 RCSD를 평가했다. 대표적인 비교 대상은 GRPO와 OPSD다. GRPO는 강화학습 계열의 현재 강력한 기준선이고, OPSD는 on-policy 자기 증류 방식의 선행 연구다. RCSD는 GRPO 대비 평균 1.0점, OPSD 대비 0.9점 높은 성능을 기록했다.
수치만 보면 소박한 개선처럼 보일 수 있다. 그러나 이 결과가 흥미로운 것은 점수 차이보다 방법론적 함의 때문이다. RCSD는 별도의 대규모 외부 데이터 없이, 모델 자신이 생성한 궤적과 자동으로 생성된 루브릭만을 가지고 이 성과를 달성한다. 데이터 수집 비용과 참조 추론의 품질 의존성이라는 증류의 고질적인 약점을 우회하면서, 동시에 스칼라 보상의 정보 손실 문제도 완화했다.
이 접근이 제시하는 더 근본적인 시사점은, 언어 모델 훈련에서 피드백의 구조가 갖는 중요성이다. 정답 여부만을 신호로 삼는 방식과 기준 항목별로 구분된 평가를 신호로 삼는 방식 사이에는, 모델이 실제로 어떤 것을 학습하는가에서 질적 차이가 발생한다. 인간이 어떻게 배우는지를 돌이켜보면 이는 직관적이다. 단순히 틀렸다는 판정보다 여기서 이 부분의 논리가 부실했다는 구체적인 피드백이 학습에 훨씬 유용하다. RCSD가 흥미로운 것은 이 오래된 교육학적 직관을 언어 모델 훈련의 수학적 구조 안에 정밀하게 이식했다는 점이다.
루브릭 자체의 품질을 어떻게 보장할 것인가, 루브릭 생성 단계의 오류가 최종 훈련에 어떻게 전파되는가, 그리고 이 방식이 과학 추론을 넘어 더 넓은 도메인으로 얼마나 일반화될 수 있는가. 이 프레임워크는 완성된 답이라기보다는 피드백 설계라는 오래된 문제를 더 정밀하게 재정의한 새로운 질문에 가깝다.