추론 이득 기반 검색과 강화학습의 결합, LLM 수학 추론 성능의 새 기준

기존 RAG는 의미적으로 비슷한 문서를 찾지만, 수학 추론에서 진짜 필요한 것은 '비슷하게 풀리는' 문제다. RA-RFT는 추론 이득을 기준으로 검색기를 학습시키고, 찾아온 유추 사례로 강화학습을 수행해 LLM의 수학 추론 능력을 끌어올린다. AIME 2025에서 GRPO 대비 최대 7.1포인트 향상을 기록하며 검색이 보상 설계·학습 커리큘럼과 독립적인 세 번째 개선 축이 될 수 있음을 보여준다.

검색 증강 생성(RAG)이 대형 언어 모델의 표준 보조 장치로 자리 잡은 지 수 년이 지났다. 외부 지식을 모델에 주입하는 이 방식은 사실 검증이나 최신 정보 반영에서는 탁월한 성과를 거뒀지만, 복잡한 수학 추론이나 다단계 논리 과제 앞에서는 뜻밖의 약점을 드러낸다. 문제는 검색 엔진이 찾아주는 '비슷한 문제'가 실제로 같은 방식으로 풀리지 않는다는 데 있다. 표현이 유사하다고 해서 풀이 전략까지 닮은 것은 아니기 때문이다.

이 역설에 정면으로 도전한 연구가 Zilin Xiao 등이 제안한 RA-RFT(Retrieval-Augmented Reinforcement Fine-Tuning)다. 논문은 기존 RAG의 검색 패러다임 자체를 뒤집는다. 의미적 유사도 대신 추론 이득(reasoning benefit)을 기준으로 검색기를 학습시키고, 그렇게 찾아낸 유추 사례들을 강화학습 파인튜닝의 데모로 활용하는 방식이다.

의미 유사도의 함정, 그리고 유추 추론의 가능성

현대 검색 시스템은 대개 임베딩 공간의 코사인 유사도나 BM25 같은 어휘 매칭으로 관련 문서를 찾는다. 이 방식은 "오바마는 어느 대학을 나왔는가"처럼 사실 기반 질의에는 잘 맞는다. 하지만 수학 경시대회 문제처럼 추론 구조가 핵심인 과제에서는 전혀 다른 이야기가 된다.

예를 들어, 이항 계수의 조합론적 해석을 묻는 문제와 격자 경로 문제는 표면 어휘가 전혀 달라 보이지만, 두 문제 모두 경우의 수를 분해하고 보완적 사건을 셈하는 동일한 추론 패턴을 공유할 수 있다. 반대로, 겉보기에 유사한 두 정수론 문제가 하나는 소인수분해, 다른 하나는 합동식 접근으로만 풀리는 경우도 흔하다. 의미 기반 검색이 이 구분을 포착하지 못하는 것은 구조적 한계다.

RA-RFT의 핵심 통찰은 인간이 수학 문제를 풀 때 쓰는 방식과 닮아 있다. 우리는 겉모습이 비슷한 문제보다 비슷하게 풀리는 문제를 기억에서 꺼내 유추한다. 이 유추 추론 능력을 검색기에 심는 것이 이 논문의 출발점이다.

Gold-Relevance Distillation과 강화학습의 결합

RA-RFT의 설계는 두 단계로 나뉜다. 첫 번째는 검색기 학습이다. 연구진은 gold-relevance distillation이라 부르는 방법으로 검색기를 훈련한다. 핵심 아이디어는 단순하다. 특정 문제를 푸는 데 실제로 도움이 된 참조 문제들을 정답 신호로 삼아 검색기를 학습시키는 것이다. 어떤 문제가 의미적으로 가깝냐가 아니라, 어떤 참조 문제를 보여줬을 때 모델이 더 잘 풀었냐는 결과 중심의 관련도를 직접 증류한다.

두 번째 단계에서는 이렇게 훈련된 검색기가 찾아온 유추 사례들을 컨텍스트로 제공하며 정책 모델을 강화학습으로 파인튜닝한다. 기존 GRPO 같은 강화 파인튜닝 방법론 위에 유추 데모를 얹는 방식이어서, 보상 설계나 학습 커리큘럼과는 독립적인 개선 축으로 작동한다. 논문이 강조하는 핵심 중 하나가 바로 이 직교성이다. 기존 강화학습 개선 연구들이 쌓아온 성과를 그대로 가져오면서 검색 축의 이득을 추가로 누릴 수 있다.

연구진이 분석한 검색 결과의 다양성 측면도 흥미롭다. 추론 인식 검색이 단순히 정답이 같은 문제를 찾는 게 아니라, 서로 보완적인 풀이 전략을 가진 문제들을 발굴한다는 사실이 드러났다. 하나의 수학 문제에 대해 대수적 접근, 기하학적 시각화, 귀납법 등 다양한 추론 경로를 제공하는 셈이다. 이는 모델이 단일 전략에 과적합하지 않고 더 유연한 추론 역량을 갖추는 데 기여한다.

AIME 2025 결과가 보여주는 함의

실험 결과는 설득력 있다. 미국 최상위 수학 경시대회 예선 수준인 AIME 2025 벤치마크에서 RA-RFT는 표준 강화 파인튜닝인 GRPO를 일관되게 앞섰다. Qwen3-1.7B 모델에서 average@32 정확도 기준 7.1포인트, Qwen3-4B에서 2.8포인트 향상이다. 특히 1.7B라는 소형 모델에서의 7.1포인트 향상은 파라미터 효율 면에서 주목할 만하다. 검색이 제공하는 추론 스캐폴드가 모델 규모의 한계를 어느 정도 보완할 수 있음을 시사하기 때문이다.

이 연구의 진짜 의미는 수치 그 자체보다 이 접근이 열어두는 연구 방향에 있다. LLM 추론 개선 연구는 지금까지 크게 두 갈래로 진행됐다. 하나는 보상 함수 설계를 정교화하는 방향이고, 다른 하나는 쉬운 문제에서 어려운 문제로 이어지는 학습 커리큘럼을 고안하는 방향이다. RA-RFT는 이 두 축과 독립적인 세 번째 축—검색을 통한 유추 컨텍스트—을 제안한다. 세 축을 동시에 개선하면 성능 향상이 중첩될 수 있다는 이야기다.

물론 남은 과제도 있다. 추론 이득 기반 검색기를 학습시키기 위해서는 어떤 참조가 도움이 됐는지를 알려줄 레이블 신호가 필요하다. 이 신호를 어떻게 효율적으로 구성하느냐, 그리고 수학 이외의 도메인—법률 추론, 코드 생성, 의학 진단—으로 이 프레임워크가 얼마나 자연스럽게 확장될 수 있느냐는 후속 연구의 몫으로 남는다.