추론 이득 기반 검색과 강화학습의 결합, LLM 수학 추론 성능의 새 기준 | AI Insight Note