AI · Web3 · Tech trends and insights at a glance
AI · Web3 · Tech trends and insights at a glance
by Liminal·P
2026.06.23원문 논문 ↗
Teaching LLMs String Matching, Backtracking, and Error Recovery to Deduce Bases and Truth Tables for the Combinatorially Exploding Bit Manipulation Puzzles
Prateek Agnihotri, Sanchit Jain, Prabhat Agnihotri, Aditya Prasad, Shubham Jain
발행일: 2026.06.22
언어 모델은 비트 연산을 머릿속으로 계산하려다 환각에 빠진다. NVIDIA Nemotron 추론 챌린지에 출전한 한 팀은 산술을 통째로 버리고 문자열 유사도와 백트래킹 탐색으로 문제를 재구성해 96%가 넘는 정확도를 달성했다. LLM에게 '계산'이 아니라 '탐색과 오류 복구'를 가르친다는 발상이 핵심이다.
비트 조작 퍼즐은 겉보기에 단순하다. 입력 이진 문자열을 출력으로 바꾸는 숨은 논리 규칙이 있고, 그 규칙을 알아낸 뒤 처음 보는 입력에 적용하면 된다. 그러나 이 과제는 대규모 언어 모델에게 악명 높은 난제로 꼽힌다. 시프트와 회전, 그리고 여러 논리 게이트의 조합이 만들어내는 후보 변환의 공간이 조합적으로 폭발하기 때문이다. 기존 방식은 모델에게 불 대수와 자릿수 산술을 머릿속으로 시뮬레이션하라고 강요하는데, 언어 모델은 본래 다음 토큰의 확률을 추정하는 장치이지 비트 단위 계산기가 아니다. 결과적으로 그럴듯하지만 틀린 답, 즉 환각이 쏟아진다.
NVIDIA Nemotron 모델 추론 챌린지에 출전한 이 연구팀의 출발점은 문제를 푸는 방법이 아니라 문제를 바라보는 틀 자체를 바꾸는 데 있었다. 이들은 산술 논리를 통째로 포기하고, 대신 문자열 유사도라는 전혀 다른 도구를 끌어들였다. 핵심 아이디어는 논리 게이트를 추론하는 작업을 '기저(base) 선택' 문제로 다시 쓰는 것이다. 입력과 출력 사이에 몇 개의 비트만 뒤집히는지를 세는 최소 비트 반전이라는 단순한 거리 척도로, 가장 원초적인 변환들을 분리해낸다. 이렇게 골라낸 기본 변환들을 조합하면 복잡한 산술을 거치지 않고도 진리표를 역으로 추론할 수 있다. 계산을 패턴 매칭으로 환원한 셈이다.
두 번째 기여는 이 기저 선택 과정을 체계적인 탐색으로 형식화한 점이다. 후보 기저를 하나씩 시험하고, 여러 예시에 걸쳐 논리적 충돌이 발생하는지를 검사하며, 실패하면 되돌아가 다른 가지를 탐색하는 깊이 우선 백트래킹 구조다. 충돌 감지와 백트래킹이 결합되면서 한 번의 잘못된 가정이 전체 추론을 무너뜨리지 않고, 모델이 스스로 오류에서 회복하는 견고한 절차가 만들어진다. 흥미로운 것은 이 탐색이 단지 외부 알고리즘으로만 돌아가는 것이 아니라, 모델 자신의 추론 능력으로 흡수되도록 학습이 설계됐다는 점이다.
그 열쇠가 비트 토크나이제이션과 상호작용형 추론 미세조정이다. 연구팀은 토크나이저가 이진 문자열을 한 비트씩 개별 토큰으로 인코딩하도록 강제했다. 여러 비트가 하나의 토큰으로 뭉뚱그려지면 모델은 자릿값을 정확히 분간하기 어려운데, 비트를 낱개로 쪼개면 위치와 값을 또렷하게 다룰 수 있다. 여기에 동적 마스킹으로 외부 오라클의 피드백을 흉내 내, 모델이 가설을 세우고 스스로 평가한 뒤 필요하면 되돌아가는 과정을 학습 단계에서 직접 체득하게 했다. 즉 백트래킹을 외부 도구로 빌려 쓰는 것이 아니라, 모델이 본래부터 그렇게 사고하도록 훈련한 것이다.
이 접근은 비트 조작 부문에서 96%가 넘는 검증 정확도로 해당 부문 최고 성적을 기록했고, 대회 종합 7위를 견인했다. 숫자 자체보다 주목할 것은 그 뒤에 깔린 철학이다. 언어 모델에게 정밀한 계산을 요구하는 대신, 계산이 필요 없도록 문제를 재표현하고, 모델이 잘하는 패턴 인식과 탐색으로 길을 우회한다는 발상은 비트 퍼즐을 넘어 일반화될 여지가 크다. 모델이 한 번에 정답을 내놓길 기대하기보다, 가설과 검증과 후퇴를 반복하는 탐색적 사고를 학습 단계에서 내재화한다는 방향은 최근 추론 모델 연구의 흐름과도 맞닿아 있다.
물론 이 방법이 만능은 아니다. 기저로 분해되는 구조를 가진 비트 퍼즐에 특화된 설계인 만큼, 문자열 유사도라는 거리 척도가 의미를 갖지 않는 다른 종류의 기호 추론으로 그대로 옮겨갈 수 있을지는 별개의 문제다. 그럼에도 '계산하는 모델'이 아니라 '탐색하고 회복하는 모델'을 만든다는 관점의 전환은, 언어 모델의 추론 한계를 공학적으로 우회하는 한 가지 설득력 있는 방법을 보여준다.