행동만 관찰해 정책 코드를 복원하다, 역공학을 측정 가능한 추론 문제로

겉으로 드러난 행동만 보고 그 뒤에 숨은 의사결정 프로그램을 코드로 복원할 수 있을까. RevengeBench는 행동과학의 오래된 역문제를 코드 공간으로 옮겨와, 단순 관찰을 넘어 직접 실험을 설계하는 능력이 복원 정확도를 얼마나 끌어올리는지를 측정 가능한 벤치마크로 만든다. 특히 약한 모델이 복원된 코드로부터 가장 큰 경쟁 우위를 얻는다는 발견이 흥미롭다.

과학의 오랜 역사에서 행동을 연구하는 사람들은 겉으로 드러난 행위로부터 그 뒤에 숨은 메커니즘을 거꾸로 더듬어 갈 수밖에 없었다. 동물이 왜 이렇게 움직이는지, 사람이 왜 저런 선택을 하는지를 직접 들여다볼 수 없으니, 관찰된 행동을 단서 삼아 보이지 않는 규칙을 추정하는 수밖에 없었던 것이다. 이런 종류의 문제를 흔히 역문제(inverse problem)라 부른다. 그리고 이 역문제는 단지 가만히 지켜보기만 할 때보다, 의도적으로 조건을 바꾸어 보는 개입(intervention)이 더해질 때 훨씬 다루기 쉬워진다. RevengeBench는 바로 이 행동과학의 오래된 질문을 인공지능과 코드의 영역으로 정교하게 옮겨 놓은 연구다.

관찰에서 개입으로, 오래된 질문을 코드 공간으로

연구진이 던지는 질문은 단순하면서도 도발적이다. 어떤 에이전트가 게임 환경에서 움직인 행동의 흔적만 주어졌을 때, 학습자는 그 에이전트의 의사결정 과정을 실행 가능한 코드로 복원할 수 있는가. 그리고 직접 통제된 실험을 설계할 수 있을 때 그 복원의 질은 얼마나 좋아지는가. 여기서 복원의 대상이 추상적인 함수나 정책 분포가 아니라 사람이 읽고 실행할 수 있는 프로그램이라는 점이 중요하다. 행동의 기저에 깔린 논리를 코드라는 명시적 형태로 끄집어낸다는 것은, 곧 그 에이전트가 어떤 규칙과 조건 분기에 따라 움직이는지를 해석 가능한 언어로 번역하는 일이기 때문이다.

벤치마크는 다섯 개의 게임 환경에 걸쳐 만들어진 75개의 정책으로 구성된다. 이 정책들은 LLM이 생성하고 Elo로 실력이 보정된 것들로, CodeClash 토너먼트의 대국 기록에서 추출했다. 흥미로운 것은 학습자가 단순히 관전만 하는 데 그치지 않는다는 점이다. 학습자는 숨겨진 목표 정책이 여러 상대와 겨루는 모습을 지켜본 뒤, 정보가 될 만한 행동을 유도하기 위해 직접 상대 정책을 설계한다. 말하자면 가설을 검증하기 위한 맞춤형 탐침을 만들어 던지는 것이다. 특정한 상황을 일부러 연출하는 상대를 투입해 목표 정책의 숨은 조건 분기를 드러나게 만드는 이 과정은, 과학자가 실험군과 대조군을 설계해 가설을 시험하는 절차와 정확히 대응한다.

복원된 코드가 곧 경쟁력이 되다

학습자가 최종적으로 제출하는 것은 실행 가능한 가설, 즉 목표 정책을 재현했다고 주장하는 코드다. 평가는 정답 여부를 흑백으로 가르는 대신 연속적인 행동 거리(action-distance) 지표로 이루어진다. 복원한 코드가 원본과 같은 상황에서 얼마나 비슷한 선택을 하는가를 거리로 환산해, 초기 거리에서 얼마만큼을 좁혔는지를 측정하는 방식이다. 열두 개의 프런티어 LLM을 대상으로 실험한 결과, 복원의 질은 모델에 따라 크게 갈렸다. 초기 거리의 34퍼센트만 좁힌 모델부터 72퍼센트까지 좁힌 모델까지 편차가 상당했다.

더 인상적인 발견은 복원된 코드가 단순한 해석용 산출물에 그치지 않았다는 점이다. 연구진은 복원한 정책을 실제 플레이어 대 플레이어 토너먼트에 투입해, 그 코드가 실전에서 의미 있는 신호를 담고 있음을 확인했다. 상대의 의사결정 논리를 코드로 복원해 낸 쪽은 그만큼 효과적인 대응 전략을 짤 수 있었고, 이는 측정 가능한 승률 우위로 이어졌다. 특히 주목할 대목은 이 이득이 약한 모델에서 가장 두드러졌다는 사실이다. 원래라면 효과적인 대응 전략을 스스로 떠올리지 못해 고전하던 모델일수록, 상대의 코드를 복원해 손에 쥐었을 때 가장 큰 도약을 보였다. 직접 전략을 발명하는 능력이 부족한 주체에게는, 상대를 역공학하는 능력이 일종의 지렛대가 되어 주는 셈이다.

역공학을 다룰 수 있는 문제로 만든다는 것

RevengeBench가 의미 있는 이유는 단지 새로운 벤치마크 하나를 더했기 때문이 아니다. 그동안 막연하게 "상대를 파악한다"거나 "정책을 해석한다"고 표현되던 작업을, 코드 공간에서 다룰 수 있는 명확한 역문제로 재정의했다는 데 있다. 행동의 흔적에서 출발해 실행 가능한 프로그램에 도달하는 이 경로는 상대 모델링과 정책 해석 가능성이라는 실용적 과제와 곧장 맞닿는다. 나아가 관찰만으로는 알 수 없던 잠재된 메커니즘을 능동적 실험으로 드러낸다는 더 큰 질문, 곧 과학적 추론 그 자체의 구조를 인공지능이 어떻게 흉내 낼 수 있는가라는 물음으로 이어진다. 행동에서 메커니즘으로 거슬러 올라가는 인간 과학의 오래된 충동을, 코드라는 가장 검증 가능한 형태로 옮겨 놓았다는 점에서 이 연구는 단순한 게임 벤치마크 이상의 무게를 지닌다.