도구 호출 방식이 AI 공간 지능을 결정한다, 코드 인터페이스 에이전트의 부상

공간 추론 에이전트의 성능을 좌우하는 것은 도구의 품질이 아니라 그 도구를 호출하는 인터페이스 설계에 있다는 주장이 강력한 실험 근거와 함께 등장했다. NVIDIA 리서치 연구팀이 제안한 SpatialClaw는 상태를 유지하는 Python 커널 위에서 단계적 코드를 실행하는 방식으로, 20개 공간 추론 벤치마크에서 기존 최고 성능을 11.2 포인트 앞섰다.

공간 추론은 인공지능이 실세계와 교감하기 위해 반드시 넘어야 할 산이다. 물체가 어디 있는지, 서로 어떻게 맞닿아 있는지, 3차원 공간을 어떻게 움직이는지를 파악하는 이 능력은 로봇공학에서 의료 영상 분석, 자율주행에 이르기까지 광범위한 응용 분야의 근간을 이룬다. 그런데 오늘날 가장 강력한 시각-언어 모델(VLM)조차도 이 영역에서만큼은 여전히 불안정한 모습을 보인다. 장면을 보고 언어로 대화할 수는 있지만, 깊이와 거리, 운동 궤적을 정밀하게 분석하는 일은 별개의 문제다. 이에 연구자들은 VLM에 전문 인식 모듈을 장착한 도구 증강 에이전트를 개발해왔다. 그러나 NVIDIA 리서치와 베이징 대학 공동 연구팀이 제시한 SpatialClaw는 흥미로운 반전을 내놓는다. 에이전트의 성능을 결정짓는 것은 도구 자체가 아니라, 그 도구를 어떻게 호출하느냐는 인터페이스 설계에 있다는 것이다.

인터페이스가 에이전트의 사고를 결정한다

기존 공간 추론 에이전트는 크게 두 가지 방식을 취해왔다. 첫 번째는 단일 패스 코드 실행 방식이다. 에이전트가 처음부터 전체 분석 계획을 코드로 작성하고 한 번에 실행한다. 문제는 이 방식이 중간 결과를 전혀 볼 수 없는 상태에서 모든 분석 전략을 사전에 확정해야 한다는 점이다. 실제 추론이란 중간에 예상치 못한 것을 발견하고 경로를 바꾸는 과정인데, 이 방식은 그 가능성을 처음부터 차단한다. 두 번째는 구조화된 도구 호출 인터페이스다. 미리 정해진 형식에 따라 도구를 순차적으로 호출하는 방식으로, 일관성은 있지만 연산 결과를 자유롭게 조합하거나 문제에 맞게 분석을 조정하는 유연성이 떨어진다.

SpatialClaw 연구팀은 두 방식 모두 개방형 공간 추론에 본질적인 한계가 있다고 진단한다. 그 한계는 도구의 품질이 아니라 인터페이스 설계에서 비롯된다. 에이전트가 얼마나 정교한 도구를 갖고 있어도, 그것을 호출하는 방식이 경직되어 있다면 복잡한 3D·4D 공간 문제를 풀어내는 역량에 한계가 생긴다. 이 관찰은 단순해 보이지만, AI 에이전트 설계에 있어 꽤 근본적인 물음을 던진다. 우리는 더 좋은 도구를 만드는 데만 집중했는가, 아니면 그 도구를 효율적으로 사용하는 방법도 설계하고 있는가?

SpatialClaw: 코드를 사고의 언어로

SpatialClaw의 핵심 아이디어는 코드를 에이전트의 액션 인터페이스로 삼는다는 것이다. 단, 기존의 단일 패스 코드 실행과 결정적으로 다른 점이 있다. SpatialClaw는 상태를 유지하는 Python 커널을 운영한다. 이 커널에는 입력 프레임과 다양한 인식·기하학 연산 프리미티브가 미리 로드되어 있다. VLM 에이전트는 이 커널 위에서 한 번에 하나씩 실행 가능한 코드 셀을 작성하고, 그 결과를 확인한 뒤 다음 셀을 작성하는 식으로 단계적으로 추론을 전개한다.

이 구조가 만들어내는 차이는 생각보다 크다. 에이전트는 각 단계에서 텍스트 결과뿐 아니라 시각적 중간 결과, 예컨대 특정 객체의 세그멘테이션 마스크나 깊이 추정 시각화를 직접 보면서 다음 분석 방향을 결정할 수 있다. 탐정이 단서를 발견할 때마다 수사 방향을 조정하듯, 에이전트는 중간 관찰에 조건화되어 분석을 동적으로 조율한다. 또한 이전 단계에서 생성된 변수와 결과를 그대로 이어받아 새로운 연산에 활용할 수 있으므로, 인식 결과의 자유로운 조합과 재사용이 가능하다. 무엇보다 SpatialClaw는 별도의 학습 없이 동작하는 training-free 프레임워크다. 특정 VLM 백본이나 벤치마크에 맞게 파인튜닝을 거칠 필요가 없다는 것은 실용적으로 중요한 의미를 갖는다. 새로운 VLM이 등장해도, 새로운 도메인이 추가되어도 동일한 프레임워크를 그대로 적용할 수 있기 때문이다.

20개 벤치마크가 말해주는 것

연구팀은 정적·동적 3D·4D 공간 추론을 아우르는 20개 벤치마크에서 SpatialClaw를 평가했다. 평균 정확도 59.9%로, 직전 최신 공간 에이전트 대비 11.2 포인트 높은 수치다. 더 주목할 만한 것은 두 모델 패밀리의 여섯 가지 VLM 백본 모두에서 일관된 성능 향상이 관찰됐다는 점이다. 특정 모델에서만 통하는 요령이 아니라, 인터페이스 설계 자체의 범용적 효과라는 의미다.

이 결과는 공간 추론의 병목이 VLM의 기저 언어 지능이나 도구 자체의 품질보다 에이전트-도구 인터페이스에 있을 수 있다는 가설을 강하게 지지한다. 더 좋은 모델을 만들거나 더 정밀한 도구를 개발하는 것만큼, 그것들을 어떻게 엮느냐는 설계 선택이 결정적이라는 것이다. 이는 에이전트 AI 연구의 방향을 다시 생각하게 만드는 통찰이다. 모델 스케일 경쟁과 도구 성능 개선 외에, 에이전트 아키텍처와 인터페이스 설계라는 독립적인 연구 축이 실질적인 성능 레버리지를 가질 수 있음을 SpatialClaw는 설득력 있게 보여준다. 59.9%라는 수치가 여전히 실수가 많다는 현실을 담고 있기는 하지만, training-free 접근으로 인터페이스 설계만으로 10 포인트 이상의 성능 향상을 이끌어냈다는 사실은 그 자체로 무게 있는 성과다.