게임 에이전트 벤치마크의 재정의, VLM 개선 동역학 곡선으로 새 지평

VLM 에이전트를 게임으로 평가할 때 단 한 번의 점수만 기록하는 방식은 에이전트의 학습 잠재력과 일반화 능력을 보지 못한다. OmniGameArena는 언리얼 엔진 5 기반 열두 개 게임과 다중 라운드 반성 프로토콜 IDC를 통해, 에이전트를 단발 점수가 아닌 학습의 궤적으로 평가하는 새로운 프레임을 제시한다.

VLM(시각-언어 모델) 에이전트를 게임 환경에서 평가하는 연구는 최근 급증하고 있지만, 기존 벤치마크 방식에는 공통된 구조적 결함이 있다. 대부분의 평가는 특정 에이전트가 처음 게임에 도전했을 때의 단 한 번의 점수만을 기록한다. 이 단발 점수는 에이전트가 얼마나 빨리 적응할 수 있는지, 배운 것을 다른 상황에 얼마나 잘 전이할 수 있는지에 대해서는 아무것도 말해주지 않는다. 더불어 기존 벤치마크는 단독 플레이에 치우쳐 있어, 협력 플레이나 대결 플레이 같은 다중 에이전트 시나리오를 통합적으로 다루지 못했다. 상업용 VLM, 오픈웨이트 VLM, 특화된 게임 정책 모델 등 이질적인 에이전트 클래스를 동일한 기준 위에서 비교하기도 어려웠다. OmniGameArena는 이 세 가지 공백을 모두 메우려는 시도다.

열두 개의 게임, 언리얼 엔진 5의 무대

연구팀은 언리얼 엔진 5(UE5)로 완전히 새롭게 제작한 열두 개의 게임을 하나의 통합 플랫폼 위에 올렸다. 솔로 모드 일곱 개, PvP 세 개, 협력 두 개로 구성된 이 게임들은 퍼즐 해결부터 전술적 대전까지 다양한 인지·행동 역량을 요구한다. 무엇보다 중요한 것은 상업용 API 기반 모델, Qwen이나 LLaMA 계열의 오픈웨이트 모델, 강화학습으로 훈련된 전문 게임 정책 모두가 단일한 액션 인터페이스를 통해 동일한 환경에서 경쟁할 수 있다는 점이다. 이는 서로 다른 아키텍처와 훈련 방식을 가진 에이전트를 공정하게 비교하기 위한 설계 원칙이다.

실시간 벤치마크라는 점도 주목할 만하다. 정적인 데이터셋이 아닌 실제로 구동되는 게임 환경에서 에이전트의 행동이 평가된다. 스크린샷 기반 시각 입력을 받고, 키보드·마우스 수준의 행동 명령을 출력하는 방식은 VLM이 실제 세계에서 어떻게 기능해야 하는지에 더 가까운 평가 프레임을 제공한다. UE5의 사실적인 렌더링 품질은 기존 벤치마크의 단순화된 격자 세계나 정지 이미지와는 질적으로 다른 시각 입력을 만들어낸다.

점수 하나가 아닌, 학습의 궤적

OmniGameArena의 핵심 기여는 벤치마크 자체보다 IDC(개선 동역학 곡선)에 있다. IDC는 '도구를 사용하는 반성 LLM'이 여러 라운드에 걸쳐 에이전트의 기술 프롬프트를 자율적으로 다듬어가는 하네스다. 매 라운드가 끝나면 반성 LLM이 플레이 결과를 검토하고, 다음 라운드에서 어떻게 다르게 행동해야 하는지를 담은 수정된 프롬프트를 생성한다. 이 과정이 정해진 횟수만큼 반복되면서 에이전트의 점수 변화가 하나의 곡선을 그리게 된다.

이 곡선에서 읽어낼 수 있는 것은 크게 두 가지다. 첫째는 학습 잠재력이다. 기대 이상으로 빠르게 상승하는 에이전트가 있는 반면, 여러 라운드를 거쳐도 정체하는 에이전트가 있다. 둘째는 일반화 능력이다. 반성 과정에서 획득한 기술이 학습에 사용되지 않은 새로운 태스크 변형에 얼마나 전이되는가를 별도로 평가한다. 단순히 특정 게임 상황을 외운 것인지, 진짜 전략적 이해를 얻은 것인지를 구분하는 장치다.

열두 개 VLM 에이전트를 대상으로 한 콜드스타트 리더보드와, 그 중 상위 네 에이전트를 대상으로 한 IDC 결과는 흥미로운 역전 현상을 드러낸다. 콜드스타트에서 앞서 있던 에이전트가 반드시 IDC 곡선에서도 우위를 보이지는 않는다. 이는 현재 VLM 벤치마크가 실제 에이전트 역량의 일부만을 포착하고 있다는 직접적인 증거다.

평가 방식이 바뀌면, 무엇이 보이는가

OmniGameArena가 던지는 질문은 단순히 "이 모델이 이 게임을 얼마나 잘 하는가"가 아니다. "이 모델은 경험에서 얼마나 빠르게 배우는가", "배운 것을 다른 상황에 얼마나 잘 적용하는가"로 확장된다. 이 두 질문은 AI 에이전트를 실제 환경에 배치할 때 훨씬 더 중요한 속성이다.

특히 반성 LLM이 사람의 개입 없이 스스로 기술 프롬프트를 개선한다는 점은 단순한 평가 프로토콜을 넘어, 에이전트 자기 개선(self-improvement) 연구의 테스트베드로서의 가능성을 시사한다. VLM을 단순한 추론 엔진이 아닌 '학습하는 행위자'로 평가하는 틀을 제공한다는 점에서, OmniGameArena는 앞으로의 에이전트 벤치마크 설계에 하나의 기준점을 제시할 것으로 보인다.