과거 궤적을 규칙으로 재구성, 제로샷 공간 탐색의 진화 선언

훈련 없이 처음 보는 환경에서 목표 물체를 찾아야 하는 제로샷 탐색은, 파운데이션 모델을 동원해도 반복적 실수라는 벽에 부딪혀 왔다. EvolveNav는 탐색 경험을 구조화된 규칙으로 변환하고, 행동 전 결과를 시뮬레이션하는 preflection으로 불필요한 이동을 줄여 성공률 10.1%p 향상을 달성했다. 에이전트가 배포 이후에도 스스로 진화할 수 있다는 가능성을 구체적인 알고리즘으로 입증한 연구다.

로봇이나 에이전트가 특정 물체를 찾아 방을 누비는 장면을 상상해보자. '냉장고 옆에 있는 물컵을 가져와'라는 명령을 받은 에이전트는 그 환경을 한 번도 경험한 적 없이 탐색을 시작한다. 이것이 Object Goal Navigation(OGN)이 다루는 문제다. 여기서 한층 더 어려운 과제인 제로샷 설정, 즉 ZS-OGN은 훈련 데이터조차 없이 에이전트가 처음 보는 환경에서 곧바로 목표 물체를 찾아야 한다는 것을 의미한다.

최근 GPT-4나 LLaVA 같은 대형 파운데이션 모델이 이 분야에 도입되면서 성능이 크게 향상됐다. 하지만 이 접근법에는 근본적인 한계가 있다. 모델이 보유한 지식은 훈련 시점에 고정되어 있기 때문에, 에이전트가 탐색 중에 마주치는 실수나 비효율적 경로로부터 아무것도 배우지 못한다. 오늘 실패한 방법을 내일 또 반복하는 것이다. EvolveNav는 이 정적인 패러다임에 정면으로 도전한다.

기억을 쌓고, 기억으로부터 배우다

EvolveNav의 핵심은 'agentic rule memory'라는 개념이다. 에이전트가 탐색을 수행할 때마다, 그 과정에서 발생한 궤적을 분석해 실행 가능한 규칙을 추출한다. 예컨대 '거실에서 침실로 이동하려 할 때 소파 옆 복도를 우회하면 더 빠르다'는 식의 경험 기반 지식이다. 단순히 성공과 실패를 기록하는 것이 아니라, 상황과 행동 패턴을 연결짓는 구조화된 지식으로 변환하는 것이다.

이렇게 축적된 규칙들을 언제, 어떻게 활용하느냐가 다음 과제다. 연구팀은 Upper Confidence Bound(UCB) 알고리즘을 응용한 검색 전략을 도입했다. UCB는 원래 탐색-활용 딜레마를 해결하는 프레임워크인데, 이를 규칙 선택에 적용함으로써 의미적 관련성이 높은 규칙과 과거 성공률이 높은 규칙 사이의 균형을 자동으로 조율한다. 현재 상황과 가장 유사하면서도 실제로 효과가 있었던 규칙이 우선적으로 선택되는 구조다. 이는 단순한 유사도 검색이 가진 한계, 즉 자주 쓰이지만 실제로 별 도움이 되지 않는 규칙이 반복 선택되는 문제를 해결한다.

행동하기 전 미래를 시뮬레이션한다

EvolveNav가 제안하는 또 다른 핵심 모듈은 'preflection'이다. 이 단어는 'reflection(반성)'에서 파생된 조어로, 사후 반성이 아닌 사전 예측을 뜻한다. 에이전트가 어떤 행동을 취하기 전에, 해당 행동이 가져올 결과를 먼저 예측해보는 것이다.

구체적으로는 이렇게 작동한다. 에이전트가 탐색 중 갈림길에 서면, 각 방향으로 이동했을 때 어떤 상황이 펼쳐질지를 메모리 내 규칙을 참고해 시뮬레이션한다. '이 방향으로 가면 이전에 비슷한 환경에서 막다른 길이 나왔다'는 식의 예측이 가능해지는 것이다. 이는 실제로 가보고 나서 잘못 왔음을 깨닫는 반응적 탐색 방식과 본질적으로 다르다. 결과적으로 불필요한 이동 횟수가 줄어들고 탐색 효율이 높아진다.

이 preflection의 강점은 메모리와 긴밀하게 연동된다는 점이다. 탐색 경험이 쌓일수록 규칙 메모리가 풍부해지고, 풍부한 메모리는 더 정확한 preflection을 가능하게 하며, 더 나은 탐색은 다시 좋은 규칙을 생산한다. 이 선순환 구조가 EvolveNav가 '자기 진화'를 실현하는 방식이다.

수치 뒤에 담긴 의미

연구팀은 HM3D와 MP3D 등 표준 벤치마크에서 EvolveNav를 평가했다. 기존 제로샷 최상위 방법 대비 성공률이 10.1%p 향상됐으며, 불필요한 탐색 단계도 함께 줄었다. 단순히 성공률만 높아진 것이 아니라 더 효율적인 경로로 목표에 도달한다는 뜻이다.

이 결과가 시사하는 바는 수치 이상으로 깊다. 제로샷이라는 설정은 에이전트가 사전 훈련 없이 즉시 배포 가능하다는 현실적 가치를 담고 있다. 그리고 테스트 시간에 스스로 학습하는 능력은, 에이전트를 한번 배포하면 고정되는 정적 시스템이 아니라 시간이 지날수록 환경에 적응하는 동적 존재로 만든다. 가정용 로봇이나 창고 자동화 로봇 같은 실제 배포 시나리오에서, 이 차이는 결정적이다. 처음에는 어설프더라도 같은 공간을 반복하면서 점점 능숙해지는 로봇, EvolveNav는 그 방향을 구체적인 알고리즘으로 실현했다.