GenericAgent, 더 적은 토큰으로 더 강한 AI, 자기 진화 에이전트의 등장

LLM 에이전트의 병목은 컨텍스트 창의 크기가 아니다. arXiv:2604.17091 GenericAgent는 주어진 컨텍스트를 얼마나 잘 쓰느냐가 장기 과제 성능을 결정한다고 주장하며, 더 적은 토큰으로 선도 에이전트들을 능가한다.

LLM 에이전트가 갈수록 복잡한 장기 과제를 수행하게 되면서, 한 가지 근본적인 병목이 드러나기 시작했다. 컨텍스트 창(context window)이다. 에이전트가 오래 실행될수록 도구 설명, 메모리, 환경 피드백이 쌓이며 실제 판단에 쓸 공간이 줄어든다. 컨텍스트를 늘리면 해결될 것 같지만, 4월 공개된 GenericAgent(arXiv:2604.17091)는 이 전제에 반론을 던진다.

17명의 저자가 제안한 핵심 명제는 이렇다. 장기 과제의 성능은 컨텍스트 길이가 아니라, 유한한 컨텍스트 예산 안에서 얼마나 의사결정에 필요한 정보를 유지하느냐에 달려 있다. 이를 컨텍스트 정보 밀도 최대화(contextual information density maximization)라 부른다.

4가지 구성 요소

구현은 네 개의 상호 연결된 요소로 이루어진다. 최소 원자 도구 집합(minimal atomic tool set)은 에이전트가 다루는 도구 인터페이스를 최대한 단순화한다. 계층적 온디맨드 메모리(hierarchical on-demand memory)는 기본적으로 핵심 요약만 표시하고, 필요할 때만 상세 내용을 불러온다. 자기 진화(self-evolution)는 검증된 과거 실행 경로를 재사용 가능한 표준 운영 절차와 실행 코드로 변환한다. 마지막으로 컨텍스트 압축 레이어가 장기 실행 중에도 정보 밀도를 유지한다.

결과는 명확하다. GenericAgent는 선도적 에이전트 시스템들과 비교해 더 적은 토큰과 상호작용으로 일관되게 높은 과제 완료율을 보인다. 더 적게 쓰고 더 잘한다는 것이 단순한 효율 개선처럼 보이지만, 실용적 함의는 크다. API 비용, 응답 지연, 에너지 소비 모두 토큰 수와 직결되기 때문이다.

GenericAgent가 던지는 진짜 질문은 에이전트 설계 철학에 대한 것이다. 더 큰 컨텍스트 창을 확보하는 경쟁이 아니라, 주어진 컨텍스트를 더 잘 쓰는 방법이 장기적으로 더 강력할 수 있다. 컨텍스트는 공간이 아니라 자원이다. 이 관점의 전환이 이 논문의 가장 중요한 기여다.