AI · Web3 · Tech trends and insights at a glance
AI · Web3 · Tech trends and insights at a glance
by Liminal·P
2026.06.16원문 논문 ↗
TokenPilot: Cache-Efficient Context Management for LLM Agents
Buqiang Xu, Zirui Xue, Dianmou Chen, Chenyang Fu, Chiyu Wu, Caiying Huang
발행일: 2026.06.15
LLM 에이전트가 컨텍스트를 줄이려 할수록 프롬프트 캐시가 깨지는 역설이 발생한다. TokenPilot은 입력 게이트에서 노이즈를 차단하고 지역 세그먼트의 수명을 추적하는 이중 전략으로 이 트레이드오프를 구조적으로 해소하며, 추론 비용을 최대 87%까지 절감한다.
LLM 에이전트가 장시간 세션에서 운영될 때 가장 큰 비용 압박은 컨텍스트 누적에서 온다. 에이전트는 매 턴마다 이전 대화, 도구 호출 결과, 환경 관찰값을 쌓아가는데, 이것이 프롬프트 길이를 기하급수적으로 늘린다. 개발자들은 이를 줄이기 위해 두 가지 방향을 택해왔다. 하나는 텍스트 자체를 요약하거나 압축해 토큰 수를 줄이는 것이고, 다른 하나는 오래되거나 덜 중요한 메모리 항목을 동적으로 제거하는 것이다.
문제는 이 두 방법 모두 프롬프트의 물리적 배치를 바꾼다는 데 있다. 현대 LLM 추론 엔진은 KV 캐시를 통해 공통 프리픽스를 한 번만 계산하고 재사용한다. 텍스트를 자르거나 재배열하면 이 캐시가 무효화되고, 다음 호출에서 전체를 다시 계산해야 한다. 결과적으로 "토큰을 줄였지만 연산은 오히려 늘었다"는 역설이 발생한다. 절약한 것보다 더 많은 비용을 치르게 되는 셈이다. TokenPilot은 바로 이 딜레마—텍스트 희소성과 프롬프트 캐시 연속성 사이의 구조적 긴장—를 정면으로 다룬다.
TokenPilot의 핵심 아이디어는 컨텍스트 관리를 두 가지 세분성(granularity)으로 나누는 것이다. 전역(Global) 레벨과 지역(Local) 레벨이 각각 다른 책임을 맡는다.
전역 레벨의 Ingestion-Aware Compaction은 에이전트가 새 정보를 받아들이는 시점, 즉 입력 게이트에서 작동한다. 에이전트가 웹 검색이나 코드 실행 결과를 받을 때, 무관한 HTML 태그, 반복 패턴, 중복 로그 등 환경 노이즈가 대량으로 유입된다. 이것이 컨텍스트에 들어오기 전에 차단하면, 이후 프롬프트의 앞부분 구조가 안정적으로 유지된다. 프리픽스가 바뀌지 않으니 KV 캐시는 계속 유효한 상태로 남는다.
지역 레벨의 Lifecycle-Aware Eviction은 이미 컨텍스트에 들어온 내용을 관리한다. 모든 컨텍스트 세그먼트에 수명 주기 모델을 적용해, 해당 정보가 현재 작업과 얼마나 관련 있는지를 지속적으로 추적한다. 중요한 점은 관련성이 떨어졌다고 판단되더라도 즉각 제거하지 않는다는 것이다. 보수적인 배치-턴 스케줄에 따라, 작업 관련성이 완전히 만료된 시점에만 오프로드를 수행한다. 이 '지연 퇴출' 전략은 캐시 무효화를 최소화하는 동시에, 불필요한 정보를 컨텍스트에 방치하는 낭비도 막는 균형점을 찾는다.
PinchBench와 Claw-Eval 두 벤치마크에서의 실험 결과는 인상적이다. 독립 실행(isolated) 모드에서 각각 61%, 56%의 비용 절감을 달성했고, 지속 실행(continuous) 모드에서는 61%, 87%까지 절감폭이 커진다. 세션이 길어질수록 캐시 재사용의 이점이 복리처럼 쌓이기 때문에, 장기 세션에서의 효과가 더욱 두드러진다. isolated와 continuous 모드 사이의 수치 차이 자체가 하나의 메시지다. 에이전트 운영 기간이 늘수록 캐시 안정성의 가치는 비선형적으로 증가한다.
수치보다 더 중요한 것은 이 성능 향상이 에이전트 품질의 희생 없이 이루어졌다는 점이다. 기존 시스템들과 비교했을 때, 태스크 완료율과 응답 정확도에서 경쟁력 있는 결과를 유지했다. 비용과 품질 사이의 트레이드오프를 단순히 다른 지점에서 타협한 것이 아니라, 구조적 접근으로 트레이드오프 곡선 자체를 개선한 것이다.
TokenPilot은 이미 LightMem2 프레임워크에 통합되어 오픈소스로 공개된 만큼, LLM 에이전트 인프라를 구축하는 개발자들이 즉시 적용할 수 있다. 장기 실행 에이전트의 운영 비용이 실제 서비스화의 병목이 되는 상황에서, TokenPilot이 제시하는 캐시 인식 컨텍스트 관리는 앞으로 에이전트 인프라 설계의 기준점이 될 가능성이 높다. KV 캐시 연속성을 사후 최적화 대상이 아니라, 모든 컨텍스트 관리 결정이 출발해야 하는 일급 제약으로 다루는 설계 철학이 그 핵심이다.