소형 GUI 에이전트의 자율 경험 탐색, 32B 대형 모델 추월의 비결

작고 저렴한 오픈소스 멀티모달 모델은 GUI 자동화의 핵심인 '계획' 능력에서 늘 대형 상용 모델에 밀려왔다. 중국과학원 연구진은 에이전트가 직접 환경을 헤매며 경험을 쌓고, 그 경험을 사후에 재해석해 학습 데이터로 빚어내는 PEEU 기법으로 7B 모델이 5배 가까이 큰 32B 모델을 앞지르게 만들었다. 저수준 기술을 아무리 쌓아도 고수준 계획 능력은 따라오지 않는다는, 직관을 뒤집는 분석이 함께 담겼다.

반복적인 웹 작업을 사람 대신 처리하는 GUI 에이전트는 멀티모달 모델이 가장 실용적으로 쓰이는 영역 중 하나다. 항공권을 검색해 예약하거나, 쇼핑몰에서 조건에 맞는 상품을 골라 장바구니에 담는 일처럼, 화면을 보고 클릭과 입력을 이어가는 작업은 결국 복잡한 목표를 실행 가능한 단위 행동으로 쪼개는 '계획(planning)' 능력에 달려 있다. 문제는 이 계획 능력이 모델의 덩치에 크게 좌우된다는 점이다. GPT-4 급 상용 대형 모델은 그럭저럭 해내지만, 비용과 프라이버시 측면에서 매력적인 소형 오픈소스 모델은 계획이 약하고 학습하지 않은 새로운 웹사이트로의 일반화가 특히 취약하다. 중국과학원 자동화연구소 연구진이 내놓은 PEEU(Planning Experience Exploration and Utilization)는 바로 이 간극을 겨냥한다.

헤매는 경험을 사후에 정답으로 빚어내다

PEEU의 핵심 발상은 두 단계로 나뉜다. 먼저 에이전트가 사람의 지도나 정답 궤적 없이 스스로 환경을 탐색하게 한다. 목표 없이 이리저리 클릭하며 화면이 어떻게 반응하는지, 어떤 행동이 어떤 결과로 이어지는지를 직접 겪게 하는 것이다. 이렇게 쌓인 경험은 그 자체로는 성공도 실패도 아닌, 그저 행동과 결과의 연쇄일 뿐이다. 두 번째 단계에서 연구진은 후견지명(hindsight)이라는 강화학습의 오래된 아이디어를 끌어온다. 비록 처음 의도한 목표를 이루지 못했더라도, 에이전트가 실제로 도달한 상태를 '원래 그것이 목표였던 것처럼' 재해석하면, 모든 탐색 궤적은 어떤 목표에 대한 완벽한 성공 사례로 변환된다. 이 재해석을 통해 행동 궤적과 고수준 작업 설명이 엄밀하게 정렬된(strictly aligned) 고품질 학습 데이터를 자동으로 합성해 낸다. 사람이 일일이 작업을 설계하고 라벨을 붙이는 비용 없이, 에이전트의 시행착오 자체가 양질의 교재로 변하는 셈이다.

저수준 숙련이 고수준 계획을 보장하지 않는다

더 흥미로운 기여는 방법론이 아니라 분석 틀에 있다. 연구진은 작업을 저·중·고 세 단계 granularity로 나누어 일반화 양상을 체계적으로 들여다보는 TDHAF(Task Decomposition Hierarchical Analysis Framework)를 제안한다. 그리고 여기서 직관을 거스르는 결론이 나온다. 클릭·입력 같은 저수준 원자 기술(atomic skill)을 아무리 능숙하게 익혀도 그것이 고수준 계획 역량으로 이어지지 않는다는 것이다. 오히려 고수준 작업 단위로 학습시킬 때 처음 보는 환경에 대한 분포 외(OOD) 일반화가 더 강하게 나타났다. 이는 에이전트 학습에서 '기본기를 탄탄히 쌓으면 응용은 따라온다'는 통념이 적어도 GUI 계획 영역에서는 성립하지 않음을 시사한다. 복잡한 목표를 어떻게 분해할지에 대한 추상적 감각은, 단순 행동을 반복 학습한다고 자연히 솟아나는 것이 아니라 고수준 작업 자체를 통해 별도로 길러야 한다는 이야기다.

결과는 이 주장을 뒷받침한다. PEEU로 학습한 7B 모델은 실제 웹 벤치마크에서 30.6%의 정확도를 기록하며, 다섯 배 가까이 덩치가 큰 Qwen2.5-VL-32B를 앞질렀다. 모델 크기를 키우는 손쉬운 길 대신, 경험을 어떻게 만들고 어떻게 재해석해 학습에 쓰느냐가 소형 모델의 일반화 능력을 좌우한다는 점을 보여준 결과다. 데이터 라벨링 비용과 프라이버시 부담을 동시에 줄이면서도 실용적 성능을 끌어올리려는 흐름에서, PEEU는 단순한 성능 수치 이상의 방향성을 제시한다.