에이전트 스킬을 가중치처럼 훈련, SkillOpt의 텍스트 공간 최적화 주목

에이전트 스킬을 만드는 방식은 지금까지 손 작업, 원샷 생성, 느슨한 자기 수정 세 가지에 머물렀고, 그 어느 것도 피드백 하에서 신뢰할 수 있는 개선을 보장하지 못했다. SkillOpt는 스킬 문서를 딥러닝 가중치처럼 체계적으로 훈련하는 첫 번째 텍스트 공간 최적화 프레임워크를 제안한다. 6개 벤치마크와 3개 실행 환경의 52개 평가 셀 전체에서 모든 비교 방식을 앞서며, GPT-5.5 기준 평균 +23.5점의 정확도 향상을 달성했다.

에이전트 스킬이 지금까지 어떻게 만들어졌는지를 생각해보면, 크게 세 가지 방식이 있었다. 사람이 직접 손으로 작성하거나, LLM에 한 번 물어봐서 생성하거나, 혹은 느슨한 자기 수정 루프를 통해 변형하는 것이다. 이 세 방식 모두 공통된 약점이 있는데, 그 어느 것도 시작점으로부터 신뢰할 수 있는 방식으로 개선을 보장하지 않는다는 점이다. SkillOpt는 이 문제를 정면으로 다루며, 에이전트 스킬을 마치 신경망의 가중치를 훈련하듯 체계적으로 최적화하겠다는 새로운 패러다임을 제시한다.

텍스트를 가중치처럼 다루는 발상

이 연구의 출발점은 하나의 비유다. 딥러닝에서 모델의 능력은 수백억 개의 가중치에 담겨 있고, 역전파와 경사하강법이라는 최적화 메커니즘 덕분에 그 가중치는 체계적으로 개선된다. 그렇다면 에이전트가 참조하는 스킬 문서도 가중치처럼 최적화할 수 있지 않을까?

SkillOpt는 이 직관을 텍스트 공간으로 옮긴다. 에이전트 자체는 동결된 채로 두고, 스킬 문서만을 훈련 대상으로 삼는다. 별도의 옵티마이저 모델이 에이전트의 실제 실행 기록(롤아웃)을 분석하고, 그 결과로 스킬 문서에 세 가지 유형의 편집만을 수행한다. 추가, 삭제, 교체다. 이 편집은 held-out 검증 데이터셋에서 점수가 실제로 향상될 때만 채택된다. 개선이 없으면 편집은 거부된다.

이 과정에서 딥러닝의 핵심 개념들이 텍스트 형태로 재해석된다. 텍스트 학습률 예산은 한 번에 얼마나 큰 변화를 허용할지를 제어하고, 거부된 편집 버퍼는 실패한 시도를 기억해 같은 실수를 반복하지 않도록 하며, epoch 단위의 slow/meta 업데이트는 훈련 과정을 안정화한다. 배포 시점에는 추가적인 모델 호출이 전혀 없다. 최적화된 스킬 문서가 그대로 에이전트와 함께 배포될 뿐이다.

52개 셀, 모두 최고 또는 동등

성과 검증은 상당히 폭넓다. 6개 벤치마크, 7개 타겟 모델, 3개 실행 환경(직접 채팅, Codex 에이전틱 루프, Claude Code)의 조합으로 만들어진 52개 평가 셀 전체에서 SkillOpt는 최고 성능이거나 타 방식과 동점이다. 비교 대상에는 인간이 작성한 스킬, 원샷 LLM 생성 스킬, Trace2Skill, TextGrad, GEPA, EvoSkill이 포함된다.

수치로 보면 GPT-5.5 기준으로 스킬 없는 기준선 대비 직접 채팅에서 +23.5점, Codex 루프에서 +24.8점, Claude Code 환경에서 +19.1점의 평균 정확도 향상을 달성했다. 이 수치는 단일 벤치마크에서의 최고 기록이 아니라 여러 벤치마크의 평균값이라는 점에서 의미가 있다.

전이 실험 결과도 주목할 만하다. 한 모델 크기에서 최적화된 스킬 문서가 다른 모델 크기에서도 유효하고, Codex 환경에서 만들어진 스킬이 Claude Code 환경에서도 동작하며, 수학 벤치마크에서 최적화된 스킬이 인접한 수학 문제로 추가 최적화 없이 전이된다. 이는 SkillOpt가 만들어내는 스킬 표현이 특정 모델이나 환경에 과적합되지 않음을 시사한다.

에이전트 능력의 외재화라는 관점

이 논문이 제기하는 더 넓은 물음은 에이전트 능력을 어디에 담을 것인가이다. 지금까지의 주된 답은 모델 가중치였다. 더 많은 데이터로 파인튜닝하거나 더 큰 모델을 쓰는 것이 성능 향상의 주된 경로였다. SkillOpt는 다른 경로를 제안한다. 모델을 건드리지 않고 스킬 문서라는 외부 상태를 최적화하는 것이다.

이 관점에서 보면 스킬 문서는 단순한 프롬프트 엔지니어링의 산물이 아니라, 훈련 가능한 파라미터다. 다만 그 파라미터가 부동소수점 숫자가 아닌 인간이 읽을 수 있는 텍스트 형태를 띠고 있다는 점이 다를 뿐이다. 이 특성은 스킬 문서가 해석 가능하고, 감사 가능하며, 사람이 개입해 수정할 수 있다는 장점을 낳는다.

물론 이 연구가 모든 질문에 답하는 것은 아니다. 옵티마이저 모델 자체의 품질이 스킬 최적화 결과에 얼마나 영향을 미치는지, 스킬 문서가 길어질수록 최적화 효율이 어떻게 달라지는지, 그리고 매우 다른 도메인 간 전이는 얼마나 가능한지는 후속 연구가 필요한 영역이다. 그럼에도 SkillOpt는 에이전트 역량 향상의 방법론적 지형을 바꿔놓을 만한 시도로 읽힌다.