AI · Web3 · Tech trends and insights at a glance
AI · Web3 · Tech trends and insights at a glance
by Liminal·P
2026.06.13원문 논문 ↗
EurekAgent: Agent Environment Engineering is All You Need For Autonomous Scientific Discovery
Amy Xin, Jiening Siow, Junjie Wang, Zijun Yao, Fanjin Zhang, Jian Song
발행일: 2026.06.11
LLM 에이전트의 능력이 빠르게 성장하는 지금, 자율 과학 발견의 진짜 장벽은 더 이상 모델 자체가 아니라 에이전트가 작동하는 환경의 설계에 있다. EurekAgent는 권한·산출물·예산·인간 감독을 체계적으로 설계한 환경 공학으로, 11달러 미만의 API 비용으로 수십 년 된 수학 문제의 기록을 경신했다.
AI 에이전트가 과학적 발견을 자동화하는 시대가 열리고 있다. 최근 몇 년간 LLM 기반 에이전트들은 주어진 최적화 지표와 실행 환경 안에서 가설을 제안하고, 검증하고, 반복 개선하는 과정을 스스로 수행하며 인간 설계를 뛰어넘는 결과를 내놓기 시작했다. 그런데 이 흐름 속에서 연구자들이 주목해 온 것은 대부분 '에이전트를 어떻게 움직이게 할 것인가', 즉 워크플로우 설계였다. 어떤 단계를 밟아야 하는지, 어떤 도구를 어떤 순서로 호출해야 하는지를 정밀하게 규정하는 방식이 지배적이었다.
EurekAgent를 제안한 연구자들은 이 전제에 정면으로 의문을 제기한다. 모델의 능력이 지속적으로 향상되는 시점에서 자율 과학 발견의 진짜 병목은 워크플로우 처방이 아니라 환경 설계라는 것이다. 에이전트가 작동하는 공간—접근 가능한 자원, 부과된 제약, 외부 세계와의 인터페이스—이 에이전트의 행동 방식을 근본적으로 규정한다는 주장이다. 이를 그들은 '환경 공학(environment engineering)'이라 명명한다.
EurekAgent는 환경 공학을 네 가지 차원에서 구현한다.
첫째는 권한 공학(permissions engineering)이다. 에이전트가 실행할 수 있는 코드의 범위를 명확하게 제한하고, 평가 환경을 격리함으로써 이른바 보상 해킹(reward hacking), 즉 에이전트가 의도한 문제를 푸는 대신 평가 지표를 조작해 높은 점수를 얻으려는 행동을 구조적으로 억제한다. 격리는 단순한 안전 장치가 아니라, 에이전트의 성과가 실질적임을 보장하는 설계상의 선언이다.
둘째는 산출물 공학(artifact engineering)이다. 파일시스템과 Git 기반의 협업 구조를 통해 에이전트들이 서로의 시도를 축적하고 참조할 수 있게 한다. 다중 에이전트 환경에서 각자의 탐색 결과가 체계적으로 관리되지 않으면 탐색이 반복되거나 유망한 방향이 손실된다. Git 기반 이력 관리는 이 문제를 구조적으로 해결하면서, 탐색의 노이즈를 탐색 가능한 발견의 기록으로 전환한다.
셋째는 예산 공학(budget engineering)이다. 에이전트에게 사용 가능한 예산을 인지시키고 탐색 전략을 예산에 맞게 조율하도록 유도한다. 무한정 자원이 있다는 가정 아래 작동하는 에이전트와 실제 비용 제약 안에서 작동하는 에이전트는 탐색 방식 자체가 달라진다. 이 설계 덕분에 EurekAgent는 26개 원의 최밀 배열(circle packing) 문제에서 새로운 기록을 세우면서도 총 API 비용을 11달러 이하로 유지할 수 있었다.
넷째는 인간-루프 공학(human-in-the-loop engineering)이다. 완전 자율화를 목표로 하면서도 인간의 감독과 개입을 쉽게 만드는 인터페이스를 설계한다. 자율성과 통제 가능성은 흔히 상충하는 것으로 여겨지지만, 환경을 올바르게 설계하면 두 가지를 동시에 달성할 수 있다는 것이 이 연구의 핵심 주장 중 하나다.
EurekAgent는 수학 최적화, 커널 엔지니어링, 머신러닝 등 다양한 벤치마크에서 새로운 최고 성능을 달성했다. 특히 26개 원의 최밀 배열 문제는 수십 년간 이론가들이 매달려 온 조합 최적화 문제로, 에이전트 시스템이 이 영역에서 실질적인 진전을 이뤄냈다는 것은 상징적 의미가 크다. 비용 대비 성능의 곡선이 우리가 예상했던 것보다 훨씬 가파르다는 것을 이 결과는 시사한다.
이 연구가 던지는 더 근본적인 질문은 AI 연구 방법론에 관한 것이다. 우리는 지금까지 더 나은 에이전트를 만들기 위해 더 정교한 워크플로우를 설계하는 데 집중해 왔다. 그러나 에이전트가 작동하는 환경 자체를 연구 대상으로 삼는 관점은 상대적으로 덜 주목받았다. EurekAgent는 코드와 결과를 전면 공개하며 환경 공학을 자율 연구 에이전트 개발의 핵심 연구 방향으로 제안한다. 만약 병목이 정말로 에이전트가 아니라 환경에 있다면, 앞으로 AI 지원 과학 발견의 지형은 모델 개발자만큼이나 환경 설계자들에 의해 결정될 것이다.