AI · Web3 · Tech trends and insights at a glance
AI · Web3 · Tech trends and insights at a glance
by Liminal·P
2026.06.24원문 논문 ↗
InSight: Self-Guided Skill Acquisition via Steerable VLAs
Maggie Wang, Lars Osterberg, Stephen Tian, Ola Shorinwa, Jiajun Wu, Mac Schwager
발행일: 2026.06.23
VLA 모델은 학습 데이터에 담긴 기술만큼만 할 수 있다는 한계를 안고 있다. InSight는 정책을 '그릇으로 그리퍼를 옮겨라', '위로 들어 올려라' 같은 원시 동작 단위로 조종 가능하게 만들고, VLM이 이끄는 데이터 플라이휠로 빠진 기술을 스스로 채워 넣는다. 사람의 시연 한 번 없이 뒤집기·서랍 닫기·따르기 같은 새 기술을 습득했다는 점에서 VLA의 자율 학습 경로를 다시 그린다.
로봇이 시연을 보고 조작 기술을 배우는 비전-언어-행동(Vision-Language-Action, VLA) 모델은 지난 몇 년간 일반 목적 로봇 정책의 가장 유력한 후보로 떠올랐다. 그러나 이 접근에는 구조적인 천장이 있다. 정책이 할 수 있는 일의 범위가 학습 데이터에 들어 있는 기술의 범위와 정확히 일치한다는 점이다. 새로운 작업이 등장하면 사람이 다시 텔레오퍼레이션으로 수십, 수백 번의 시연을 모아야 하고, 이 비용이 VLA를 실험실 밖으로 끌어내는 데 가장 큰 걸림돌이 되어 왔다. 스탠퍼드의 Maggie Wang과 동료들이 내놓은 InSight는 바로 이 천장을 겨냥한다. 핵심 발상은 의외로 단순하다. VLA를 통째로 하나의 작업에 묶어 두는 대신, '그릇 쪽으로 그리퍼를 옮겨라', '위로 들어 올려라', '병을 기울여 따라라' 같은 원시 동작(primitive) 수준에서 조종할 수 있게 만들면, 정책이 스스로 부족한 기술을 찾아 채워 넣을 수 있다는 것이다.
InSight의 첫 단계는 자동 분절 파이프라인이다. 기존 시연 데이터를 의미 있는 단위로 쪼개되, 그 작업을 사람이 일일이 라벨링하는 대신 VLM이 작업 전체를 하위 계획으로 분해하고 엔드 이펙터의 자세 궤적을 함께 활용해 각 구간에 원시 동작 라벨을 붙인다. 이렇게 라벨이 달린 원시 동작들로 다시 학습된 VLA는 더 이상 '컵을 정리하라' 같은 거시 명령에만 반응하는 블랙박스가 아니라, 하위 동작 하나하나를 언어로 지시받아 실행할 수 있는 조종 가능한 정책이 된다. 이 조종성이 왜 중요한가. 그것이 바로 자율 학습의 진입점을 열기 때문이다. 정책을 낮은 수준에서 부를 수 있다는 것은, 정책이 아직 모르는 동작이 무엇인지 명확히 지목할 수 있고 그 빈자리를 표적으로 삼아 데이터를 모을 수 있다는 뜻이다.
두 번째 단계인 데이터 플라이휠이 그 빈자리를 메운다. 새로운 목표 작업이 주어지면 VLM이 그 작업을 완수하는 데 필요한 원시 동작들을 나열하고, 그중 현재 정책에 없는 동작을 식별한다. 그다음이 InSight의 가장 대담한 부분이다. 빠진 동작에 대해 VLM이 직접 저수준 제어를 제안해 로봇이 스스로 시연을 시도하게 하고, 성공한 시도를 자동으로 라벨링해 저장한 뒤 VLA의 학습 집합에 통합한다. 사람의 시연이 한 건도 들어가지 않는다. 정책이 부족함을 인식하고, 스스로 채우고, 다시 학습하는 순환이 닫히는 것이다.
연구진은 시뮬레이션과 실제 로봇 양쪽에서 블록 뒤집기, 서랍 닫기, 쓸기, 비틀기, 따르기 같은 작업을 대상으로 InSight를 검증했다. 주목할 점은 이 목표 기술들에 대해 사람이 만든 시연이 전혀 제공되지 않았다는 사실이다. 정책은 기존에 가지고 있던 원시 동작 어휘와 VLM의 안내만으로 새 기술을 획득했다. 더 나아가, 일단 습득된 원시 동작들은 레고 블록처럼 조합되어 추가 시연 없이도 긴 시간 지평의 새로운 작업을 수행하는 데 재사용된다. 이는 단발성 기술 학습을 넘어, 어휘가 늘어날수록 조합으로 만들 수 있는 작업의 수가 기하급수적으로 불어나는 지속적 기술 습득의 구조를 시사한다.
InSight가 던지는 메시지는 분명하다. VLA의 한계를 더 큰 모델이나 더 많은 인간 데이터로 무작정 밀어붙이는 대신, 정책을 적절한 추상화 수준에서 조종 가능하게 설계하면 자율적 데이터 수집의 문이 열린다는 것이다. 물론 VLM이 제안하는 저수준 제어의 신뢰성, 자동 시도의 안전성, 실패 사례의 처리 같은 현실적 과제는 남아 있다. 그러나 원시 동작 조종성을 지속적 학습의 실용적 토대로 제시했다는 점에서, 이 연구는 VLA가 고정된 능력 집합을 벗어나 스스로 성장하는 정책으로 나아가는 한 가지 설득력 있는 경로를 보여 준다.