행동을 먼저 배우는 로봇, 크로스 임바디먼트 조작의 백지 출발 극복

VLA 모델은 시각과 언어는 거대 모델에서 물려받지만, 정작 움직임만은 매번 맨땅에서 배운다. 이 논문은 행동 모듈에 먼저 '움직임 사전지식'을 심어 넣는 2단계 학습으로, 특히 데이터가 귀한 실제 로봇 작업에서 수렴 속도와 성공률을 끌어올린다.

로봇에게 "저 컵을 집어 식탁에 올려라"는 문장을 알아듣게 하는 일과, 그 문장을 실제 관절의 연속적인 움직임으로 옮기는 일은 전혀 다른 차원의 문제다. 최근 로봇 학습의 주류로 자리 잡은 VLA(Vision-Language-Action) 모델은 이 두 문제를 하나의 정책 안에 한꺼번에 욱여넣는다. 대개 강력한 시각·언어 모델(VLM)을 백본으로 삼고, 그 위에 행동을 출력하는 모듈을 덧붙인 뒤 전체를 한 번에 학습시키는 방식이다. 겉보기에는 깔끔하지만, 이 구조에는 근본적인 비대칭이 숨어 있다.

시각·언어는 물려받고, 움직임은 맨땅에서

백본으로 쓰이는 VLM은 이미 방대한 이미지와 텍스트로 사전학습되어, 장면을 이해하고 지시문을 해석하는 풍부한 사전지식을 갖추고 있다. 문제는 새로 붙인 행동 모듈이다. 이 부분은 물려받을 것이 없어, 시간에 따라 이어지는 동작의 구조를 사실상 백지에서 익혀야 한다. 그 결과 학습 초기의 행동 모듈은 두 가지 어려운 일을 동시에 떠안는다. 하나는 동작이 시간 축에서 어떻게 전개되는지에 대한 물리적 감각을 찾아내는 일이고, 다른 하나는 그 동작을 시각·언어 표현과 정렬시키는 일이다. 한쪽도 만만치 않은데 둘을 한꺼번에 해내야 하니 최적화가 흔들린다.

이 어려움은 크로스 임바디먼트, 즉 서로 다른 형태와 자유도를 가진 여러 로봇의 데이터를 함께 다룰 때 한층 증폭된다. 팔의 길이도 관절 수도 제어 방식도 제각각인 데이터가 섞이면, 행동 공간 자체가 들쭉날쭉해져 안정적인 표현을 잡기가 더 어려워진다. 저자들은 바로 이 지점을 파고든다. 시각과 언어에는 사전지식이 있는데 왜 움직임에는 없는가. 그렇다면 움직임에도 사전지식을 먼저 심어 주면 되지 않겠는가.

움직임을 먼저 배우고, 정렬은 나중에

해법은 학습을 두 단계로 쪼개는 것이다. 첫 단계에서는 시각도 언어도 일절 건드리지 않는다. 이미지 토큰도 텍스트 토큰도 처리하지 않고, 오직 조건 없는 행동 궤적, 즉 로봇이 그려 온 움직임의 시퀀스만 가지고 가벼운 인코더-디코더 행동 모듈을 학습시킨다. 이 모듈은 플로우 매칭(flow matching) 방식으로, 여러 로봇에 걸친 시간적 동작 구조를 효율적으로 압축해 담아낸다. 시각·언어라는 무거운 짐을 내려놓은 덕에 움직임 그 자체의 결을 빠르고 깨끗하게 익힐 수 있다는 것이 핵심 발상이다.

두 번째 단계에서 이 사전지식을 VLA 학습으로 옮긴다. 1단계에서 익힌 디코더를 그대로 재사용하고, 학습 초반에는 잠재 표현 증류(latent distillation)를 통해 시각·언어 특징을 이미 자리 잡은 행동 임베딩 공간에 끌어다 정렬시킨다. 그러면서도 전체 정책은 끝까지 함께 미세조정되도록 열어 둔다. 움직임의 뼈대를 먼저 세워 놓은 뒤, 시각·언어를 그 뼈대에 맞춰 붙이는 셈이다. 덤으로 1단계에서 학습된 인코더는 상태와 행동의 누적 이력을 단 하나의 시간 맥락 토큰으로 요약하는 압축기 역할까지 한다. 거의 비용을 들이지 않고 이력을 인지하는 모델링이 가능해지는 것이다.

적은 데이터의 현실에서 빛나는 사전지식

저자들은 시뮬레이션과 실제 로봇 플랫폼을 아우르는 13개의 다양한 크로스 임바디먼트 작업에서 이 접근을 검증했다. 행동 사전지식 없이 학습한 VLA와 비교했을 때, 제안 모델은 더 빠르게 수렴하고 더 높은 성공률을 기록했다. 특히 인상적인 대목은 데이터가 귀한 실제 로봇 작업에서의 격차다. 실세계 데이터는 수집 비용이 크고 양이 적기 마련인데, 바로 이런 환경에서 미리 심어 둔 움직임 사전지식이 큰 힘을 발휘했다. 백지에서 출발한 모델이 적은 데이터로는 좀처럼 잡아내지 못하던 동작 구조를, 사전학습된 모듈은 이미 알고 시작하기 때문이다.

더 나아가 1단계의 행동 데이터를 늘리면, 더 일반화된 사전지식이 만들어지고 그것이 곧장 하류 VLA 성능 향상으로 이어졌다. 이는 움직임 사전학습이 단발성 요령이 아니라 데이터 규모에 따라 함께 자라는 확장 가능한 축이라는 점을 시사한다. 언어 모델이 방대한 텍스트로 먼저 세상을 익힌 뒤 과제에 적응하듯, 로봇의 행동 모듈도 풍부한 궤적으로 움직임을 먼저 익혀 두면 정작 시각·언어와 만나는 순간에 한결 수월하게 출발할 수 있다는 것이다. VLA 연구가 더 큰 백본과 더 많은 멀티모달 데이터로만 치닫던 흐름 속에서, 정작 가장 홀대받던 행동 모듈에 사전지식을 돌려주자는 이 제안은 방향 전환의 단서로 읽힌다.