AI · Web3 · Tech trends and insights at a glance
AI · Web3 · Tech trends and insights at a glance
by Liminal·P
2026.06.30원문 논문 ↗
VLK: Learning Humanoid Loco-Manipulation from Synthetic Interactions in Reconstructed Scenes
Yen-Jen Wang, Jiaman Li, Sirui Chen, Takara E. Truong, Pei Xu, Pieter Abbeel
발행일: 2026.06.29
로봇이 눈으로 보고 말을 알아듣고 온몸을 움직이려면 세 가지가 한꺼번에 맞물린 데이터가 필요하지만, 그런 데이터셋은 세상에 없었다. VLK는 가우시안 스플래팅으로 실내를 통째로 복원한 뒤 그 안에서 행동을 먼저 만들고 시점 영상을 나중에 렌더링하는 방식으로 사람 개입 없이 4만 8천 개의 학습 궤적을 찍어냈다.
휴머노이드 로봇이 거실을 가로질러 가서 탁자 위 물건을 집어 다른 곳으로 옮기는 일은 사람에게는 사소하지만 로봇에게는 세 개의 세계를 한꺼번에 잇는 문제다. 카메라에 들어오는 1인칭 시점의 영상, "저 물건을 옮겨라" 같은 언어 명령, 그리고 그 명령을 수행하기 위해 다리와 허리와 팔이 그려야 하는 온몸의 운동 궤적이 그것이다. 인지 기반 로코-매니퓰레이션을 학습시킨다는 것은 결국 이 세 가지의 대응 관계를 신경망에 새겨 넣는 일인데, 문제는 이 셋이 시간적으로 정확히 동기화된 데이터가 대규모로 존재하지 않는다는 데 있다. 모션 캡처는 사람의 움직임을 주지만 로봇의 관절 구조와 맞지 않고, 원격 조종 데이터는 비싸고 느리며, 시뮬레이터는 그럴듯한 영상을 주지 못한다. 버클리와 스탠퍼드 연구진이 내놓은 VLK는 바로 이 빈칸을 메우려는 시도다.
VLK의 핵심 발상은 데이터 수집의 순서를 뒤집은 데 있다. 보통은 로봇이나 사람이 실제로 움직이는 동안 카메라로 그 장면을 찍어 영상과 행동을 함께 기록한다. 연구진은 반대로 했다. 먼저 3D 가우시안 스플래팅으로 실제 실내 공간을 미터 단위 척도까지 정확하게 복원한다. 이렇게 만들어진 디지털 공간 안에서는 가구의 위치, 물체의 정확한 좌표, 통행 가능한 경로 같은 이른바 특권 정보를 마음껏 들여다볼 수 있다. 연구진은 이 특권 정보를 이용해 이동 궤적과 물체 조작 궤적을 알고리즘으로 합성한다. 즉 로봇이 어디로 걸어가 무엇을 어떻게 집어야 하는지를 장면의 전모를 아는 상태에서 깔끔하게 설계하는 것이다. 그런 다음에야 그 궤적을 따라가는 가상의 머리 위치에서 1인칭 시점 영상을 사후에 렌더링한다. 행동이 먼저 결정되고 그 행동에 대응하는 시각 관측이 나중에 그려지는 순서다. 가우시안 스플래팅이 만들어내는 영상이 실사에 가깝기 때문에, 이렇게 합성된 시점 영상은 실제 로봇 카메라가 보게 될 화면과 충분히 닮아 있다.
이 파이프라인은 사람의 개입을 한 번도 요구하지 않은 채 4만 8천 쌍의 궤적을 찍어냈다. 데이터 한 건마다 동기화된 1인칭 영상과 언어 명령, 그리고 로봇이 그대로 따라 할 수 있는 운동학적 궤적이 묶여 있다. 세상에 없던 형태의 데이터셋이 사람의 노동 없이 자동으로 생성된 것이다.
이렇게 모은 데이터로 연구진은 VLK 정책을 학습시킨다. 이 정책은 현재의 시점 영상과 언어 명령을 받아 짧은 시간 구간의 온몸 운동학 궤적을 예측한다. 다만 운동학 궤적은 "몸이 이런 자세를 거쳐야 한다"는 청사진일 뿐 실제 모터를 어떻게 돌릴지는 말해주지 않는다. 그 간극을 메우는 것이 별도의 전신 추적기로, 예측된 궤적을 실제 휴머노이드의 관절 명령으로 변환한다. 연구진은 이 전체 시스템을 실물 유니트리 G1 로봇에 올려 이동과 단일 물체 운반 과제를 수행시켰고, 복원된 장면 속에서 합성한 상호작용이 시뮬레이션을 넘어 실물 로봇의 인지 기반 동작 학습에 실제로 유효한 지도 신호가 됨을 보였다.
물론 한계는 분명하다. 검증된 과제는 이동과 한 개 물체 운반에 머물러 있고, 여러 물체를 다루거나 정교한 양손 조작으로 가면 합성 궤적 설계의 난이도가 급격히 올라갈 것이다. 그러나 이 논문이 던지는 메시지는 특정 과제의 성공률이 아니라 데이터 생산 방식 그 자체에 있다. 로봇 학습의 가장 큰 병목은 늘 데이터였고, VLK는 사람의 손을 거치지 않고도 시각·언어·운동이 한 몸으로 묶인 데이터를 공장처럼 찍어낼 수 있음을 보였다. 복원된 현실 위에서 행동을 설계하고 시점을 사후에 그리는 이 역발상은, 휴머노이드를 실험실 밖으로 데리고 나오는 데 필요한 데이터 규모를 확보하는 한 가지 현실적인 경로를 제시한다.