손가락 단위 행동 소유권으로 기술 충돌 해소, 단일 손 멀티태스크 조작의 새 길

한 손으로 컵을 쥔 채 뚜껑을 돌리려는 순간, 두 기술은 같은 손가락을 두고 다투기 시작한다. DexCompose는 손가락마다 누가 그 동작의 주인인지를 명시적으로 정해, 이미 학습된 정책 두 개를 다시 훈련하지 않고도 복합 과제를 풀어낸다. 16개 합성 과제에서 평균 77.4%의 성공률은 정책 사슬 잇기를 넘어선 조합 방식의 가능성을 보여준다.

사람은 한 손으로 병을 단단히 쥔 채 다른 손가락으로 뚜껑을 비틀어 연다. 쥐는 일과 비트는 일이 같은 손 안에서 동시에 일어나지만 서로를 방해하지 않는다. 그러나 로봇의 다지(多指) 손에서 이 단순해 보이는 협응은 의외로 어려운 문제다. 개별 조작 기술을 푸는 정책은 이미 강화학습으로 꽤 잘 만들 수 있지만, 그렇게 학습된 기술 두 개를 한 손 위에 겹쳐 올리는 순간 문제가 생긴다. 기존 기술을 유지하는 데 필요한 손가락과 새 과제를 수행하는 데 필요한 손가락이 겹치고, 접촉 방식이 충돌하면서 한쪽을 살리면 다른 쪽이 무너지는 파괴적 간섭이 일어난다. Dihong Huang을 비롯한 연구진이 제안한 DexCompose는 바로 이 겹침의 문제를 정면으로 다룬다.

손가락마다 주인을 정한다

DexCompose의 핵심 발상은 행동 공간을 손가락 단위로 쪼개어 각 부분에 명시적인 소유권을 부여하는 것이다. 연구진은 이를 역할 인식 잔차 조합(role-aware residual composition)이라 부른다. 출발점은 이미 학습된 두 개의 전체 손 정책이다. 하나는 물체를 유지하는 기술, 다른 하나는 그 위에서 수행할 후속 상호작용이다. DexCompose는 먼저 첫 번째 기술이 성공적으로 끝난 직후의 상태들을 모은 뒤, 후보가 되는 손가락 마스크들을 하나씩 풀어 보는 해제 시험(release test)을 수행한다. 어떤 손가락을 놓아도 기술 상태가 유지된다면 그 손가락은 자유롭고, 놓는 순간 물체가 무너진다면 그 손가락은 첫 기술을 위해 반드시 붙들고 있어야 한다는 뜻이다. 이렇게 손가락마다 어느 과제가 그 동작의 주인인지를 데이터로 가려낸다.

소유권이 정해지면 두 개의 비대칭 잔차 모듈이 훈련된다. 하나는 기존 기술을 보존하기 위한 경계가 있는 잔차 안정기로, 첫 과제를 책임진 손가락들이 흔들리지 않도록 작은 보정만 더한다. 다른 하나는 맥락을 인식하는 잔차로, 얼어붙은 후속 정책을 새 과제에 할당된 행동 부분공간 안에서만 적응시킨다. 두 모듈이 비대칭이라는 점이 중요하다. 보존은 최소한의 안정화로 충분하지만 새 과제는 상황에 맞는 능동적 조정이 필요하기 때문이다. 손가락이라는 물리적 단위에 행동의 책임을 묶어 둠으로써, 두 정책은 같은 손을 공유하면서도 서로의 영역을 침범하지 않는다.

정책 사슬 잇기를 넘어서

연구진은 네 가지 물체 유지 기술과 네 가지 후속 상호작용을 조합한 16개의 복합 조작 과제에서 이 틀을 검증해 평균 77.4%의 성공률을 얻었다. 그동안 다수의 기술을 이어 붙이는 방식은 대개 정책 사슬 잇기, 즉 한 기술을 끝내고 다음 기술로 넘어가는 순차적 전환에 의존해 왔다. 그러나 한 손으로 물체를 계속 붙든 채 동시에 다른 조작을 해야 하는 상황에서는 이런 순차적 접근이 통하지 않는다. 두 기술이 시간적으로 겹쳐 흐르기 때문이다.

DexCompose가 보여 주는 더 큰 함의는 학습된 정책을 버리지 않고 재사용한다는 데 있다. 새 과제가 생길 때마다 전체를 처음부터 다시 훈련하는 대신, 기존 정책을 얼린 채 손가락 단위 소유권과 잔차 보정만으로 조합한다. 이는 다지 손이 풀 수 있는 기술의 가짓수가 늘어날수록 조합의 경우의 수가 폭발하는 문제에 대한 현실적인 답이 될 수 있다. 물론 77.4%라는 수치는 아직 실전 배치를 말하기엔 이르고, 해제 시험이 깔끔하게 손가락을 나눌 수 없는 미묘한 접촉 상황에서는 한계가 드러날 수 있다. 그럼에도 구조적 행동 소유권이라는 발상은, 손재주를 가진 로봇이 늘어나는 기술을 어떻게 충돌 없이 쌓아 갈 것인가라는 질문에 분명한 방향 하나를 제시한다.