희소 결과 신호의 이중 함정, 계층적 어드밴티지로 로봇 정책 도약

실제 환경에서 로봇이 에피소드마다 얻는 정보는 성공 혹은 실패 하나뿐이다. 이 단일 신호가 '성공 가능성'과 '효율성'이라는 전혀 다른 두 목표를 뒤섞고, 사람 개입 구간까지 오염시킨다는 사실을 HABC가 명쾌하게 짚어낸다. 두 개의 독립 비평가와 상태 적응형 게이트로 이 구조적 문제를 풀자, 접촉 과제 성공률이 최대 세 배 이상 뛰어올랐다.

로봇 공학에서 가장 빠르게 진화하는 영역 중 하나는 VLA, 즉 시각-언어-행동 모델이다. 대규모 사전학습 아키텍처 위에 로봇의 감각과 운동을 얹은 이 모델들은, 방대한 텔레오퍼레이션 데모로 초기 학습을 마친 뒤 특정 작업에 맞춰 미세조정된다. 그런데 실제 환경에서 온라인 강화학습으로 정책을 개선할 때 우리가 얻을 수 있는 피드백은 단순하다. 이 에피소드가 성공했는가, 실패했는가. 이 이진 신호 하나로 수백 개의 개별 행동 전환 하나하나를 학습시켜야 한다는 것이 온라인 강화학습 미세조정이 직면하는 근본적인 긴장이다.

하나의 신호가 두 개의 목표를 담당할 수 없다

성공 여부를 단일 스칼라 보상으로 압축해서 학습하는 기존 방식에는 두 가지 구조적 결함이 있다. 첫째, 성공이라는 개념 안에는 서로 다른 두 목표가 뒤섞여 있다. 로봇이 어찌어찌 과제를 완수했다는 사실, 즉 생존 가능성(viability)과, 그 과제를 얼마나 빠르고 매끄럽게 완수했다는 사실, 즉 효율성(efficiency)이다. 학습 초기에는 성공 자체가 희귀하기 때문에 생존 가능성 신호가 학습을 이끄는 것이 맞다. 그러나 기본 성공이 어느 정도 달성되면, 이진 레이블은 느리게 성공한 에피소드와 빠르게 성공한 에피소드를 전혀 구별하지 못한다. 그라디언트는 점점 의미를 잃고, 학습은 정체된다.

둘째, 실제 로봇 학습에서는 인간이 중간에 개입하는 일이 불가피하다. 로봇이 위험 상황에 놓이면 조작자가 잠시 제어권을 가져가고, 안정되면 다시 자율 모드로 돌아온다. 그런데 에피소드 전체의 성공/실패 레이블을 개입 구간에도 그대로 적용하면, 로봇은 사람이 대신 수행한 동작에 대해서도 보상이나 처벌을 받는다고 학습한다. 이것이 잘못된 크레딧 할당으로, 학습 신호를 근본부터 오염시키는 문제다.

HABC가 제안하는 계층적 해법

이 논문이 제안하는 HABC(Hierarchical Advantage-Weighted Behavior Cloning)는 이 두 문제를 명시적으로 분리해서 다룬다. 핵심 아이디어는 단일 비평가 대신 두 개의 독립적인 비평가 헤드를 운용하는 것이다. 생존 가능성 비평가는 에피소드 전체에서 자율 구간만을 골라, 해당 상태가 최종 성공으로 이어지는 경로 위에 있는지를 평가한다. 효율성 비평가는 성공한 에피소드의 자율 구간만을 훈련 데이터로 삼아, 같은 성공이라도 얼마나 빠르고 깔끔하게 달성했는지를 평가한다. 두 비평가는 전혀 다른 데이터 부분집합으로 학습되며, 각자의 영역에 집중한다.

두 비평가의 출력은 상태 적응형 게이트를 통해 결합된다. 로봇이 성공 여부가 불확실한 상태에 있을 때는 게이트가 생존 가능성 신호에 가중치를 준다. 성공 확률이 충분히 높아진 상태에서야 비로소 효율성 신호가 주도권을 갖는다. 이 결합된 어드밴티지 값은 행동 클로닝 손실의 전환별 가중치로 변환되어, 학습 가치가 높은 전환에는 강한 신호를, 낮은 전환에는 약한 신호를 할당한다. 개입 인식 크레딧 할당은 현재 정책이 실제로 수행한 자율 구간에만 결과 레이블을 적용하고, 개입 구간은 감독 신호에서 완전히 배제함으로써 오염을 차단한다.

실제 로봇 실험 결과는 인상적이다. 정밀한 힘 제어와 양팔 협조를 동시에 요구하는 접촉이 풍부한 세 가지 양손 조작 과제에서, 감독 미세조정 기준선의 성공률은 각각 36%, 44%, 12%였다. HABC를 적용한 뒤 이 수치는 92%, 88%, 38%로 뛰어올랐다. 가장 어려운 세 번째 과제에서 세 배 이상의 성공률 향상은, 하이퍼파라미터 조정으로 얻을 수 있는 수준의 개선이 아니다. 학습 신호 자체의 구조를 바꿨을 때만 얻을 수 있는 종류의 도약이다.

HABC가 열어두는 질문은 명확하다. 실제 배포 환경에서 로봇 학습의 병목은 종종 보상 신호의 설계 자체에 있다. 성공과 효율이라는 두 목표를 하나의 숫자로 뭉개는 것이 왜 문제인지, 그리고 그것을 어떻게 풀 수 있는지를 이 연구는 단순하면서도 강력한 방식으로 보여준다. 앞으로 더 복잡한 다목적 로봇 과제에서 이 아이디어가 어떻게 확장될지, 그리고 개입 구간을 명시적으로 추적하는 이 접근이 더 긴 시간 지평의 과제에서도 같은 효과를 낼 수 있을지가 주목된다.