힘 센서 없는 로봇 팔, 신경망 토크 추정으로 접촉 조작 학습 혁신

전용 힘 센서는 비싸고, 대부분의 상용 로봇 팔에는 없다. NEXT는 10분의 자유 동작 데이터로 1분 만에 외부 토크를 추정하는 신경망을 훈련해, 값비싼 하드웨어 없이 힘 피드백을 구현한다. 이를 기반으로 한 FIRST 알고리즘은 접촉 순간을 강조한 재샘플링으로 기존 힘 인식 정책 대비 17% 이상의 성능 향상을 이뤄냈다.

로봇이 물체를 집거나 조립하거나 뚜껑을 여는 일처럼, 물리적 접촉이 핵심인 조작 작업에서는 힘 감각이 필수적이다. 인간은 손끝의 촉각 수용체를 통해 접촉 순간을 즉각 인지하고 힘을 조절하지만, 대부분의 상용 로봇 팔은 이런 감각 기관을 갖추지 못했다. 전용 힘·토크 센서는 수백만 원에서 수천만 원에 달하는 가격 탓에 고가 산업용 로봇에만 탑재되고, 연구 목적으로 도입하는 저비용 로봇 팔에는 빠진 경우가 대부분이다. 이 간극이 로봇 조작 연구의 현실적인 장벽이었다.

NEXT: 자유 동작으로 내면 역학을 배워 힘을 추론하다

NEXT(Neural External Torque Estimation)는 이 문제를 정면으로 우회한다. 핵심 아이디어는 간결하다. 로봇 팔이 아무것도 만지지 않고 공중에서 자유롭게 움직일 때, 각 관절에 걸리는 토크는 팔 자체의 질량, 관성, 마찰, 중력에 의해 완전히 결정된다. 이 '기대 토크'를 신경망으로 모델링해 두면, 이후 실제 접촉 상황에서 측정된 토크와 기대 토크의 차이가 곧 외부에서 가해진 힘의 크기를 나타낸다.

훈련에 필요한 데이터는 단 10분 분량의 자유 동작이다. 사람이 로봇 팔을 이리저리 움직이거나 관절 공간을 무작위로 탐색하면 충분하고, 접촉 데이터나 별도 레이블이 전혀 필요하지 않다. 이 데이터로 신경망을 학습시키는 데 걸리는 시간은 고작 1분이다. 새 로봇에 도입할 때 추가 공수가 거의 들지 않는다는 뜻이다. 논문은 이렇게 훈련된 NEXT의 추정 정밀도가 전용 관절 토크 센서와 견줄 만한 수준임을 실험으로 보였다.

이 방식은 기존의 모델 기반 외란 관측기(disturbance observer)와 달리, 로봇의 정밀한 동역학 모델 없이도 작동한다. 정밀 모델 구축에는 전문 지식과 상당한 시간이 필요하지만, NEXT는 데이터에서 직접 역학을 학습해 그 과정을 건너뛴다. 상용 로봇 팔에 적용하기 훨씬 쉬운 이유다.

FIRST: 접촉 순간을 강조한 행동 복제 재설계

힘 추정 신호를 얻었다고 해서 정책 학습이 자동으로 개선되는 것은 아니다. 문제는 데이터 분포에 있다. 장기 과제(long-horizon task) 시연 데이터를 수집하면 대부분의 시간은 물체에 접근하는 자유 공간 동작으로 채워지고, 실제 접촉이 발생하는 구간은 짧고 드물다. 표준 행동 복제(behavior cloning)에서는 이 불균형 탓에 신경망이 접촉 전후의 미묘한 힘 변화를 충분히 학습하지 못한다.

FIRST(Force-Informed Re-Sampling Training)는 이 불균형을 직접 교정한다. NEXT가 추출한 외부 토크 신호를 기준으로, 훈련 데이터에서 접촉 직전 구간과 접촉 구간을 더 높은 빈도로 샘플링한다. 데이터 자체를 새로 수집하거나 레이블을 붙이는 것이 아니라, 기존 데이터 안에서 중요한 구간에 학습 가중치를 집중시키는 방식이다. 힘 신호가 이 과정을 자동으로 안내하기 때문에 추가 인력이 필요하지 않다.

다섯 가지 장기 조작 과제에 대한 실험에서 FIRST는 기존 힘 인식 정책 학습 방법들보다 과제 진행도에서 17% 이상 높은 성과를 보였다. 힘 정보를 단순히 입력에 추가하는 것과, 힘 정보로 학습 분포를 재조정하는 것 사이에는 분명한 차이가 있음을 보여주는 결과다.

조작 로봇 연구의 진입 장벽을 낮추다

NEXT와 FIRST가 함께 가져오는 함의는 기술적 성능 숫자 이상이다. 연구자가 저비용 로봇 팔로 접촉이 많은 조작 과제를 연구하려 할 때, 지금까지는 힘 센서가 없다는 이유만으로 연구 범위를 좁혀야 했다. NEXT는 그 제약을 하드웨어가 아닌 소프트웨어 차원에서 해소한다. 코드와 사전 학습 모델이 공개되어 있어, 새 로봇 팔에 15분 안에 힘 추정 기능을 붙일 수 있다.

원격 조작(teleoperation) 시나리오에서도 의미가 있다. 조작자가 로봇 팔을 원격으로 제어할 때 힘 피드백이 없으면 과도한 힘을 가하거나 물체를 놓치기 쉽다. NEXT의 실시간 토크 추정은 원격 조작 인터페이스에 힘 피드백을 더해 더 정교한 시연 데이터를 수집할 수 있게 한다. 데이터 품질이 높아지면 그 위에서 학습하는 FIRST의 효과도 커진다. 두 방법이 서로를 강화하는 구조다. 로봇이 손끝으로 세상을 느끼는 방법이 반드시 값비싼 하드웨어일 필요는 없다는 것을 이 연구는 설득력 있게 보여준다.