AI · Web3 · Tech trends and insights at a glance
AI · Web3 · Tech trends and insights at a glance
by Liminal·P
2026.06.02원문 논문 ↗
Permissive Safety Through Trusted Inference: Verifiable Belief-Space Neural Safety Filters for Assured Interactive Robotics
Haimin Hu
발행일: 2026.06.01
사람 곁에서 움직이는 자율 로봇은 인간의 의도라는 불확실성을 끊임없이 추론하며 안전을 유지해야 한다. 이 논문은 런타임 추론 모듈이 신뢰할 수 있는 영역에 집중해 등각 예측으로 안전을 인증함으로써, 지나치게 보수적이지 않으면서도 형식적으로 보증된 믿음 공간 안전 필터를 처음으로 실현했다.
자율 로봇이 사람 곁에서 작동한다는 것은 단순히 충돌을 피하는 것 이상을 의미한다. 사람은 예측 불가능한 존재다. 보행자는 갑자기 방향을 바꾸고, 운전자는 양보할 것처럼 속도를 낮추다가 다시 가속한다. 협업 로봇은 동료의 다음 동작 의도를 끊임없이 갱신해야 한다. 이 불확실성은 물리적 공간의 문제가 아니라 인식과 추론의 문제다. 그래서 연구자들은 성능에 관여하는 제어기와 안전을 담당하는 모듈을 분리하는 '안전 필터(safety filter)'라는 개념을 발전시켜왔다. 로봇이 최대한 자유롭게 작업을 수행하면서도 위험한 상황에서만 개입하는 이 모듈식 설계는 현재 인간-로봇 상호작용 연구의 핵심 패러다임 중 하나다.
전통적인 안전 필터는 물리적 상태 공간에서 작동한다. 로봇의 위치와 속도, 장애물까지의 거리 같은 측정 가능한 변수들을 기반으로 안전 경계를 정의한다. 하지만 사람의 의도나 협력 의지는 직접 측정할 수 없다. 이를 해결하기 위해 등장한 것이 믿음 공간 안전 필터(BeliefSF)다. 믿음 공간이란 로봇이 인간의 내적 상태에 대해 갖는 확률 분포의 공간이다. 예를 들어 '이 자동차 운전자가 양보할 확률 70%, 계속 진행할 확률 30%'라는 식의 믿음 상태가 물리적 위치와 함께 로봇의 상태 표현을 구성한다.
BeliefSF의 핵심 아이디어는 로봇이 실시간으로 추론을 수행하면서 이 불확실성을 능동적으로 줄이는 과정을 안전 필터 내에 통합하는 것이다. 로봇이 관찰을 통해 인간의 의도에 대한 믿음을 갱신할수록 안전 필터는 덜 보수적으로 작동할 수 있다. 모든 가능성을 최악의 시나리오로 대비하는 대신, 점점 더 정확해지는 추론 결과를 바탕으로 더 좁은 안전 마진을 유지하는 것이다. 이는 로봇이 필요 이상으로 제동하거나 우회하지 않아도 되어 작업 효율을 크게 높인다.
그러나 BeliefSF에는 결정적인 약점이 있었다. 형식적 안전 보증(formal safety guarantee)을 제공하기가 매우 어렵다는 점이다. 런타임 추론 모듈은 완벽하지 않다. 고차원 믿음 공간을 다루기 위해 신경망으로 근사된 필터는 오차를 발생시킨다. 이 두 가지 오류 원천이 겹치면, 이론적으로 설계된 안전 필터가 실제 배치 환경에서 얼마나 안전성을 보장하는지 알 수 없게 된다. 안전이 보장되지 않는 안전 필터는 이름뿐인 장치다.
Haimin Hu가 이번 논문에서 제안한 접근법의 핵심은 등각 예측(conformal prediction)이라는 통계적 기법을 BeliefSF 인증에 적용하되, '신뢰 추론(trusted inference)'이라는 개념을 통해 인증의 보수성을 획기적으로 줄인 데 있다. 등각 예측은 머신러닝 모델의 예측에 분포 무관(distribution-free) 확률 보장을 부여하는 방법으로, 충분한 교정 데이터만 있으면 '이 예측이 틀릴 확률은 최대 ε'라고 통계적으로 보장할 수 있다. 안전-critical 시스템 검증 분야에서 최근 주목받는 기법이다.
하지만 단순히 등각 예측을 BeliefSF 전체에 균일하게 적용하면, 최악의 추론 오류까지 감안한 매우 넓은 안전 마진을 설정해야 한다. 이는 BeliefSF가 가져다주는 유연성을 상쇄하는 과보수성(over-conservativeness) 문제를 낳는다. 이 논문의 진짜 기여는 런타임 추론이 믿음 공간의 모든 지점에서 동일한 신뢰도를 갖지 않는다는 사실에 착안한 데 있다. 어떤 믿음 상태에서는 추론이 매우 신뢰할 만하고, 다른 상태에서는 불확실하다.
이 통찰을 바탕으로 저자는 검증의 초점을 '추론이 신뢰할 수 있는 영역'에 한정한다. 신뢰 영역 내에서는 좁은 안전 마진으로도 형식적 인증을 통과할 수 있으며, 신뢰 영역 밖에서는 보수적인 대체 필터가 자동으로 작동한다. 이 분리 전략은 표준 등각 예측의 단순성과 샘플 복잡성을 그대로 유지하면서도, 전체적으로 훨씬 허용적인(permissive) 안전 필터를 공식 인증할 수 있게 한다. 인간-차량 상호작용 시뮬레이션 벤치마크 실험에서 이 접근법은 표준 등각 예측 기반 방법보다 유의미하게 덜 보수적인 안전 필터를 인증하는 데 성공했다.
인간과 함께하는 자율 로봇의 미래는 안전과 효율의 균형을 어떻게 형식적으로 보증하느냐에 달려 있다. '안전하면 느리고, 빠르면 위험하다'는 이분법을 넘어서기 위해서는 로봇이 상황을 얼마나 잘 이해하고 있는지를 안전 보증의 근거로 활용하는 발상의 전환이 필요하다. 이 논문이 제안한 신뢰 추론 기반 인증 프레임워크는 그 방향으로의 중요한 진전이다. 자율주행, 의료 보조 로봇, 공장 협동 로봇 등 인간과 긴밀히 상호작용하는 시스템 전반에 걸쳐, 불확실성 속에서도 공식적으로 보증된 안전성을 달성하는 길을 열어가고 있다.