AI · Web3 · Tech trends and insights at a glance
AI · Web3 · Tech trends and insights at a glance
by Liminal·P
2026.06.28원문 논문 ↗
Hallucination in World Models is Predictable and Preventable
Nicklas Hansen, Xiaolong Wang
발행일: 2026.06.25
생성형 월드 모델은 점점 더 그럴듯한 미래를 그려내지만, 화면은 매끄러운데 물리 법칙은 어긋나는 '환각'에 자주 빠진다. UC 샌디에이고 연구진은 이 환각이 무작위가 아니라 학습 데이터가 비어 있는 영역에 집중된다는 사실을 보이고, 환각이 일어날 지점을 미리 짚어내는 신호를 그대로 처방에 활용한다. 단 50개의 실제 궤적만으로 낯선 환경에 적응하는 길이 여기서 열린다.
인공지능이 행동에 따라 변하는 미래의 영상을 직접 생성해내는 이른바 월드 모델은 최근 로보틱스와 강화학습 분야에서 가장 빠르게 발전하는 기술 가운데 하나다. 에이전트가 실제 세계에서 무수히 시행착오를 겪는 대신, 머릿속에서 '이 손을 이렇게 움직이면 컵이 저렇게 쓰러질 것'이라는 시뮬레이션을 돌려보고 계획을 세울 수 있기 때문이다. 그런데 이 모델들에는 묘한 약점이 있다. 생성된 영상은 더없이 사실적이고 매끄러운데, 정작 그 안에서 일어나는 물리적 인과는 진짜 세계의 규칙에서 슬그머니 벗어나곤 한다. 화면은 그럴듯한데 내용은 틀린 이 현상을 연구자들은 환각이라 부른다. Nicklas Hansen과 Xiaolong Wang의 새 논문은 이 환각이 통제 불가능한 잡음이 아니라, 예측 가능하고 따라서 예방 가능한 결함이라고 주장한다.
논문의 출발점은 단순하면서도 강력한 가설이다. 환각은 모델이 무작위로 일으키는 오류가 아니라, 학습 데이터가 거의 닿지 않은 상태-행동 공간의 저밀도 영역에 집중적으로 발생한다는 것이다. 모델이 충분히 많이 본 상황에서는 다음 장면을 정확히 그려내지만, 데이터가 비어 있는 구석으로 들어서는 순간 모델은 자신이 학습한 시각적 그럴듯함만을 유지한 채 실제 동역학에서 미끄러진다. 이 가설을 검증하기 위해 연구진은 MMBench2라는 대규모 벤치마크를 새로 구축했다. 427시간 분량, 210개 과제로 이루어진 이 데이터셋은 단순한 영상 모음이 아니라 정답에 해당하는 행동과 보상, 그리고 살아 있는 시뮬레이터까지 함께 제공한다는 점에서 특별하다. 덕분에 생성된 미래가 진짜 동역학에서 얼마나 벗어났는지를 정량적으로 채점할 수 있다. 연구진은 이 위에서 3억 5천만 파라미터 규모의 월드 모델을 학습시켜 환각을 현미경으로 들여다본다.
분석 결과 환각은 한 덩어리가 아니라 파이프라인의 서로 다른 단계에 뿌리를 둔 세 가지 양상으로 나뉘었다. 지각 단계에서 발생하는 환각, 행동 정보가 흐려지면서 생기는 환각, 그리고 장면 전체가 진실에서 발산해버리는 환각이 그것이다. 각각이 모델 내부의 다른 길목에서 비롯되기 때문에, 연구진은 단계마다 어디에서 모델이 실패할지를 미리 짚어내는 세 개의 경량 신호를 설계할 수 있었다. 무거운 추가 모델을 붙이는 대신 데이터의 커버리지에 기반한 가벼운 지표만으로 환각의 좌표를 예측한다는 점이 이 접근의 핵심이다. 환각이 데이터 공백의 문제라면, 그 공백의 위치를 가리키는 신호가 곧 환각의 예보가 되는 셈이다.
이 논문이 가장 빛나는 대목은 탐지와 완화를 하나의 신호로 통합했다는 데 있다. 학습 단계에서는 커버리지를 의식한 샘플링 기법으로 데이터가 부족한 영역을 골라 메운다. 더 흥미로운 것은 온라인 단계다. 환각 예측기가 내놓는 신호를 호기심 보상으로 재활용해, 에이전트가 스스로 데이터가 비어 있는 위험 지대를 향해 탐험하도록 유도하는 것이다. 모델이 가장 자신 없어 하는 곳을 정확히 겨냥해 새 경험을 수집하니, 적은 데이터로도 빈틈이 빠르게 메워진다. 그 결과 사전학습된 월드 모델은 단 50개의 실제 환경 궤적만으로 전혀 본 적 없는 환경에 적응했다. 데이터 효율이 생명인 로보틱스 현장에서 이 숫자는 결코 작지 않다. 환각을 막연한 신비가 아니라 데이터 커버리지라는 측정 가능한 문제로 재정의하고, 그것을 진단하는 도구를 그대로 치료에 쓸 수 있음을 보였다는 점에서, 이 연구는 월드 모델을 신뢰할 수 있는 계획 엔진으로 끌어올리는 구체적인 설계 원리를 제시한다.