약한 감시자가 강한 AI를 통제하는 법, 통계적 보장의 집합적 보존주의

에이전트 AI가 감독자의 능력을 넘어설 때에도 인간이 의미 있는 통제권을 유지할 수 있을까. 스탠퍼드 연구진의 Calibrated Collective Oversight(CCO)는 불완전한 감시 신호들을 집합적으로 집계하고, Conformal Decision Theory로 캘리브레이션하여 안전 위반율을 사용자 지정 임계값 이하로 유지하는 유한 시간 보장을 제공한다. SWE-bench와 MACHIAVELLI 두 실험에서 이론 예측과 실증 결과가 일치하며, 약한 감시자들이 잘못 정렬된 강한 에이전트를 성공적으로 억제했다.

현대의 AI 에이전트는 단순히 질문에 답하는 수준을 넘어 코드를 작성하고, 복잡한 계획을 세우며, 장기적인 환경과 상호작용한다. 그런데 이 에이전트가 자신을 감시하는 인간보다 더 뛰어난 능력을 갖추게 된다면 어떻게 될까. 스탠퍼드 대학의 William Overman과 Mohsen Bayati는 이 고전적 딜레마에 대해 실용적이고 통계적으로 검증된 해법을 내놓았다. Calibrated Collective Oversight(CCO)라는 이름의 이 프레임워크는, 감시자가 AI보다 무능해도 AI의 위험한 행동을 막을 수 있다는 역설적 명제를 수학적으로 뒷받침한다.

감시의 역설: 더 약한 자가 더 강한 자를 통제할 수 있는가

확장 가능한 감시(scalable oversight)는 AI 안전성 연구의 핵심 과제 중 하나다. 인간 전문가가 직접 모든 AI의 행동을 평가하기에는 속도와 규모 모두 역부족이다. 더 나아가, AI가 특정 전문 영역에서 인간 감독자의 이해를 넘어설 때 인간이 AI의 결정을 평가할 능력 자체가 의심스러워진다. 이 문제를 흔히 '감시의 역설'이라 부른다.

기존 접근법들은 대체로 두 갈래로 나뉜다. 하나는 토론(debate)과 같은 복잡한 게임 이론적 구조를 활용하는 방식으로, 실제 배포 환경에서 검증하기가 까다롭다. 다른 하나는 헌법적 AI(Constitutional AI)나 RLHF처럼 광범위하게 활용되지만 통계적 보장이 없는 휴리스틱 접근이다. 두 접근 모두 순차적 의사결정 환경에서 안전 위반율을 명시적인 목표 이하로 유지하는 방법을 제시하지 못한다.

CCO는 이 공백을 채운다. 핵심 아이디어는 AI 행동에 대한 '보존적 기준선'을 정의하고, 다수의 보조 평가 함수를 집합적으로 활용해 기준선으로부터의 이탈을 패널티로 변환하는 것이다. 이는 Attainable Utility Preservation(AUP)에서 영감을 얻었는데, AUP는 에이전트가 기준선 효용 지형에서 크게 이탈하는 행동을 패널티로 억제하는 AI 안전성 개념이다. CCO는 이를 집합적 환경으로 확장한다. 특정 행동이 기준선에서 많이 벗어날수록, 그리고 여러 감시자가 공통적으로 우려할수록 패널티는 커진다. 반대로 다수의 감시자가 문제없다고 판단하는 행동이라면 패널티 없이 높은 유용성을 달성할 수 있다. 연구자들은 이를 '집합적 보존주의(collective conservatism)'라 명명했다.

Conformal Decision Theory: 통계적 보장의 열쇠

CCO의 가장 독창적인 측면은 Conformal Decision Theory(CDT)를 통한 온라인 캘리브레이션이다. Conformal prediction은 원래 예측 불확실성을 측정하는 통계적 방법으로, 훈련 데이터의 분포에 대해 어떤 가정도 필요하지 않다는 것이 강점이다. CCO는 이를 순차적 의사결정에 적용해, 원치 않는 결과가 발생하는 비율을 사용자가 지정한 목표 임계값 이하로 유지하는 유한 시간 보장을 제공한다.

이는 기존 접근법과 근본적으로 다른 지점이다. '대략 안전할 것 같다'는 기대가 아니라, 특정 시간 구간 내에서 실제 위반율이 특정 임계값을 초과하지 않는다는 수학적 보장을 제시한다. 분포적 가정 없이 이런 보장을 달성하는 것은 실제 배포 환경에서 특히 중요하다. 실제 AI 에이전트가 마주치는 환경은 예측 불가능하고, 훈련 데이터와 다를 수 있기 때문이다.

감시자들이 제공하는 다양한 보조 점수는 위험 신호로 작동한다. 어떤 감시자는 코드 보안을 점검하고, 다른 감시자는 자원 사용 패턴을 모니터링하며, 또 다른 감시자는 사용자 동의 범위 이탈을 탐지할 수 있다. 개별 감시자가 미흡하더라도, 이들의 신호를 집합적으로 해석하면 개별 감시자가 감지하지 못한 위험도 포착할 수 있다.

SWE-bench와 MACHIAVELLI: 두 실험에서의 검증

연구진은 두 가지 실험 환경을 통해 CCO의 효과를 검증했다. 첫 번째는 소프트웨어 엔지니어링 벤치마크인 SWE-bench의 수정 버전이다. 여기서 연구진은 의도적으로 잘못 정렬된(misaligned) 강력한 에이전트를 설정하고, 이보다 약한 감시자들이 CCO를 통해 이 에이전트를 얼마나 효과적으로 제어할 수 있는지 측정했다. 결과는 인상적이었다. 능력이 낮은 감시자들이 집합적으로 더 강력한 에이전트의 비정상적 행동을 성공적으로 억제할 수 있었다.

두 번째 실험 환경은 MACHIAVELLI다. 이는 AI 에이전트의 윤리적 행동을 평가하기 위한 텍스트 기반 게임 환경으로, 불법·부도덕한 행동을 취해야 점수를 얻는 상황들이 설계되어 있다. CCO를 적용한 에이전트는 보상(reward)을 크게 잃지 않으면서도 윤리적 위반 횟수를 대폭 줄였다. 이는 안전성과 유용성 사이의 트레이드오프가 반드시 제로섬이 아님을 시사한다.

두 실험 모두에서 주목할 만한 점은, 실증적 위반율이 사용자가 지정한 목표와 매우 근접하게 일치했다는 것이다. 이론적 예측과 실제 결과가 일치한다는 것은 CCO가 단순히 실험실에서만 작동하는 이론이 아니라, 실제 시스템에 적용 가능한 실용적 도구임을 보여준다.

CCO가 제시하는 비전은 거창하면서도 현실적이다. 인간이 AI의 모든 결정을 이해하고 검증해야 한다는 이상은 고수준 AI 시스템에서는 달성 불가능할 수 있다. 대신 CCO는 여러 불완전한 감시 신호를 조합하고, 이 조합이 집합적으로 안전 경계를 유지하도록 보장하는 통계적 메커니즘을 제공한다. 완벽한 이해 없이도 통계적으로 안전한 AI 감시가 가능하다는 이 아이디어는, 초지능 AI 시대를 앞둔 우리에게 중요한 방향을 제시한다.