내쉬 균형을 학습 목표로 삼은 경쟁 에이전트, 게임 이론과 딥러닝의 새로운 접합

경매나 자원 배분처럼 여러 참여자가 동시에 결정을 내리는 환경에서, 기존 강화학습은 '안정적 균형'에 수렴한다는 보장이 없었다. DNQ는 게임 이론 솔버를 훈련 루프 안에 직접 내장해 내쉬 균형을 에이전트의 학습 목표로 삼는다. 확장성과 전략적 정확도 사이의 균형을 탐구한 이 연구는, 경쟁적 AI 시스템 설계의 방향을 새롭게 제시한다.

경쟁적 환경에서 여러 의사결정자가 동시에 행동하는 상황은 경제학과 컴퓨터과학이 오랫동안 탐구해 온 문제다. 경매, 자원 배분, 사이버 보안 경쟁처럼 참여자들이 제한된 정보 아래 반복적으로 전략을 갱신해야 하는 환경에서, 강화학습은 강력한 도구로 주목받아 왔다. 그러나 기존 다중 에이전트 강화학습 접근법은 대개 하나의 치명적 맹점을 안고 있다. 에이전트 각자가 보상을 극대화하도록 훈련되지만, 그 과정이 게임 이론적 의미에서 '안정적인 상태', 즉 내쉬 균형(Nash Equilibrium)을 향해 수렴한다는 보장이 없다는 것이다. 복수 기관 연구팀이 제안한 DNQ(Deep Nash Q-Network)는 이 간극을 메우기 위한 시도다.

게임 이론적 목표를 훈련 과정에 내장하다

DNQ의 핵심 아이디어는 '솔버 인 더 루프(solver-in-the-loop)'라는 개념으로 요약된다. 일반적인 강화학습이 에이전트를 보상 신호만으로 훈련시킨다면, DNQ는 훈련 루프 안에 게임 이론 솔버를 직접 집어넣는다. 구체적으로 네 단계가 반복된다. 먼저 에이전트들이 환경에서 궤적을 수집하고, 공유 크리틱(shared critic)이 각 상태에서의 보상 행렬을 추정한다. 그다음 외부 솔버가 이 보상 행렬로부터 내쉬 균형 전략을 계산하고, 마지막으로 에이전트들은 자신의 정책이 이 균형 전략에 가까워지도록 KL 발산(Kullback-Leibler divergence)을 최소화하는 방향으로 업데이트된다.

이 구조에서 특히 주목할 부분은 공유 크리틱의 역할이다. N명의 에이전트가 있을 때 정확한 보상 텐서를 추정하려면 에이전트 수에 따라 지수적으로 늘어나는 계산 비용을 감당해야 한다. DNQ는 이 문제를 두 가지 방식으로 접근한다. 하나는 모든 에이전트 조합을 고려하는 '정확한 N인 보상 텐서' 방식이고, 다른 하나는 에이전트 쌍(pair)별 보상 행렬만 추정하는 '쌍별 근사(pairwise formulation)'다. 공유 크리틱은 에이전트와 상태를 가로질러 보상 학습을 분산시킴으로써 샘플 효율을 높인다. 각 상태마다 보상 구조를 처음부터 다시 배우는 대신, 크리틱이 다양한 게임 상태에 걸쳐 일반화하면서 전체 훈련 비용이 낮아진다.

확장성과 전략적 정확도 사이의 선택

실험 결과는 두 방식 사이의 근본적 트레이드오프를 선명하게 드러낸다. 에이전트 수가 늘어날수록 정확한 텐서 방식은 계산 비용이 기하급수적으로 증가해 실용적 한계에 부딪힌다. 반면 쌍별 근사는 에이전트 수가 증가해도 계산 비용이 완만하게 늘어나 더 큰 규모의 게임으로 확장이 가능하다. 크리틱 손실, 정책 엔트로피, 입찰 자원 사용량, 훈련 비용 등 다양한 지표에서 두 방식의 차이가 확인되었다.

쌍별 근사가 가져오는 확장성은 공짜가 아니다. N인 게임을 다수의 2인 게임으로 분해하는 과정에서 플레이어들 사이의 복잡한 전략적 상호작용 일부가 소실된다. 경매처럼 참여자들이 서로를 직접 의식하면서 전략을 세우는 환경에서는, 이 근사가 균형 탐색의 정확도를 낮출 수 있다. 연구팀은 이 점을 명시적으로 인정하면서, 전략적 충실도와 확장성 사이의 균형을 각 응용 상황에 맞게 선택해야 한다는 점을 강조한다.

이 연구가 흥미로운 이유는 단순히 새로운 알고리즘을 제안했기 때문이 아니다. 게임 이론과 딥 강화학습이라는 두 분야가 그동안 각자의 방식으로 발전해 왔는데, DNQ는 이 둘을 훈련 루프 수준에서 긴밀하게 통합하려 한다는 점에서 방법론적 가치가 크다. 실세계의 경쟁적 시스템—광고 경매, 금융 시장의 자동화된 거래, 사이버 공격과 방어의 반복적 상호작용—은 모두 이 연구가 다루는 문제 구조와 닮아 있다. 완전히 관찰 가능하지 않은 상태에서 여러 플레이어가 동시에 결정을 내리고, 그 결과가 다시 다음 라운드의 조건을 결정하는 반복 게임이다. DNQ가 제시하는 '균형을 훈련 목표로 삼는다'는 발상은, 이러한 복잡한 경쟁 환경에서 작동하는 AI 에이전트를 설계하는 데 하나의 유력한 방향을 제시한다.