관측 신호만으로 공격자 정책을 역추론, 자율 사이버 방어의 새 지평

사이버 공격자의 행동은 직접 관측할 수 없다. 이 논문은 방어자가 경험하는 네트워크 상태 변화만으로 공격자 정책을 역추론하는 모방 학습 프레임워크를 제안한다. 뉴로심볼릭 방어 에이전트와 통합해 다양한 시뮬레이션 시나리오에서 높은 예측 정확도를 달성했다.

자율 네트워크 방어의 가장 오래된 역설 중 하나는 방어자가 공격자를 볼 수 없다는 사실에서 비롯된다. 침입탐지 시스템이 아무리 정교해도, 네트워크 트래픽이나 시스템 로그에 기록되는 것은 공격의 결과일 뿐 공격 의도 자체가 아니다. 공격자가 지금 어떤 단계에 있는지, 다음에 어떤 행동을 취할 것인지를 추론하는 일은 연기의 형태만 보고 불의 위치를 가늠하는 것과 다르지 않다.

반도체 설계부터 금융 인프라까지, 현대의 핵심 시스템들이 네트워크로 연결되면서 사이버 공격의 정교함도 비례해서 높아졌다. 고전적인 규칙 기반 방어는 알려지지 않은 공격 패턴에 속수무책이고, 그렇다고 단순한 강화학습 기반 에이전트에게 전권을 맡기기엔 설명 가능성과 신뢰성의 문제가 남는다. Vanderbilt 대학교 연구팀이 제안한 이 기법은, 공격자의 행동을 직접 관측하지 않고 방어자의 네트워크 관찰값과 방어 행동만으로 공격자 정책을 역추론하는 모방 학습 프레임워크다.

부분 관찰 가능성이라는 근본 문제

사이버 방어를 강화학습으로 모델링할 때, 환경은 자연스럽게 부분 관찰 가능 마르코프 결정 과정으로 표현된다. 방어자 에이전트는 네트워크 상태의 일부만을 관측할 수 있고, 공격자가 어떤 행동을 했는지는 직접적으로 알 수 없다. 공격자의 행동은 오직 그 결과로 나타나는 네트워크 상태 변화를 통해서만 간접적으로 추론될 뿐이다.

이런 환경에서 방어 에이전트가 공격자의 다음 행동을 예측할 수 있다면, 방어 전략을 훨씬 선제적으로 수립할 수 있다. 연구팀은 이 문제를 역강화학습과 유사한 방식으로 접근하되, 행동 클로닝에 기반한 모방 학습 기법으로 해결한다. 핵심 아이디어는 간단하다. 공격자가 직접 보이지 않더라도, 방어자가 관찰한 네트워크 상태 시퀀스와 방어자 자신의 행동 시퀀스는 존재한다. 이 두 정보의 흐름을 조합하면 공격자가 취했을 행동을 간접적으로 재구성할 수 있다는 것이다.

구체적으로, 연구팀은 이산 상태 공간과 이산 행동 공간을 가진 부분 관찰 가능 에이전트를 위한 정책 학습 기법을 설계했다. 방어자 에이전트가 수집한 관측 데이터를 기반으로, 공격자 정책을 모방하는 신경망 기반 모듈을 훈련시킨다. 이 과정에서 중요한 점은 실제 공격자 행동 레이블 없이도 훈련이 가능하다는 것이다. 방어자가 경험하는 상태 전이 패턴 자체가 공격자 행동의 암묵적 신호가 된다.

뉴로심볼릭 방어 에이전트와의 통합

이 논문이 단순한 공격자 정책 학습 연구에 그치지 않는 이유는, 제안된 기법이 뉴로심볼릭 사이버 방어 프레임워크와 통합된다는 점에 있다. 행동 트리는 게임 AI에서 오랫동안 사용되어온 계층적 의사결정 구조로, 복잡한 행동 시퀀스를 직관적이고 해석 가능한 방식으로 표현할 수 있다. 연구팀은 이 행동 트리에 학습 가능 컴포넌트를 결합하는 뉴로심볼릭 접근법을 채택했다.

뉴로심볼릭 접근의 핵심 강점은 해석 가능성과 적응성의 공존이다. 순수 신경망 기반 에이전트는 높은 성능을 보이지만 그 결정 과정이 불투명하다. 반면 순수 규칙 기반 시스템은 투명하지만 새로운 공격 패턴에 적응하지 못한다. 행동 트리에 학습 가능 컴포넌트를 결합한 구조는 규칙 기반 프레임워크의 해석 가능성을 유지하면서도, 신경망 모듈이 학습을 통해 알려지지 않은 공격 패턴에 적응할 수 있게 한다. 공격자 정책 학습 모듈은 이 프레임워크 내에서 방어 전략 수립에 직접 활용되며, 다양한 시뮬레이션 시나리오에서 다양한 레드 에이전트 정책에 대해 높은 예측 정확도를 달성했다.

자율 사이버 방어의 인식론적 전환

이 연구가 제기하는 더 깊은 질문은 사이버 방어의 인식론과 관련된다. 공격자를 물리치기 위해 공격자를 이해해야 한다는 명제는 고전 병법부터 현대 사이버 보안까지 일관되게 등장한다. 그러나 디지털 공간에서 공격자의 행동은 의도적으로 은폐되며, 관찰 가능한 것은 언제나 공격 의도의 그림자일 뿐이다. 이 논문의 제안은 그 그림자로부터 의도를 재구성하는 체계적 방법론을 제시한다.

특히 완전 자율 사이버 방어 시스템으로의 전환이 가속화되는 현재, 방어 에이전트가 공격자 모델을 내재화하는 능력은 단순한 성능 향상을 넘어 시스템의 전략적 깊이를 결정하는 요소가 된다. 물론 한계도 분명하다. 시뮬레이션 환경에서 검증된 결과가 실제 네트워크의 복잡성과 노이즈를 얼마나 견딜 수 있는지는 별개의 문제다. 또한 공격자가 방어자의 정책 학습 메커니즘을 인지하고 의도적으로 혼란스러운 패턴을 생성한다면, 모방 학습 기반 추론은 오히려 역이용될 수 있다.

자율 사이버 방어의 미래는 더 빠른 반응 속도나 더 넓은 탐지 범위만으로 결정되지 않을 것이다. 공격자의 의도를 얼마나 정밀하게 읽어낼 수 있느냐, 그 인식의 깊이가 다음 세대 방어 시스템의 핵심 경쟁력이 될 것이다. 이 연구는 그 방향으로 내딛는 중요한 한 걸음이다.