Gated DeltaNet-2, 기억의 지우기와 쓰기를 분리하다, 선형 어텐션의 새 도약

NVIDIA 연구팀이 선형 어텐션의 오랜 한계를 건드렸다. arXiv:2605.22791 Gated DeltaNet-2는 메모리 제어 게이트를 지우기와 쓰기로 분리해 Mamba, KDA 등 경쟁 모델을 모두 앞섰다.

트랜스포머의 소프트맥스 어텐션은 강력하지만 치명적 약점이 있다. 시퀀스 길이에 비례해 연산량이 제곱으로 증가한다. 1만 토큰을 처리하면 1억 회의 어텐션 연산이 필요하다는 뜻이다. 이를 해결하기 위한 선형 어텐션(linear attention) 계열 연구가 꾸준히 이어져 왔고, 5월 말 NVIDIA 연구팀이 공개한 Gated DeltaNet-2(arXiv:2605.22791)는 그 최전선에 놓인다.

알리 하타미자데(Ali Hatamizadeh), 예진 최(Yejin Choi), 얀 카우츠(Jan Kautz)가 제안한 이 모델의 핵심 아이디어는 단순하면서 통찰적이다. 기존 선형 어텐션 모델들은 메모리를 지우는 것과 새 정보를 쓰는 것을 하나의 스칼라 게이트로 함께 제어했다. 두 가지 서로 다른 작업을 하나의 값으로 다루는 것은 표현력의 병목이다.

지우기와 쓰기의 분리

Gated DeltaNet-2는 이 스칼라 게이트를 두 개의 채널별 게이트로 분리한다. b_t는 지우기(erase)를, w_t는 쓰기(write)를 독립적으로 제어한다. 이 분리가 가져오는 차이는 수식보다 직관으로 이해하는 것이 빠르다. 새로운 정보가 들어올 때, 어떤 메모리를 얼마나 지울지와 새 정보를 어디에 얼마나 쓸지를 따로 결정할 수 있다. 인간의 기억이 단순 덮어쓰기가 아닌 편집과 추가의 조합으로 작동하는 것과 유사한 구조다.

1.3B 파라미터로 FineWeb-Edu 1000억 토큰을 학습한 실험에서 Gated DeltaNet-2는 Mamba-2, 기존 Gated DeltaNet, KDA, Mamba-3를 모두 상회하는 성능을 보였다. 특히 장문 컨텍스트 처리를 측정하는 RULER 벤치마크의 needle-in-a-haystack 검색 과제에서 두드러진다. 선형 시간 복잡도를 유지하면서도 긴 문서에서 특정 정보를 정확하게 찾아내는 능력은, 실용적 배포에서 의미하는 바가 크다.

코드는 NVlabs/GatedDeltaNet-2로 오픈소스 공개되어 있다. 선형 어텐션의 효율성과 소프트맥스 어텐션의 표현력 사이 간극을 좁히는 이 계열의 연구는, 더 긴 컨텍스트를 더 낮은 비용으로 다루어야 하는 LLM 인프라의 방향과 맞닿아 있다.