라우터 행과 전문가 주 특이 방향의 정렬, MoE 설계 원칙의 새 출발

Mixture-of-Experts 모델에서 라우터의 각 행이 대응하는 전문가 행렬의 주 특이 방향과 정렬되어야 한다는 수학적으로 정당화된 설계 원칙을 처음으로 제안한 논문이다. '거듭제곱 후 수축(Power-then-Retract)' 패러다임으로 구현된 MPI 기법은 훈련 중 이 정렬을 지속적으로 강제한다. 1B에서 11B 파라미터에 이르는 사전훈련 실험이 라우터-전문가 정렬 향상이 실질적인 모델 성능 개선으로 이어짐을 입증했다.

라우터 행은 전문가를 얼마나 잘 대표하는가

Mixture-of-Experts(MoE) 구조는 대규모 언어 모델의 사실상 표준 아키텍처가 되었다. Mixtral, DeepSeek, 그리고 여러 최신 기초 모델들이 채택하고 있을 만큼, MoE는 파라미터를 늘리면서도 토큰당 연산량을 일정하게 유지할 수 있는 효율적인 확장 방법으로 자리 잡았다. 이 구조의 핵심에는 라우터(router)가 있다. 라우터는 행렬로 구성되며, 각 행은 하나의 전문가에 대응한다. 토큰이 들어오면 라우터는 토큰 표현과 각 행 사이의 내적을 계산해 어느 전문가들을 활성화할지 결정한다.

이 구조에 자연스럽게 내포된 기대는, 라우터의 각 행이 대응하는 전문가 행렬을 잘 대표하는 벡터여야 한다는 것이다. 그래야만 내적이 토큰과 전문가 사이의 진정한 친화도를 반영하고, 라우팅 결정이 의미 있는 판단이 된다. 그런데 이 논문이 지적하는 문제는 명쾌하다. 기존의 MoE 설계에는 라우터 행이 전문가 행렬을 잘 대표하도록 강제하는 어떤 원칙도 존재하지 않았다. 역전파를 통해 라우터 가중치가 업데이트되기는 하지만, 그것이 전문가 행렬의 어떤 구조적 방향을 포착해야 하는지에 대한 설계 제약은 전혀 없었다.

이 공백을 채우기 위해 저자들은 수학적으로 가장 표현력이 높은 방향, 즉 주 특이 방향(principal singular direction)을 기준으로 라우터 행을 정렬해야 한다고 주장한다. 어떤 행렬을 단 하나의 벡터로 요약해야 한다면, 그 벡터는 특이값 분해(SVD)에서 가장 큰 특이값에 대응하는 벡터여야 한다. 이 방향은 행렬이 담고 있는 분산을 최대화하는, 가장 대표적인 축이기 때문이다.

거듭제곱 반복과 다양체 수축의 결합

저자들이 제안하는 MPI(Manifold Power Iteration)는 이 정렬을 훈련 과정 내내 강제하는 방법이다. 이 기법의 이름이 된 두 가지 개념은 각각 오랜 역사를 가진 수치해석 도구에서 온다.

거듭제곱 반복(power iteration)은 행렬의 지배적 고유벡터, 혹은 특이벡터를 찾는 고전적 알고리즘이다. 임의의 벡터에 행렬을 반복해서 곱하고 매번 정규화하면, 가장 큰 특이값에 대응하는 방향으로 수렴한다는 것이 핵심 원리다. MPI는 이 수렴 보증을 MoE 훈련에 통합한다. 각 훈련 스텝에서 라우터의 각 행에 거듭제곱 반복 연산을 적용하면, 그 행은 대응하는 전문가 행렬의 주 특이 방향 쪽으로 당겨진다. 이것이 'Power' 단계다.

그런 다음 'Retract' 단계에서는 노름 제약을 적용해 라우터 행을 다양체(manifold) 위로 수축시킨다. 이 수축은 라우터 가중치가 무한히 커지거나 불안정해지는 것을 방지하고, 훈련 전반에 걸친 효율성을 보장한다. 'Power-then-Retract'라는 패러다임은 이 두 단계를 매 스텝마다 반복하며, 이론적으로 라우터 행이 전문가 행렬의 주 특이 방향으로 수렴한다는 것을 증명할 수 있다. 이것은 느슨한 휴리스틱이 아니라 수렴 증명이 뒷받침하는 설계 원칙이다.

이 방법의 실용적 장점은 개입이 최소화된다는 점이다. 전문가 네트워크의 구조를 바꾸거나, 라우팅 알고리즘을 교체하거나, 새로운 손실 함수를 도입할 필요가 없다. 변경은 오직 라우터 행렬을 업데이트하는 방식에만 국한되며, 기존 MoE 훈련 파이프라인에 자연스럽게 통합된다.

1B부터 11B까지, 스케일이 원칙을 입증하다

이론적 아름다움은 출발점일 뿐이다. 저자들은 10억(1B)에서 110억(11B) 파라미터에 이르는 다양한 규모의 MoE 모델을 처음부터 사전훈련하여 MPI의 효과를 실험적으로 검증했다. 이 규모의 실험은 단순한 개념 증명을 넘어, 실제 대형 모델 훈련에서도 이 원칙이 유효함을 보여준다.

실험이 확인한 핵심은 두 가지다. 첫째, MPI를 적용하면 라우터 행과 전문가 행렬의 주 특이 방향 사이의 정렬이 실제로 향상된다. 둘째, 이 정렬의 향상이 모델의 전반적인 성능 개선으로 이어진다. 즉, 라우터가 전문가의 더 나은 대리자가 될수록 토큰은 더 적합한 전문가에게 전달되고, 모델의 표현력이 실질적으로 높아진다.

MoE 연구에서 지금까지 많은 주의가 쏠린 문제는 전문가 붕괴(expert collapse) 방지, 부하 균형 보조 손실, 배치 처리를 위한 라우팅 알고리즘 개선이었다. 이것들은 모두 라우터를 스케줄러로 바라보는 관점에서 나온 접근이다. MPI는 질문 자체를 바꾼다. 라우터 행은 무엇을 인코딩해야 하는가? 그 답이 전문가 행렬의 주 특이 방향이라는 주장은, 단순하고 수학적으로 정당화되어 있으며, 이제 대규모 실험으로도 뒷받침된다.

트릴리언 파라미터 규모의 MoE 모델이 현실로 다가오는 시점에서, 라우팅 결정의 질은 사소한 디테일이 아니다. 이 논문은 라우팅 벡터가 무엇을 담아야 하는지에 대한 최초의 명시적 설계 원칙을 제시했으며, 고전 수치해석 이론과 현대 대규모 실험을 결합한 그 엄밀함은 다음 세대 기초 모델 설계에 기준점이 될 만하다.