그래디언트 소실·폭발의 에르고딕 이론 해석, 잔차 연결이 바꾸는 리아푸노프 스펙트럼

딥러닝의 오랜 숙제였던 그래디언트 소실과 폭발 문제가 이번에는 수학의 언어로 정면 해부됐다. Vivek S. Borkar는 곱셈적 에르고딕 이론을 끌어들여 이 현상을 리아푸노프 스펙트럼으로 엄밀하게 기술하고, 잔차 연결이 왜 그토록 효과적인지를 이론적으로 설명한다.

심층 신경망의 오래된 악몽

딥러닝의 역사에서 그래디언트 소실과 폭발 문제만큼 오랫동안 연구자들을 괴롭혀온 현상도 드물다. 역전파 알고리즘으로 학습이 이루어지는 신경망에서, 그래디언트는 마지막 층에서 첫 번째 층을 향해 역방향으로 흘러간다. 이때 각 층을 통과할 때마다 야코비안 행렬과의 곱셈이 누적되는데, 수십 층, 수백 층을 거치다 보면 이 값이 기하급수적으로 작아지거나(소실) 반대로 폭발적으로 커지는(폭발) 현상이 나타난다. 그래디언트가 소실되면 앞쪽 층의 파라미터는 거의 갱신되지 않고, 폭발하면 학습이 불안정해진다. 배치 정규화나 그래디언트 클리핑 같은 공학적 처방이 나왔지만, 이 현상의 수학적 본질은 오랫동안 직관적 설명의 수준에 머물러 있었다.

Vivek S. Borkar가 쓴 이 논문은 그 공백을 메운다. 저자는 행렬의 무한 곱에 대한 장기적 거동을 연구하는 수학 이론, 즉 곱셈적 에르고딕 이론(multiplicative ergodic theory)을 끌어들여 그래디언트 소실·폭발 현상을 엄밀하게 분석한다. 그리고 이 틀 안에서 잔차 연결(residual connection)이 왜 그토록 효과적인지를 설명한다.

리아푸노프 지수와 그래디언트의 장기 운명

에르고딕 이론의 핵심 도구는 리아푸노프 지수(Lyapunov exponent)다. 이 개념은 원래 동역학계에서 초기 조건에 대한 민감도를 측정하기 위해 도입된 것이었지만, 행렬의 반복 곱에도 자연스럽게 적용된다. 단순하게 말하면, 리아푸노프 지수는 행렬 곱의 크기가 평균적으로 얼마나 빠르게 증가하거나 감소하는지를 지수적 성장률로 표현한 값이다. 지수가 양수이면 곱이 폭발하고, 음수이면 소실로 향한다.

신경망의 역전파 과정은 바로 이 행렬 곱의 문제로 귀결된다. 각 층의 야코비안 행렬을 일종의 무작위 행렬이라고 볼 때, 이들의 곱이 어떻게 거동하는가가 그래디언트의 운명을 결정한다. Oseledets의 곱셈적 에르고딕 정리는 이 거동이 리아푸노프 지수들로 이루어진 스펙트럼, 즉 리아푸노프 스펙트럼으로 완전히 규정된다는 것을 보여준다. 이 스펙트럼이 전체적으로 양수 쪽에 치우쳐 있으면 폭발이, 음수 쪽에 치우쳐 있으면 소실이 나타난다.

Borkar는 여기서 Furstenberg와 Kifer가 개발한 사영 공간 위의 불변 측도를 이용한 리아푸노프 지수 특성화를 활용한다. 이 특성화는 단순히 리아푸노프 지수의 존재를 보장하는 데 그치지 않고, 그 값을 특정 측도의 함수로 명시적으로 표현할 수 있게 해준다. 이를 통해 저자는 네트워크 구조가 바뀔 때 리아푸노프 스펙트럼이 어떻게 변하는지를 추적할 수 있는 수학적 발판을 마련한다.

잔차 연결이 스펙트럼을 바꾸는 방식

잔차 연결은 ResNet에서 처음 체계적으로 도입된 기법으로, 입력을 변환된 출력에 그대로 더하는 구조다: 층의 출력이 f(x)가 아니라 f(x) + x가 된다. 이 덧셈 하나가 수백 층짜리 네트워크를 훈련 가능하게 만들었다는 사실은 경험적으로 잘 알려져 있었지만, 그 이유에 대한 이론적 설명은 여전히 불충분했다.

Borkar의 분석에 따르면, 잔차 연결의 효과는 야코비안 행렬의 구조 변화를 통해 이해할 수 있다. 잔차 연결이 없는 층의 야코비안은 단순히 변환 함수 f의 편미분으로 이루어진 행렬이지만, 잔차 연결이 있으면 여기에 항등 행렬이 더해진다. 이 변화는 행렬 곱의 장기적 거동, 즉 리아푸노프 스펙트럼에 체계적인 영향을 미친다.

구체적으로, 잔차 연결의 추가는 리아푸노프 지수들을 양의 방향으로 이동시키는 경향이 있다. 지수들이 지나치게 음수이면 소실 문제가 발생하는데, 잔차 연결은 이 지수들을 0에 가깝게 끌어올려 그래디언트가 소실 없이 전파될 수 있는 조건을 만든다. Furstenberg-Kifer 특성화를 통해 이 이동의 정확한 수학적 표현이 가능해지며, 논문은 이것이 단순한 경험적 관찰이 아닌 엄밀한 이론적 결과임을 보여준다.

이 논문이 주는 메시지는 단순한 기술적 결과를 넘어선다. 딥러닝에서 오랫동안 공학적 직관에 의존해온 현상이 잘 발달된 수학 이론으로 완전히 포착될 수 있다는 사실, 그리고 그 이론이 왜 특정 아키텍처 선택이 작동하는지를 원리적으로 설명해준다는 사실은 앞으로의 신경망 설계에 대한 이론적 기반을 한층 단단하게 만든다. 경험과 직관이 이끌어온 딥러닝 아키텍처의 진화가, 이제 수학의 언어로 소급 정당화되고 있다.