Chain Rule - 수학 | AI Insight Note

연쇄 법칙(Chain Rule)은 합성 함수의 미분을 계산하는 미적분의 기본 법칙이다. f(g(x))와 같이 하나의 함수가 다른 함수 안에 중첩된 합성 함수를 미분할 때, 이를 각 구성 함수의 미분의 곱으로 표현할 수 있다는 것이 핵심이다. u = g(x), y = f(u)로 놓으면 dy/dx = (dy/du) × (du/dx)로 쓸 수 있다. 이 단순한 규칙이 역전파 알고리즘을 통해 현대 딥러닝 전체를 떠받치는 수학적 기반이 된다.

다변수 확장

단일 변수 연쇄 법칙은 다변수 함수로 자연스럽게 확장된다. 함수 z = f(x₁, x₂, ..., xₙ)에서 각 변수 xᵢ가 다시 다른 변수 t의 함수일 때, dz/dt = Σ(∂z/∂xᵢ)(dxᵢ/dt)로 표현된다. 신경망은 수백만 개의 가중치로 이루어진 거대한 합성 함수이며, 각 층의 출력이 다음 층의 입력이 되는 구조다. 연쇄 법칙은 이 복잡한 합성 구조 전체에 걸쳐 손실 함수의 기울기를 층마다 역방향으로 전달할 수 있게 해준다.

딥러닝에서의 역할

역전파 알고리즘은 연쇄 법칙의 직접적인 구현이다. 신경망의 출력층에서 계산된 손실의 기울기가 각 층을 통과할 때, 해당 층의 활성화 함수와 선형 변환의 미분값이 연쇄 법칙에 따라 누적 곱해진다. 이 과정이 입력층까지 반복되면 모든 가중치에 대한 기울기가 한 번의 역방향 패스로 계산된다. 연쇄 법칙 없이는 층이 깊어질수록 기울기 계산 비용이 폭발적으로 증가해 현실적인 딥러닝 훈련이 불가능했을 것이다. 자동 미분(automatic differentiation) 라이브러리가 코드로 표현된 임의의 합성 함수에 대해 연쇄 법칙을 자동으로 적용해 기울기를 계산하는 기술도 같은 원리를 바탕으로 한다.

Chain Rule연쇄 법칙

다변수 확장

딥러닝에서의 역할

관련 노트

정수론Number Theory