Gradient기울기
기울기(Gradient)는 다변수 함수에서 각 입력 변수 방향으로의 편미분(partial derivative)을 모아 만든 벡터다. 스칼라 함수 f(x₁, x₂, ..., xₙ)의 기울기 ∇f는 (∂f/∂x₁, ∂f/∂x₂, ..., ∂f/∂xₙ)으로 표현되며, 이 벡터는 현재 위치에서 함수값이 가장 빠르게 증가하는 방향과 그 증가율을 동시에 담고 있다. 단변수 함수의 미분을 다변수 함수로 일반화한 개념으로, 기계학습에서 모델 최적화의 수학적 나침반 역할을 한다.
기울기의 기하학적 의미
기울기 벡터의 방향은 함수가 가장 가파르게 상승하는 방향이고, 크기(노름)는 그 상승의 가파름을 나타낸다. 이 성질은 경사 하강법의 핵심 원리와 직결된다. 손실 함수의 최솟값을 찾으려면 기울기가 가리키는 방향의 반대, 즉 손실이 가장 가파르게 감소하는 방향으로 이동하면 된다. 가중치 w를 w ← w - η∇L(w) 규칙으로 반복 갱신하는 것이 바로 이 원리의 구현이다(η는 학습률).
신경망에서의 기울기
신경망 학습에서 기울기는 역전파 알고리즘을 통해 계산된다. 수백만 개의 가중치 각각에 대한 손실 함수의 편미분을 모은 기울기 벡터가 한 번의 역방향 패스로 효율적으로 구해진다. 기울기의 크기가 너무 작으면 가중치 갱신이 거의 일어나지 않는 기울기 소실 문제가, 너무 크면 훈련이 불안정해지는 기울기 폭발 문제가 발생한다. 기울기 클리핑(gradient clipping)은 기울기의 노름이 임계값을 넘지 않도록 스케일을 줄여 기울기 폭발을 방지하는 기법이다. 연쇄 법칙은 기울기를 층마다 효율적으로 전파하는 수학적 도구다.