Artificial Neural Networks - 인공지능 > 딥러닝 | AI Insight Note

인공신경망(Artificial Neural Network, ANN)은 인간 뇌의 신경 구조에서 영감을 받아 설계된 계산 모델이다. 뇌 속에서 수백억 개의 뉴런이 시냅스를 통해 신호를 주고받듯, 인공신경망도 수많은 인공 뉴런이 가중치(weight)로 연결된 네트워크를 형성해 정보를 처리한다. 1943년 워렌 맥컬록과 월터 피츠가 최초의 형식적 뉴런 모델을 제안한 이후, 1957년 프랭크 로젠블랫의 퍼셉트론(Perceptron), 1986년 역전파 알고리즘의 정립을 거쳐 오늘날 딥러닝 혁명의 토대가 되었다.

구조: 층과 뉴런, 활성화 함수

인공신경망의 기본 단위는 인공 뉴런, 즉 노드다. 각 뉴런은 여러 입력값 xᵢ를 받아 학습된 가중치 wᵢ를 곱한 뒤 합산하고, 편향(bias) b를 더한 값을 활성화 함수 f에 통과시켜 출력을 낸다. 이 과정은 y = f(Σwᵢxᵢ + b)로 표현된다.

뉴런들은 층(layer) 단위로 조직된다. 입력층은 원시 데이터를 받아들이고, 하나 이상의 은닉층(hidden layer)이 데이터에서 특징을 단계적으로 추출하며, 출력층이 최종 결과를 생성한다. 은닉층이 여러 개인 신경망을 심층 신경망(Deep Neural Network, DNN)이라 부르며, 이것이 딥러닝의 어원이다.

활성화 함수는 신경망에 비선형성을 부여하는 핵심 요소다. 비선형 함수가 없다면 아무리 층을 쌓아도 결국 하나의 선형 변환과 동일하므로 복잡한 패턴 학습이 불가능하다. 아래 표는 주요 활성화 함수들을 비교한 것이다. 시그모이드는 (0,1) 범위 출력으로 이진 분류 출력층에 적합하지만, 깊은 네트워크에서 기울기가 거의 0이 되는 기울기 소실 문제를 일으킨다. tanh는 출력 중심을 0으로 맞춰 수렴이 빠르지만 역시 기울기 소실에서 자유롭지 않다. ReLU는 양수 구간에서 기울기를 그대로 유지해 이 문제를 크게 완화했으며, 현재 은닉층의 표준 선택지로 자리잡았다. Softmax는 출력값들의 합이 1이 되도록 정규화해 다중 클래스 분류의 확률 분포를 표현하는 데 쓰인다.

함수	출력 범위	기울기 소실	주요 사용처
Sigmoid	(0, 1)	발생	이진 분류 출력층
Tanh	(-1, 1)	발생	RNN 은닉층
ReLU	0, ∞)	거의 없음	일반 은닉층
Leaky ReLU	(-∞, ∞)	없음	죽은 뉴런 방지
Softmax	(0, 1), 합=1	—	다중 클래스 출력층

학습: 역전파와 경사 하강법

인공신경망이 데이터에서 학습한다는 것은 본질적으로 가중치를 조정하는 과정이다. 네트워크가 예측한 값과 실제 정답의 차이를 손실 함수(loss function)로 정량화하고, 이 손실을 줄이는 방향으로 가중치를 반복 갱신한다.

핵심 알고리즘은 [역전파(Backpropagation)다. 1986년 럼멜하트, 힌턴, 윌리엄스가 정립한 이 방법은 연쇄 법칙(chain rule)을 이용해 출력층에서 입력층 방향으로 각 가중치에 대한 손실의 편미분, 즉 기울기(gradient)를 효율적으로 계산한다. 이렇게 구한 기울기를 경사 하강법(Gradient Descent)에 적용해 가중치를 조금씩 수정하는 과정을 수천 번 반복하면 신경망은 점차 정확한 예측을 내놓는다.

실제 학습에서는 전체 데이터를 한 번에 처리하기보다 소규모 미니배치(mini-batch)를 순차적으로 처리하는 확률적 경사 하강법(SGD)이 널리 쓰인다. 여기서 더 나아가 Adam, RMSprop 같은 적응형 최적화 알고리즘은 각 가중치별로 학습률을 동적으로 조절해 수렴 속도와 안정성을 높인다. 학습률(learning rate), 배치 크기, 에포크(epoch) 수 같은 하이퍼파라미터 설정은 학습 결과에 큰 영향을 미치며, 이를 조정하는 작업을 하이퍼파라미터 튜닝](/wiki/hyperparameter-tuning)이라 한다.

과적합(overfitting)은 신경망 학습의 주요 위험 요소다. 모델이 훈련 데이터에 지나치게 맞춰져 새로운 데이터에 대한 일반화 성능이 떨어지는 현상인데, 드롭아웃(Dropout), L2 정규화](/wiki/l2-regularization), 배치 정규화(Batch Normalization) 등이 이를 완화하는 대표적인 기법이다.

주요 신경망 아키텍처

단순 완전 연결 신경망(Fully Connected Network)에서 출발해, 문제 구조에 최적화된 다양한 아키텍처가 발전했다. 아래 표는 대표적인 신경망 구조들을 정리한 것이다. 각 아키텍처는 입력 데이터의 구조적 특성을 반영하도록 설계됐다. 이미지처럼 공간적 국소성이 있는 데이터에는 CNN이, 텍스트나 시계열처럼 순서 의존성이 있는 데이터에는 RNN 계열이 쓰였다. 트랜스포머는 어텐션 메커니즘으로 이러한 구조적 제약 없이 임의 위치 간 관계를 직접 모델링하며, 현재 대부분의 최첨단 모델의 기반이 되고 있다.

아키텍처	핵심 아이디어	주요 적용 분야
완전 연결 신경망(FNN)	모든 뉴런 간 연결	표형 데이터, 분류/회귀
합성곱 신경망(CNN)	공간적 특징의 계층적 추출	이미지 인식, 객체 탐지
순환 신경망(RNN/LSTM)	시퀀스 의존성 모델링	자연어 처리, 시계열
오토인코더(Autoencoder)	압축 후 재구성으로 표현 학습	이상 탐지, 생성 모델
생성적 적대 신경망(GAN)	생성자-판별자 적대적 학습	이미지 생성, 데이터 증강
트랜스포머(Transformer)	셀프 어텐션 기반 전역 관계 포착	언어 모델, 비전, 멀티모달

인공신경망은 더 이상 연구실의 이론이 아니다. 스마트폰의 얼굴 인식, 스트리밍 플랫폼의 추천 시스템, 의료 영상 진단, 자율주행 차량의 환경 인식까지 현대 기술 인프라의 핵심을 이루고 있다. 동시에 블랙박스 해석 가능성, 데이터 편향, 막대한 에너지 소비라는 과제도 남아 있다. 인공신경망의 원리를 이해하는 것은 이 기술의 가능성과 한계를 균형 있게 바라볼 수 있는 출발점이다.

Artificial Neural Networks인공신경망

구조: 층과 뉴런, 활성화 함수

학습: 역전파와 경사 하강법

주요 신경망 아키텍처

관련 노트

생성적 적대 신경망Generative Adversarial Network

합성곱 신경망Convolutional Neural Network

완전 연결 신경망Fully Connected Network