
딥러닝
Attention Mechanism어텐션 메커니즘
어텐션 메커니즘(Attention Mechanism)은 시퀀스 처리 시 모든 위치를 동시에 참조해 중요한 부분에 집중하는 기법이다. 2015년 Bahdanau et al.이 기계 번역에 적용하면서 주목받았고, 이후 트랜스포머(Transformer) 아키텍처의 핵심이 되었다.
핵심 개념
어텐션은 Query, Key, Value 세 요소로 구성된다.
Attention(Q, K, V) = softmax(QKᵀ / √d_k) · V
- •Query(Q): 현재 처리하는 위치의 표현
- •Key(K): 참조할 위치들의 표현
- •Value(V): 실제 정보 내용
- •√d_k: 스케일링 팩터 (기울기 안정화)
Self-Attention 구현
어텐션 종류
| 종류 | 설명 | 사용처 |
|---|---|---|
| 소프트 어텐션 | 모든 위치 가중 합산 | 번역, 요약 |
| 하드 어텐션 | 한 위치만 선택 (비미분) | 이미지 캡션 |
| 셀프 어텐션 | 같은 시퀀스 내 관계 | 트랜스포머 |
| 멀티헤드 어텐션 | 여러 표현 공간 병렬 | BERT, GPT |
| 크로스 어텐션 | 다른 시퀀스 참조 | 인코더-디코더 |
관련 개념
- •트랜스포머
- •BERT
- •GPT
- •위치 인코딩