
언어모델
GPT (Generative Pre-trained Transformer)GPT
GPT(Generative Pre-trained Transformer)는 OpenAI가 개발한 Transformer 디코더 기반 언어 생성 모델이다. 다음 토큰 예측으로 사전 학습하며, ChatGPT의 기반 모델로 생성형 AI 혁명을 이끌었다.
GPT 버전 발전
| 버전 | 파라미터 | 특징 |
|---|---|---|
| GPT-1 (2018) | 117M | Transformer 기반 언어 모델 |
| GPT-2 (2019) | 1.5B | 제로샷 학습 능력 |
| GPT-3 (2020) | 175B | 퓨샷 학습, In-context Learning |
| GPT-4 (2023) | ~1T | 멀티모달, 추론 능력 대폭 향상 |
BERT vs GPT
| 항목 | BERT | GPT |
|---|---|---|
| 방향성 | 양방향 (인코더) | 단방향 (디코더) |
| 특기 | 이해 (분류, NER) | 생성 (텍스트, 코드) |
| 학습 | Masked LM | 다음 토큰 예측 |
API 사용 예시
관련 개념
- •Transformer — GPT의 기반 아키텍처
- •BERT — 같은 Transformer 계열의 이해 모델
- •LLM — GPT가 속하는 대형 언어 모델 분류
- •RAG — GPT를 활용하는 검색 증강 생성
참고문헌
- •Radford et al. (2018). Improving Language Understanding by Generative Pre-Training
- •Brown et al. (2020). Language Models are Few-Shot Learners