
언어모델
Large Language ModelLLM
LLM(Large Language Model)은 수십~수천억 개의 파라미터를 가진 초대형 언어 모델이다. 방대한 텍스트 데이터로 사전 학습되어 번역, 요약, 코드 생성, 질의응답 등 다양한 언어 태스크를 수행한다.
주요 LLM 비교
| 모델 | 회사 | 특징 |
|---|---|---|
| GPT-4 | OpenAI | 강력한 추론, 멀티모달 |
| Claude 3.5 | Anthropic | 안전성, 긴 컨텍스트 |
| Gemini | 멀티모달, 검색 통합 | |
| Llama 3 | Meta | 오픈소스, 로컬 실행 가능 |
| Mistral | Mistral AI | 소형, 효율적 |
스케일링 법칙
주요 능력
| 능력 | 설명 |
|---|---|
| 퓨샷 학습 | 예시 몇 개만으로 새 태스크 수행 |
| 제로샷 학습 | 예시 없이 설명만으로 수행 |
| Chain-of-Thought | 단계별 추론 |
| Code Generation | 자연어 → 코드 변환 |
관련 개념
- •GPT — 대표적인 LLM
- •Transformer — LLM의 기반 아키텍처
- •파인튜닝 — LLM 커스터마이징
- •RAG — LLM 지식 보완 기법
참고문헌
- •Hoffmann et al. (2022). Chinchilla: Training Compute-Optimal Large Language Models