
언어모델
Text Generation InferenceTGI (Text Generation Inference)
TGI(Text Generation Inference)는 Hugging Face가 개발한 프로덕션급 LLM 서빙 툴킷이다. Rust로 작성된 서버 코어로 높은 성능을 발휘하며, Flash Attention, Paged Attention, 연속 배치를 기본 지원한다.
주요 특징
| 항목 | 설명 |
|---|---|
| 핵심 언어 | Rust (서버) + Python (모델 로딩) |
| 텐서 병렬 | 멀티 GPU 분산 추론 |
| Flash Attention | 메모리 효율적 어텐션 구현 |
| 연속 배치 | 동적 요청 배치 처리 |
| 양자화 | bitsandbytes, AWQ, GPTQ |
| 스트리밍 | SSE 토큰 스트리밍 |
| Safetensors | 빠른 모델 로딩 |
Docker 실행
Python 클라이언트
TGI vs vLLM 비교
| 항목 | TGI | vLLM |
|---|---|---|
| 개발사 | Hugging Face | UC Berkeley |
| 코어 언어 | Rust | Python |
| HF Hub 통합 | 네이티브 | 지원 |
| 처리량 | 높음 | 매우 높음 |
| 커뮤니티 | HF 생태계 | 빠른 성장 |
관련 문서
- •/wiki/vllm
- •/wiki/ollama
- •/wiki/huggingface-transformers