AI 안전성(AI Safety)은 AI 시스템이 의도한 대로 작동하고, 인간의 가치와 목표에 부합하며, 예기치 않은 해를 끼치지 않도록 보장하는 연구 및 공학 분야다. 대형 언어 모델의 급격한 발전으로 그 중요성이 커지고 있다.
핵심 문제
1. 정렬 문제(Alignment Problem)
AI 목표가 인간 가치와 실제로 일치하는가?
2. 분포 이탈(Distribution Shift)
학습 분포 밖 입력에서 모델이 어떻게 동작하는가?
3. 탈옥(Jailbreak) 및 프롬프트 인젝션
악의적 사용자가 안전 가드레일을 우회할 수 있는가?
4. 환각(Hallucination)
모델이 사실이 아닌 내용을 자신 있게 생성하는가?
5. 개인정보 유출
학습 데이터의 민감 정보가 노출될 수 있는가?
RLHF (인간 피드백 강화학습)
python
"""
RLHF 파이프라인:
1. SFT (Supervised Fine-Tuning): 고품질 데모로 사전 학습 모델 미세조정
2. Reward Model 학습: 인간 선호도 쌍(응답 A > 응답 B)으로 보상 모델 학습
3. PPO 강화학습: 보상 모델로 언어 모델 최적화 (KL 발산 페널티 포함)
"""
# KL 페널티 포함 PPO 목적 함수
def rlhf_objective(response, ref_logprobs, policy_logprobs, reward, kl_coef=0.1):
kl_penalty = (policy_logprobs - ref_logprobs).sum()
return reward - kl_coef * kl_penalty
주요 안전성 기법
| 기법 | 목적 | 예시 |
|---|
| RLHF | 인간 선호 정렬 | ChatGPT |
| Constitutional AI | 원칙 기반 자체 비판 | Claude |
| Red-teaming | 취약점 발견 | 적대적 테스트 |
| 출력 필터링 | 유해 콘텐츠 차단 | 분류기 |
| 불확실성 정량화 | 모델 신뢰도 표현 | 보정(Calibration) |
평가 벤치마크
| 벤치마크 | 측정 대상 |
|---|
| TruthfulQA | 환각 및 진실성 |
| HellaSwag | 상식 추론 |
| HarmBench | 해로운 행동 거부율 |
| MMLU | 광범위 지식 |
관련 개념