AI Safety - 인공지능 > 언어모델 | AI Insight Note

AI 안전성(AI Safety)은 AI 시스템이 의도한 대로 작동하고, 인간의 가치와 목표에 부합하며, 예기치 않은 해를 끼치지 않도록 보장하는 연구 및 공학 분야다. 대형 언어 모델의 급격한 발전으로 그 중요성이 커지고 있다.

핵심 문제

1. 정렬 문제(Alignment Problem)
   AI 목표가 인간 가치와 실제로 일치하는가?

2. 분포 이탈(Distribution Shift)
   학습 분포 밖 입력에서 모델이 어떻게 동작하는가?

3. 탈옥(Jailbreak) 및 프롬프트 인젝션
   악의적 사용자가 안전 가드레일을 우회할 수 있는가?

4. 환각(Hallucination)
   모델이 사실이 아닌 내용을 자신 있게 생성하는가?

5. 개인정보 유출
   학습 데이터의 민감 정보가 노출될 수 있는가?

RLHF (인간 피드백 강화학습)

python

"""
RLHF 파이프라인:
1. SFT (Supervised Fine-Tuning): 고품질 데모로 사전 학습 모델 미세조정
2. Reward Model 학습: 인간 선호도 쌍(응답 A > 응답 B)으로 보상 모델 학습
3. PPO 강화학습: 보상 모델로 언어 모델 최적화 (KL 발산 페널티 포함)
"""

# KL 페널티 포함 PPO 목적 함수
def rlhf_objective(response, ref_logprobs, policy_logprobs, reward, kl_coef=0.1):
    kl_penalty = (policy_logprobs - ref_logprobs).sum()
    return reward - kl_coef * kl_penalty

주요 안전성 기법

기법	목적	예시
RLHF	인간 선호 정렬	ChatGPT
Constitutional AI	원칙 기반 자체 비판	Claude
Red-teaming	취약점 발견	적대적 테스트
출력 필터링	유해 콘텐츠 차단	분류기
불확실성 정량화	모델 신뢰도 표현	보정(Calibration)

평가 벤치마크

벤치마크	측정 대상
TruthfulQA	환각 및 진실성
HellaSwag	상식 추론
HarmBench	해로운 행동 거부율
MMLU	광범위 지식

AI SafetyAI 안전성

핵심 문제

RLHF (인간 피드백 강화학습)

주요 안전성 기법

평가 벤치마크

관련 개념

관련 노트

프론티어 AI 모델Frontier AI Models

에이전틱 AIAgentic AI

AutoGPTAutoGPT