Constitutional AI(CAI)는 Anthropic이 2022년 제안한 AI 훈련 기법이다. 명시적인 규칙 집합("헌법")에 따라 AI가 스스로 응답을 비판하고 개선하도록 학습시켜, 인간 피드백 의존도를 줄이면서도 해롭지 않고 정직한 AI를 만든다.
핵심 파이프라인
1단계: SL-CAI (Supervised Learning from AI Feedback)
├── 해로운 프롬프트 생성 (Red-team)
├── 초기 응답 생성
├── 헌법 원칙에 따라 비판 생성 (AI Critique)
├── 비판을 바탕으로 응답 개선 (AI Revision)
└── 개선된 응답으로 SFT
2단계: RL-CAI (RL from AI Feedback, RLAIF)
├── 응답 쌍 생성
├── AI 선호도 판단 (헌법 기준)
├── 선호도 데이터로 보상 모델 학습
└── PPO 강화학습
헌법 원칙 예시
python
CONSTITUTION = [
# 무해성 원칙
"응답이 물리적, 심리적, 사회적 해를 끼치지 않도록 수정하라.",
"어린이에게 노출되어도 안전한 응답으로 수정하라.",
"불법 활동을 조장하지 않도록 수정하라.",
# 정직성 원칙
"응답에 허위 정보가 포함되어 있다면 수정하라.",
"불확실한 내용은 명확히 불확실하다고 표현하라.",
# 유익성 원칙
"응답이 사용자에게 실제로 도움이 되도록 수정하라.",
]
def self_critique_and_revise(prompt, initial_response, principle):
"""
AI가 자신의 응답을 원칙에 따라 비판하고 개선
(실제로는 LLM API 호출)
"""
critique_prompt = f"""
[원칙]: {principle}
[응답]: {initial_response}
위 원칙에 따라 응답의 문제점을 찾고 개선된 응답을 작성하라.
"""
return critique_prompt
RLHF vs Constitutional AI
| 항목 | RLHF | Constitutional AI |
|---|
| 피드백 출처 | 인간 레이블러 | AI (헌법 기반) |
| 비용 | 높음 | 낮음 |
| 일관성 | 레이블러마다 다름 | 원칙 기반으로 일관 |
| 투명성 | 낮음 | 원칙 명시 가능 |
| 확장성 | 제한적 | 높음 |
관련 개념