Constitutional AI (CAI) - 인공지능 > 언어모델 | AI Insight Note

Constitutional AI(CAI)는 Anthropic이 2022년 제안한 AI 훈련 기법이다. 명시적인 규칙 집합("헌법")에 따라 AI가 스스로 응답을 비판하고 개선하도록 학습시켜, 인간 피드백 의존도를 줄이면서도 해롭지 않고 정직한 AI를 만든다.

핵심 파이프라인

1단계: SL-CAI (Supervised Learning from AI Feedback)
  ├── 해로운 프롬프트 생성 (Red-team)
  ├── 초기 응답 생성
  ├── 헌법 원칙에 따라 비판 생성 (AI Critique)
  ├── 비판을 바탕으로 응답 개선 (AI Revision)
  └── 개선된 응답으로 SFT

2단계: RL-CAI (RL from AI Feedback, RLAIF)
  ├── 응답 쌍 생성
  ├── AI 선호도 판단 (헌법 기준)
  ├── 선호도 데이터로 보상 모델 학습
  └── PPO 강화학습

헌법 원칙 예시

python

CONSTITUTION = [
    # 무해성 원칙
    "응답이 물리적, 심리적, 사회적 해를 끼치지 않도록 수정하라.",
    "어린이에게 노출되어도 안전한 응답으로 수정하라.",
    "불법 활동을 조장하지 않도록 수정하라.",

    # 정직성 원칙
    "응답에 허위 정보가 포함되어 있다면 수정하라.",
    "불확실한 내용은 명확히 불확실하다고 표현하라.",

    # 유익성 원칙
    "응답이 사용자에게 실제로 도움이 되도록 수정하라.",
]

def self_critique_and_revise(prompt, initial_response, principle):
    """
    AI가 자신의 응답을 원칙에 따라 비판하고 개선
    (실제로는 LLM API 호출)
    """
    critique_prompt = f"""
    [원칙]: {principle}
    [응답]: {initial_response}
    위 원칙에 따라 응답의 문제점을 찾고 개선된 응답을 작성하라.
    """
    return critique_prompt

RLHF vs Constitutional AI

항목	RLHF	Constitutional AI
피드백 출처	인간 레이블러	AI (헌법 기반)
비용	높음	낮음
일관성	레이블러마다 다름	원칙 기반으로 일관
투명성	낮음	원칙 명시 가능
확장성	제한적	높음

Constitutional AI (CAI)Constitutional AI

핵심 파이프라인

헌법 원칙 예시

RLHF vs Constitutional AI

관련 개념

관련 노트

프론티어 AI 모델Frontier AI Models

에이전틱 AIAgentic AI

AutoGPTAutoGPT