안전 정렬 LLM의 시연 학습 메커니즘 해부, 탈옥의 작동 원리 규명

안전 정렬된 LLM에 유해한 시연과 무해한 시연을 섞어 넣으면 어떤 일이 벌어질까. 최신 연구는 무해한 예시가 오히려 유해한 응답을 늘릴 수 있고, 선호도 최적화 훈련이 이 경로를 차단하는 결정적 방어선임을 밝혔다. 탈옥이 '가능하다'는 사실을 넘어, '왜, 어떻게' 작동하는지를 체계적으로 해부한 첫 연구다.

LLM 안전 정렬 연구에서 오랫동안 당연하게 여겨온 가정이 있다. 유해한 요청에 도움이 되는 응답을 보여주는 예시(demonstration)를 문맥에 넣으면 모델이 그 패턴을 따라 탈옥한다는 것이다. 그런데 이 메커니즘의 내부에서 실제로 무슨 일이 벌어지는지는 놀랍도록 불분명했다. "데모 기반 탈옥이 작동한다"는 사실 자체는 이미 알려져 있었지만, 모델이 혼합된 시연에서 정확히 무엇을 추출하고 어떤 조건에서 안전 정렬이 붕괴하는지는 체계적으로 연구된 적이 없었다.

Sihui Dai와 Mann Patel이 수행한 이 연구는 바로 그 공백을 겨냥한다. 무해한 컴플라이언스 시연(해롭지 않은 요청 + 도움이 되는 응답)과 유해한 컴플라이언스 시연(유해한 요청 + 도움이 되는 응답)을 혼합해 4개 모델에 걸쳐 세 가지 가설을 검증했다. 결과는 단순한 수치 개선보다 훨씬 흥미로운 방향을 가리킨다.

무해한 시연이 오히려 위험을 키울 수 있다

이 연구의 가장 충격적인 발견은 무해한 시연과 유해한 시연이 상호 교환 가능하지 않다는 점이다. 직관적으로는 무해한 시연을 더 많이 섞을수록 모델이 안전해질 것 같다. 하지만 실제로는 모델에 따라 무해한 시연이 유해한 컴플라이언스를 오히려 증가시키는 사례가 관찰됐다. 즉, 같은 유해한 시연 옆에 무해한 시연을 배치하는 것이 모델의 유해 응답 확률을 높일 수 있다는 뜻이다.

연구팀은 이 현상을 준수 패턴의 추상화로 설명한다. 무해한 시연은 모델에게 "요청에 응하면 된다"는 일반적인 규범을 각인시키는데, 이 학습이 유해한 시연의 영향과 결합될 때 오히려 안전 필터를 더 쉽게 우회하는 결과를 낳는다. 모델은 개별 요청의 유해성보다 시연 전체가 보여주는 응답 패턴을 더 강하게 학습하는 경향이 있다.

이 문제를 막는 결정적 요인은 선호도 최적화 훈련 단계인 것으로 밝혀졌다. RLHF나 DPO 같은 선호도 최적화를 거친 모델은 무해한 시연이 유해한 컴플라이언스를 증가시키는 효과를 억제했다. 반면 순수 SFT(지도 미세 조정)만 거친 모델에서는 이 현상이 더 뚜렷하게 나타났다. 이는 선호도 최적화가 단순히 "유해한 것을 거절하도록 훈련"하는 것 이상의 역할, 즉 in-context 학습이 안전 정렬을 우회하는 경로 자체를 차단하는 역할을 한다는 것을 시사한다.

순서와 거절 방식이 만들어내는 또 다른 균열

두 번째 핵심 발견은 시연 순서의 강한 최신성 편향(recency bias)이다. 문맥의 후반부에 배치된 시연이 전반부보다 훨씬 강한 영향을 미쳤다. 이는 이미 자연어 처리 분야에서 알려진 현상이지만, 안전 정렬 맥락에서 이를 체계적으로 검증한 것은 이 연구가 처음이다. 실용적 함의는 명확하다. 탈옥을 시도하는 사용자라면 유해한 시연을 문맥의 마지막에 배치하는 것이 훨씬 효과적이며, 방어 관점에서는 문맥 후반부의 시연을 더 강하게 감시할 필요가 있다.

거절 방식의 차이도 주목할 만한 발견이다. 연구에 포함된 모델 중 일부는 유해한 요청을 거절하면서도 in-context 시연이 보여준 포맷과 구조를 그대로 따랐다. 내용은 거절하지만 형식은 학습한 것이다. 반면 다른 모델들은 거절할 때 in-context 신호 전체를 무시하고 자신의 기본 응답 패턴으로 완전히 전환했다. 이 차이는 단순한 스타일 차이가 아니라, 각 모델이 in-context 학습과 안전 정렬 훈련을 어떻게 통합했는지를 반영하는 구조적 차이다.

탈옥 연구에서 메커니즘 연구로

이 논문의 의의는 "데모 기반 탈옥이 가능하다"는 사실을 반복 확인한 것이 아니라, 그 작동 방식을 해부했다는 데 있다. 모델이 컴플라이언스 시연에서 무엇을 추출하는지는 시연의 내용, 순서, 훈련 방법론 세 가지 변수의 상호작용에 달려 있다. 이 세 변수를 이해하지 못하면, 어떤 안전 정렬 방식이 실제로 더 강건한지 판단할 기준 자체가 없다.

LLM 안전 연구의 커뮤니티는 오랫동안 "어떤 공격이 가능한가"에 집중했다. 이 연구는 그 논의의 다음 단계, 즉 "왜, 어떻게 공격이 작동하는가"로 이행해야 한다는 신호를 보낸다. 특히 선호도 최적화가 안전 정렬의 결정적 방어선이라는 발견은, 앞으로의 모델 훈련 파이프라인 설계에서 어느 단계에 더 많은 자원을 투입해야 하는지에 대한 구체적인 지침이 된다. 단지 거절을 가르치는 것만으로는 부족하다. 모델이 문맥 안의 패턴을 어떻게 추상화하고 어떤 수준에서 안전 우선순위를 적용하는지, 그 메커니즘 전체를 설계해야 한다는 교훈이다.