이미지 생성의 다양성을 의미의 축으로 통제, 창작적 탐색의 새 문법 제시

텍스트-이미지 모델은 정확해질수록 결과가 하나의 해석으로 수렴한다. 텔아비브대 연구진은 다양성을 픽셀이 아니라 텍스트 층위에서 만들어, 사용자가 의미 있는 변주의 축을 따라 갤러리를 항해하는 '의미적 브라우징'을 제안한다. 무작위 변이를 흔드는 대신, 장면을 이해하는 언어모델이 해석 가능한 디자인 선택지를 펼쳐 놓는다.

현대의 텍스트-이미지 모델은 두 가지 미덕을 동시에 갖췄다. 시각적 충실도가 높고, 프롬프트를 충실히 따른다. 그런데 이 두 미덕이 한데 모이면 묘한 부작용이 생긴다. 같은 프롬프트로 여러 장을 뽑아도 결과가 사실상 하나의 시각적 해석으로 수렴하는 것이다. 모델이 프롬프트를 너무 잘 따른 나머지, 그 프롬프트가 허용하는 풍부한 가능성의 공간을 스스로 좁혀 버린다. 텔아비브대학교의 Daniel Cohen-Or 연구진이 내놓은 이 논문은 바로 이 충실도와 다양성 사이의 긴장을 정면으로 다룬다.

충실도가 삼켜 버린 다양성

다양성을 늘리려는 기존 시도가 없었던 것은 아니다. 문제는 그 다양성의 성격에 있다. 노이즈 시드를 바꾸거나 샘플링 과정에 변이를 주입하면 결과는 분명 달라지지만, 그 차이는 조명이 약간 흔들리거나 질감이 미묘하게 변하는 식의 우연한 변주에 그친다. 사용자가 "이 디자인 결정을 바꿔 보고 싶다"고 의도해서 얻는 변화가 아니라, 통제할 수 없는 잡음이 만들어 낸 부산물인 셈이다. 연구진은 여기서 다양성 과제를 새롭게 정의한다. 생성된 표본들 위에 구조가 부과되어야 하며, 모든 변주가 사용자가 이해할 수 있는 특정한 의미적 선택에 대응해야 한다는 것이다. 이렇게 정의된 다양성은 단순히 "여러 장을 다르게 뽑는" 문제가 아니라, 디자인 공간을 체계적으로 항해할 수 있게 만드는 문제로 바뀐다.

다양성을 픽셀이 아니라 텍스트에서 만든다

이 논문의 핵심 통찰은 최근 텍스트-이미지 모델의 훈련 방식에서 출발한다. 요즘 모델들은 짧은 캡션이 아니라 장면을 세밀하게 풀어 쓴 정교한 캡션으로 학습된다. 그 결과 의미를 결정하는 단계와 픽셀을 만들어 내는 단계가 사실상 분리되어 있다. 연구진은 이 분리를 지렛대 삼는다. 모델 내부의 확률적 변이에 다양성을 기대는 대신, 다양성을 아예 텍스트 층위에서 직접 유도하는 것이다. 풍부한 텍스트 표현을 활용하면 비전-언어모델이 장면 전체의 맥락 위에서 작동할 수 있고, 따라서 어떤 의미 축을 어떻게 변주할지를 장면을 이해한 상태에서 결정할 수 있다.

다만 표준적인 비전-언어모델에 그냥 "다양하게 바꿔 봐"라고 시키면 평범하고 일반적인 답이 나오기 마련이다. 연구진은 이 한계를 에이전트형 워크플로로 넘어선다. 모델이 원래 프롬프트에 맞춰 구조화된 변주를 명시적으로 강제하도록 절차를 설계하는 것이다. 그 결과물이 바로 의미적 브라우징(Semantic Browsing)이다. 사용자는 구조화된 이미지 갤러리를 탐색하면서, 해석 가능한 변주의 축을 따라 체계적으로 이동한다. 한 축은 인물의 분위기를, 다른 축은 배경의 시대감을, 또 다른 축은 색채 언어를 담당하는 식으로, 격자 위의 모든 칸이 의도된 디자인 결정에 대응한다.

생성에서 탐색으로

이 작업이 흥미로운 이유는 단순히 결과 이미지를 더 다채롭게 만드는 데 있지 않다. 생성 패러다임 자체를 "한 장을 잘 뽑는 일"에서 "의미 있는 가능성의 지도를 펼치고 항해하는 일"로 옮겨 놓기 때문이다. 디자이너에게 이미지 모델은 그동안 복권 추첨기에 가까웠다. 프롬프트를 던지고, 마음에 들 때까지 다시 뽑는 방식이었다. 의미적 브라우징은 그 자리를 의도가 개입할 수 있는 통제 가능한 설계 도구로 바꾼다. 무엇을 바꾸고 있는지 알 수 있고, 왜 그 방향으로 움직이는지 설명할 수 있는 탐색이 가능해지는 것이다. 충실도를 희생하지 않으면서 다양성을 되찾되, 그 다양성을 우연이 아니라 의미가 책임지게 만든다는 점에서 이 연구는 생성형 시각 도구의 다음 단계를 가리킨다.