노래 생성의 구조적 딜레마 해소, 미학 기반 학습으로 상업 시스템 추격

전곡 단위 노래 생성은 보컬과 반주의 호흡을 지키면서 동시에 트랙별 음향 디테일까지 살려야 하는 모순에 부딪힌다. LeVo 2는 이 둘을 계층으로 분리하고, 음악적 완성도를 학습 일정 안에 녹여 넣는 발상으로 오픈소스의 한계를 넘어 상업 음악 AI를 추격한다.

전곡 단위의 노래를 인공지능이 처음부터 끝까지 만들어내는 일은 음악 AI에서 가장 까다로운 과제로 꼽힌다. 단순히 멜로디 한 토막을 그럴듯하게 잇는 것과 달리, 곡 전체의 흐름이 무너지지 않아야 하고, 보컬과 반주가 서로 어긋나지 않게 호흡을 맞춰야 하며, 동시에 목소리의 질감과 악기 소리의 세부까지 또렷하게 들려야 한다. 여기에 가사와 프롬프트를 충실히 따라야 한다는 조건까지 더해지면, 모델은 여러 목표가 서로 발목을 잡는 상황에 빠진다. 텐센트와 협력 연구진이 내놓은 LeVo 2는 바로 이 충돌을 정면으로 다룬다.

혼합 토큰과 듀얼 트랙 사이의 딜레마

기존 언어모델 기반 노래 생성 시스템은 구조적인 양자택일에 갇혀 있었다. 한쪽 방식은 보컬과 반주를 하나의 토큰 흐름에 섞어 모델링한다. 이렇게 하면 노래가 진행되는 동안 목소리와 악기가 한 호흡으로 움직이는 일관성은 잘 지켜지지만, 정작 각 트랙이 지닌 고유한 음향 디테일은 뭉개진다. 반대편 방식은 보컬과 반주를 별도의 트랙으로 나눠 예측한다. 음향의 선명도는 살아나지만, 시퀀스가 그만큼 길어지면서 곡 전체를 조망하는 구성 능력, 즉 어디서 후렴이 터지고 어디서 가라앉아야 하는지에 대한 큰 그림이 약해진다. 음악성이냐 음향이냐를 두고 어느 한쪽을 포기해야 했던 셈이다.

LeVo 2는 이 모순을 양자택일이 아니라 계층의 문제로 다시 정의한다. LeLM이라 부르는 언어모델이 먼저 혼합 토큰을 예측해 곡의 의미적 골격을 세운다. 전체 구조와 흐름을 잡는 의미 계획 단계다. 그다음 같은 모델이 보컬 토큰과 반주 토큰을 병렬로 예측해 트랙별 음향을 정교하게 다듬는다. 마지막으로 확산(diffusion) 기반의 뮤직 코덱이 이 토큰들로부터 전곡 길이의 파형을 복원한다. 큰 그림을 먼저 그리고 세부를 채우는 이 위계 덕분에, 둘 중 하나를 버릴 필요 없이 일관성과 디테일을 함께 가져갈 수 있다는 것이 핵심 주장이다.

미학을 학습 일정 안으로 끌어들이다

이번 확장판에서 가장 눈에 띄는 기여는 정렬(alignment) 과정을 미학 중심의 학습 일정으로 재설계했다는 점이다. 연구진은 사전학습 단계에서 자동 음악 미학 평가 프레임워크를 동원해 대규모 데이터 하나하나에 음악성 등급 조건을 매긴다. 선호 정렬을 시작하기도 전에 모델에게 '무엇이 듣기 좋은 음악인가'에 대한 사전 감각을 미리 심어두는 것이다. 이후의 후속 학습은 단계를 나눠 진행된다. 먼저 지도 미세조정으로 생성 품질의 바탕을 다지고, 대규모 오프라인 DPO로 제어 가능성을 끌어올린 뒤, 폐루프 방식의 준온라인 DPO로 음악성을 다듬는다. 마지막에는 모듈을 덧붙여 트랙별 언어모델을 학습시키되, 앞서 정렬해 둔 의미 계획기는 건드리지 않고 보존한다.

이렇게 음악성 학습, 제어 가능성 정렬, 음향 정교화를 서로 다른 단계로 떼어놓는 설계에는 분명한 의도가 있다. 한 모델 안에서 여러 목표를 동시에 밀어붙이면 최적화가 서로 충돌하기 마련이고, 고정된 오프라인 선호 쌍만으로는 학습이 금세 한계에 부딪힌다. 단계 분리는 바로 그 충돌과 정체를 완화하는 장치다. 전문가 청취 평가와 객관 지표 모두에서 LeVo 2는 여섯 가지 주관적 항목에 걸쳐 오픈소스 기준 모델들을 앞섰고, 몇몇 청취 지표에서는 선도적 상업 시스템에 근접하는 결과를 냈다. 오픈소스 진영이 닫힌 상업 음악 AI와의 격차를 좁히는 한 걸음이라는 점에서, 이 연구의 가치는 단순한 성능 수치 이상의 의미를 지닌다.