고주파 디테일까지 살려낸 이미지-3D 생성, 표현·정렬 두 병목을 동시에 푼 FLUX3D

사진 한 장을 3D 자산으로 바꾸는 기술은 빠르게 성숙했지만, 입력 이미지의 미세한 질감과 무늬는 번번이 뭉개졌다. FLUX3D는 그 손실이 표현 학습과 2D-3D 정렬이라는 두 구조적 병목에서 비롯된다고 보고, 각각을 정조준한 처방으로 기존 최고 성능 기법들을 앞질렀다.

단일 이미지로부터 입체 모델을 만들어내는 image-to-3D 기술은 지난 몇 년 사이 게임 에셋 제작, 가상현실, 이커머스 상품 시각화, 로보틱스 시뮬레이션을 가리지 않고 빠르게 파고들었다. 그 중심에는 장면을 수많은 3D 가우시안의 집합으로 표현해 실시간에 가깝게 렌더링하는 3D Gaussian Splatting(3DGS)과, 공간을 격자로 나누되 실제로 채워진 칸만 남겨 연산을 감당 가능한 규모로 유지하는 희소 복셀(sparse voxel) 표현이 있다. 이 조합은 확장성 면에서 매력적이지만, 정작 사용자가 가장 민감하게 반응하는 지점에서 약점을 드러낸다. 입력 사진에 또렷하게 찍혀 있던 직물의 결, 금속 표면의 미세한 반사, 글자나 문양 같은 고주파 디테일이 생성된 3D 결과물에서는 흐릿하게 뭉개지는 것이다. FLUX3D는 이 손실을 단순한 해상도 문제가 아니라 파이프라인 구조에 박힌 두 개의 병목으로 진단하고, 그 둘을 따로 겨냥한다.

표현과 정렬, 디테일이 새는 두 지점

첫 번째 병목은 표현을 만드는 단계에 있다. 기존 방법들은 희소 복셀의 잠재 표현을 구성할 때, 의미적 추상화에 최적화된 판별형(discriminative) 2D 특징을 끌어다 쓴다. 이런 특징은 "이것이 고양이인가 개인가"를 가려내는 데는 탁월하지만, 바로 그 목적 때문에 픽셀 수준의 복원에 필요한 미세 단서를 의도적으로 억눌러 버린다. 무엇을 그릴지는 알아도 어떻게 세밀하게 그릴지는 잃어버리는, 일종의 표현 병목이 생기는 셈이다. 두 번째 병목은 생성 단계에서 나타난다. 확산 트랜스포머는 촘촘하게 늘어선 2D 이미지 토큰과 듬성듬성한 3D 복셀 잠재 표현이라는, 밀도도 구조도 전혀 다른 두 양식을 한자리에서 다뤄야 한다. 그런데 표준 확산 트랜스포머에는 이 둘을 제대로 짝지어 줄 장치가 없다. 어느 픽셀이 어느 복셀에 대응하는지를 모델이 분명히 잡아내지 못하니, 이미지가 품고 있던 외형 정보가 3D 공간으로 옮겨 가는 길목에서 또 한 번 새어 나간다. 저자들은 이를 교차 양식 대응 병목이라 부른다.

FLUX3D의 두 갈래 처방

FLUX3D의 설계는 이 두 병목에 정확히 대응하는 두 갈래로 갈린다. 표현 쪽에서는 어떤 2D 특징을 골라 쓸 것인가라는 물음을 처음부터 다시 던지며, 확산 모델과 정렬된 구조적 잠재 표현인 DA-SLAT(Diffusion-Aligned Structured Latents)을 제안한다. 판별을 위한 특징 대신 복원과 생성에 친화적인 특징을 택하고, 이를 디코더 중심(decoder-only) 구조와 결합해 3DGS 복원 충실도를 끌어올린다. 정렬 쪽에서는 희소 구조를 인식하는 확산 프레임워크를 새로 짠다. 희소 구조 다중 양식 확산 트랜스포머 SMDiT가 2D와 3D 토큰을 함께 처리하고, 양식을 구분해 위치를 부여하는 회전 위치 임베딩 MARoPE(Modal-Aware Rotary Positional Embedding)가 서로 다른 두 양식의 좌표 체계를 조율한다. 핵심은 이 정렬이 특정 기하 구조에 얽매이지 않는다는 점이다. 복셀이 어떤 형상으로 분포하든 2D 이미지와의 대응을 일관되게 맞출 수 있어, 모양이 제각각인 객체에도 두루 작동한다.

단일 이미지 3D 생성의 다음 단계

벤치마크 실험에서 FLUX3D는 외형 충실도를 크게 끌어올리며 기존 최고 성능 기법들을 일관되게 앞질렀다고 보고된다. 주목할 대목은 성능 수치 자체보다 그 출처에 대한 해석이다. 이 연구는 디테일 손실을 해상도를 더 키우거나 데이터를 더 부으면 풀리는 양적 문제로 보지 않고, 표현을 만드는 곳과 양식을 정렬하는 곳이라는 두 구조적 결함으로 분해한 뒤 각각에 맞는 처방을 내렸다. 마이크로소프트의 TRELLIS가 제시한 구조적 잠재 표현(SLAT) 계보 위에서, "어떤 2D 특징이 3D 생성에 적합한가"라는 질문을 정면으로 다시 묻는다는 점도 의미가 깊다. 물론 단일 이미지라는 입력의 본질적 한계, 즉 사진에 보이지 않는 뒷면이나 가려진 영역을 추론으로 메워야 하는 문제는 여전히 남는다. 그럼에도 입력 이미지의 질감을 최대한 보존한 채 3D로 옮기는 능력은, 손으로 일일이 다듬던 3D 자산 제작을 대량 자동화로 밀어 올리는 실질적인 한 걸음이다.