VLM 시각 그라운딩의 직렬 병목, 병렬 박스 디코딩으로 속도·정확도 동시 도약

시각-언어 모델이 물체의 위치를 찾을 때 좌표를 하나씩 순서대로 생성하는 방식은 기하학적 일관성을 해치고 추론 속도를 막는 구조적 모순을 품고 있다. LocateAnything은 박스 전체를 단일 원자 단위로 한 번에 예측하는 병렬 박스 디코딩을 통해 이 두 문제를 동시에 해결하며, 1억 3800만 개의 훈련 데이터로 정밀도를 한층 높인다.

시각-언어 모델(VLM)의 실용화 경쟁이 치열해지는 가운데, 이미지 속 특정 물체가 어디에 있는가를 정확히 찾아내는 시각 그라운딩(visual grounding) 능력은 자율주행, 로보틱스, 의료 영상 분석 등 현실 응용에서 핵심적인 역할을 맡고 있다. 그런데 현재 VLM의 주류 방식에는 묘한 모순이 숨어 있다. 물체의 위치를 나타내는 바운딩 박스—x 최솟값, y 최솟값, x 최댓값, y 최댓값으로 구성된 사각형—를 처리할 때 대부분의 모델은 이 2차원 구조를 네 개의 독립된 1차원 토큰으로 쪼개어 순차적으로 생성한다. 마치 정사각형을 네 변으로 잘라 따로따로 그리고 나중에 이어 붙이려는 것처럼.

박스를 직렬로 분해할 때 생기는 균열

바운딩 박스의 네 좌표는 서로 독립적이지 않다. 왼쪽 경계와 오른쪽 경계, 위쪽 경계와 아래쪽 경계는 박스 전체의 기하학적 구조 안에서 의미를 가진다. 너비, 종횡비, 중심 위치 같은 속성은 네 좌표가 함께 빚어내는 것이지, 그 중 어느 하나에서 홀로 나오는 것이 아니다. 그런데 기존 VLM은 이 좌표들을 언어 토큰과 동일한 방식으로, 하나씩 순서대로 생성한다.

이 접근의 첫 번째 문제는 기하학적 일관성의 손상이다. 각 좌표 토큰이 독립적으로 학습되다 보니 모델이 박스 전체의 형태를 통합적으로 이해하기보다 각 수치를 개별적으로 근사하게 된다. 결과적으로 정밀도가 가장 중요한 높은 IoU(Intersection over Union) 기준에서 성능이 지속적으로 저하된다. 두 번째 문제는 추론 속도다. 순차 생성은 병렬화가 원천적으로 불가능하기 때문에, 박스 하나를 출력하기 위해 네 번의 자기회귀 디코딩 단계를 밟아야 한다. 여러 물체를 동시에 탐지해야 하는 상황에서 이 병목은 급격히 커진다.

LocateAnything 연구팀은 이 두 가지 문제가 하나의 근본 원인, 즉 2차원 구조를 1차원 시퀀스로 강제 변환하는 데서 비롯된다고 본다. 해결책도 그에 따라 근본적이다. 박스를 토큰 시퀀스가 아니라 원자적 단위(atomic unit)로 취급하고, 단 한 번의 디코딩 단계에서 전체 박스를 한꺼번에 출력하자는 것이다.

병렬 박스 디코딩: 박스를 하나의 덩어리로

Parallel Box Decoding(PBD)의 핵심 아이디어는 단순하면서도 효과적이다. 네 좌표를 별도의 토큰으로 순차 생성하는 대신, 박스 전체를 단일 출력 단위로 묶어 병렬로 예측한다. 점(point) 좌표 등 다른 기하학적 요소도 같은 방식으로 원자적으로 처리된다. 이렇게 하면 좌표들이 공동으로 최적화되어 기하학적 일관성이 자연스럽게 보존되고, 동시에 네 번 걸리던 디코딩이 한 번으로 줄어 처리량이 대폭 늘어난다.

이 변화는 단순한 구현 최적화가 아니다. VLM이 바운딩 박스를 어떻게 표상하는지에 대한 관점의 전환이다. 좌표 토큰화는 언어 모델링 패러다임에서 그대로 빌려온 것으로, 모든 출력을 이산 기호의 시퀀스로 보는 관점에 기반한다. PBD는 공간적 기하 요소가 이 틀에 억지로 끼워 맞춰질 필요가 없다는 주장이기도 하다. 기하학은 고유한 표현 문법을 가질 자격이 있다는 것이다.

1억 3800만 개의 데이터가 뒷받침하는 정밀도

방법론적 혁신만으로는 충분하지 않다. 연구팀은 확장 가능한 데이터 엔진을 별도로 개발해 LocateAnything-Data라는 대규모 데이터셋을 구축했다. 1억 3800만 개가 넘는 훈련 샘플로 구성된 이 데이터셋은 다양한 그라운딩 시나리오를 커버하며, 정밀 로컬라이제이션을 위한 데이터 다양성을 이전과는 다른 수준으로 끌어올린다.

실험 결과는 PBD와 대규모 데이터라는 두 축의 보완 관계를 뚜렷하게 드러낸다. LocateAnything는 속도-정확도 트레이드오프 곡선을 전반적으로 밀어올려, 디코딩 처리량이 크게 향상되는 동시에 높은 IoU 기준에서의 로컬라이제이션 품질도 개선된다. 이는 다양한 벤치마크에 걸쳐 일관된 결과다. 통상적으로 속도를 높이면 정확도가 다소 희생되는데, PBD는 두 가지를 동시에 잡는다는 점에서 주목할 만하다.

시각 그라운딩과 일반 물체 탐지를 통합한 단일 프레임워크를 지향하는 LocateAnything의 접근은, 앞으로 VLM이 실제 세계에서 눈으로 보고 이해하며 행동하는 능력을 갖추는 데 의미 있는 이정표가 될 수 있다. 좌표를 토큰으로 쪼개는 오랜 관행에 균열을 냈다는 점에서, 이 논문은 기술적 성과 이상의 관점 전환을 제안하고 있다.