AI · Web3 · Tech trends and insights at a glance
AI · Web3 · Tech trends and insights at a glance
by Liminal·P
2026.06.02원문 논문 ↗
From Layers to Submodules: Rethinking Granularity in Replacement-Based LLM Compression
Elia Cunegatti, Marcus Vukojevic, Erik Nielsen, Giovanni Iacca
발행일: 2026.06.01
대체 기반 LLM 압축 방법론은 오랫동안 두 가지 전제를 당연하게 받아들여왔다. 레이어 단위로만 처리해야 한다는 것, 그리고 제거 대상은 연속적이어야 한다는 것이다. 트렌토 대학 연구팀이 제안한 SubFit은 이 두 전제를 동시에 깨뜨리며, 25% 희소성 기준에서 기존 최강 기법 대비 퍼플렉시티 악화를 절반 이하로 억제한다.
트랜스포머 기반의 대형 언어 모델이 실용화 단계에 접어들면서, 모델 경량화는 연구자들에게 가장 긴급한 과제 중 하나가 되었다. GPU 서버 한 대에 겨우 올라가는 70억짜리 모델이 일상적인 추론 태스크에 쓰이는 지금, 파라미터 수를 줄이되 성능 손실을 최소화하는 기술의 수요는 끝이 없다. 이 맥락에서 최근 수년간 주목받아온 방법론은 '대체 기반 압축(replacement-based compression)'이다. 특정 레이어를 통째로 제거하거나, 가벼운 적합 모듈로 교체하는 방식이다. 그런데 이 방법론에는 오래도록 당연시되어 온 두 가지 암묵적 전제가 존재한다. 트렌토 대학 연구팀이 arXiv에 공개한 논문 "From Layers to Submodules"는 바로 이 전제에 정면으로 이의를 제기한다.
기존 대체 기반 압축 방법들은 두 가지 설계 제약을 공유한다. 첫째는 '전체 레이어 단위(full-layer granularity)'로만 처리한다는 것이고, 둘째는 제거 대상 레이어들이 '연속적(contiguous)'이어야 한다는 것이다. 직관적으로 이해되는 설계다. 트랜스포머 블록은 어텐션(Attention)과 피드포워드(FeedForward) 서브모듈이 쌍으로 묶여 있고, 이를 하나의 단위로 처리하는 것이 구현상 간편하기 때문이다. 또한 중간층의 특정 구간이 덜 중요하다는 가정 아래, 연속된 블록들을 하나의 덩어리로 잘라내거나 교체하는 방식을 택해왔다.
하지만 연구팀은 이 두 가지 전제 모두 실증적으로 검토해보면 흔들린다고 지적한다. 첫째, 어텐션과 피드포워드 서브모듈은 동일한 레이어 안에 있어도 중복성(redundancy)의 수준이 서로 다를 수 있다. 어텐션 서브모듈은 제거해도 비교적 무해한 레이어라도, 같은 레이어의 피드포워드는 사실상 핵심 지식을 인코딩하고 있을 수 있다. 반대 경우도 마찬가지다. 이 경우 레이어 단위로 처리하면 반드시 필요한 부분까지 함께 날려버리거나, 반드시 제거해야 할 부분을 굳이 살리는 비효율이 발생한다.
둘째, 제거 가능한 서브모듈들이 반드시 연속된 구간에 집중되어 있지 않다. 실제로 프리트레인된 트랜스포머를 살펴보면, 중요도가 낮은 서브모듈들이 모델의 중간 어딘가에 집중되기보다는 비연속적으로 흩어져 있는 경우가 더 흔하다. 연속 구간을 가정하는 선택 방식은 이 비연속적 패턴을 포착하지 못한다.
이 논문이 제안하는 SubFit(Submodule-level Fitted residual replacement)은 이 두 제약을 동시에 해소하는 설계를 취한다. 핵심 아이디어는 단순하다. 어텐션과 피드포워드 서브모듈을 레이어 단위로 묶지 않고 독립적으로 선택 대상으로 취급하고, 연속성 제약 없이 모델 전체에서 제거할 서브모듈을 고른다는 것이다.
제거된 자리에는 가벼운 '적합 잔차 우회(fitted residual bypass)' 모듈이 삽입된다. 이것은 해당 서브모듈이 없을 때 발생하는 표현의 손실을 보정하기 위해 보정 데이터(calibration data)로 학습된 작은 선형 모듈이다. 이 보정 과정은 사후 훈련(post-training) 방식으로 진행되며, 전체 재훈련 없이도 적용 가능하다. 각 서브모듈 유형에 맞게 독립적인 우회 모듈이 배치되기 때문에, 어텐션과 피드포워드의 성격 차이를 반영해 각각에 최적화된 근사가 이루어진다.
연구팀은 다섯 개의 기반 모델과 다섯 개의 인스트럭션 튜닝 모델을 포함해 총 10개의 LLM에 SubFit을 적용하고, 12.5%에서 37.5%까지 다섯 단계의 희소성(sparsity) 수준에서 네 가지 기존 대체 기반 방법과 비교했다. 25% 희소성 기준에서 SubFit은 밀집 모델 대비 다운스트림 정확도의 84.6%를 유지한 반면, 가장 강력한 기존 기법은 81.6%에 머물렀다. 퍼플렉시티(perplexity) 기준으로도 SubFit은 2.42배 증가에 그쳤지만, 기존 최강 기법은 4.34배나 증가했다.
수치만 보면 몇 퍼센트포인트의 차이처럼 보이지만, 이 차이는 모델 압축 연구의 맥락에서 상당히 큰 의미를 가진다. 특히 37.5%처럼 공격적인 압축 수준에서 성능 차이가 더 두드러진다는 점은 주목할 만하다. 압축을 가볍게 적용할 때는 여러 방법의 차이가 작지만, 실제로 배포 현장에서 요구되는 공격적인 경량화 상황에서 SubFit이 더 탄탄한 저항력을 보인다는 뜻이다.
추론 속도와 KV 캐시 절약 효과도 실측 가능한 수준으로 나타났다고 연구팀은 보고한다. 서브모듈 자체가 제거되므로 단순히 가중치를 줄이는 것이 아니라 실제 계산 경로가 단축된다. 이것은 양자화(quantization)나 가지치기(pruning) 방식과 달리 구조적 경량화의 특성이다.
더 근본적으로는, 이 연구가 프리트레인된 트랜스포머의 중복성 분포에 관한 새로운 관점을 제시한다는 점이 중요하다. 어텐션과 피드포워드가 동일한 레이어 안에 묶여 있어도 그 중요도가 독립적으로 다를 수 있다는 발견은, 앞으로의 모델 설계와 압축 전략 양쪽 모두에 영향을 줄 수 있는 통찰이다. 레이어라는 단위가 트랜스포머 이해의 기본 단위로 너무 당연하게 받아들여져 왔다면, SubFit은 그 경계를 서브모듈 수준으로 내려다볼 것을 요구하는 셈이다. 오픈소스로 공개된 코드와 함께, 이 논문은 LLM 압축의 설계 공간을 실질적으로 확장하는 기여를 남겼다.