하이퍼네트워크로 저장소 지식을 어댑터에 증류, 코드 모델 추론 부담 없이 맥락 주입

코드 언어 모델이 특정 저장소를 이해하려면 임포트 구조, API 규약, 네이밍 컨벤션 같은 맥락이 필요하지만, 기존 방식은 추론마다 수천 토큰을 쓰거나 저장소마다 별도 파인튜닝을 돌려야 했다. Code2LoRA는 하이퍼네트워크로 저장소 맞춤 LoRA 어댑터를 직접 생성해, 추론 시 토큰을 한 개도 추가하지 않고 저장소 지식을 모델에 주입한다. 코드베이스가 커밋마다 진화하는 상황까지 GRU 기반 순환 구조로 흡수하며, 저장소별 개별 파인튜닝에 버금가는 성능을 보여준다.

코드 언어 모델이 실제 소프트웨어 개발 환경에서 작동하려면 단순히 언어 문법을 아는 것만으로는 부족하다. 특정 저장소가 어떤 라이브러리를 임포트하는지, 어떤 API 규약을 따르는지, 어떤 네이밍 컨벤션을 지키는지—이 모든 맥락이 모델에 주입되어야 실용적인 코드 보완이 가능해진다. 지금까지 이 문제를 해결하는 방법은 크게 두 갈래였다. 하나는 검색 증강 생성(RAG)이나 의존성 분석을 통해 관련 코드 조각을 프롬프트에 덧붙이는 방식이고, 다른 하나는 저장소별로 LoRA 파인튜닝을 수행하는 방식이다. 전자는 추론 시마다 수천 개의 토큰을 소비하고, 후자는 저장소 규모에서 감당하기 어려운 학습 비용을 요구한다. 두 방식 모두 코드베이스가 지속적으로 변한다는 현실 앞에서 쉽게 낡아버린다.

이 논문이 제안하는 Code2LoRA는 다른 길을 택한다. 저장소의 내용을 프롬프트에 실어 보내거나 개별 파인튜닝을 돌리는 대신, 하이퍼네트워크를 이용해 그 저장소에 최적화된 LoRA 어댑터를 생성한다. 핵심 아이디어는 간결하면서도 강력하다. 저장소 지식을 토큰 시퀀스로 "소비"하는 게 아니라 모델 가중치의 미세 조정값으로 "압축"하는 것이다. 이렇게 생성된 어댑터는 추론 시 토큰을 한 개도 추가로 소비하지 않는다.

하이퍼네트워크로 어댑터를 '주조'하다

하이퍼네트워크는 다른 네트워크의 가중치를 출력하는 메타 네트워크다. Code2LoRA의 하이퍼네트워크는 저장소의 코드 파일들을 입력받아, 그 저장소에 맞춤화된 LoRA 어댑터의 가중치를 생성한다. 생성된 어댑터는 베이스 코드 언어 모델에 끼워넣어져, 마치 해당 저장소에서 직접 파인튜닝된 모델처럼 동작한다.

논문은 두 가지 사용 시나리오를 구분해 설계했다. Code2LoRA-Static은 저장소의 특정 스냅샷을 어댑터로 변환한다. 안정적인 코드베이스를 이해하거나 레거시 시스템을 분석하는 용도에 적합하다. 정적 트랙 벤치마크에서 이 모델은 교차 저장소 정확 일치(cross-repo exact match) 63.8%, 내부 저장소 기준 66.2%를 달성했다. 눈에 띄는 점은 이 수치가 저장소마다 개별 LoRA를 학습시킨 "상한선" 성능과 거의 일치한다는 사실이다. 하이퍼네트워크가 수백 개 저장소의 어댑터를 한꺼번에 학습하면서도 저장소별 개별 파인튜닝에 버금가는 품질을 달성한 것이다.

Code2LoRA-Evo는 한발 더 나아간다. 실제 개발 환경에서 코드는 멈추지 않고 변한다. 커밋이 쌓이고, 함수가 리팩토링되고, 새로운 의존성이 추가된다. Evo 변형은 GRU(Gated Recurrent Unit) 기반의 순환 구조를 도입해, 코드 diff가 들어올 때마다 어댑터의 숨겨진 상태를 갱신한다. 저장소의 역사적 맥락이 어댑터 안에 지속적으로 누적되는 구조다.

진화하는 코드베이스와 RepoPeftBench

Code2LoRA를 평가하기 위해 저자들은 RepoPeftBench라는 새 벤치마크를 함께 공개했다. 604개의 파이썬 저장소로 구성된 이 벤치마크는 두 개의 트랙을 포함한다. 정적 트랙은 4만 건의 학습 태스크와 1만 2천 건의 테스트 태스크로 구성된 assertion 완성 과제다. 진화 트랙은 커밋 이력에서 추출한 21만 5천 건의 학습 데이터와 8만 7천 건의 테스트 데이터로 이루어져, 시간 순서가 보존된 상태로 모델의 점진적 적응 능력을 측정한다.

진화 트랙에서 Code2LoRA-Evo는 교차 저장소 기준 60.3%를 달성하며, 단일 공유 LoRA 대비 5.2 퍼센트포인트 향상을 기록했다. 이 수치 자체보다 중요한 것은 향상의 출처다. RAG처럼 추론 시 토큰을 더 쓰는 게 아니라, 어댑터 안에 저장소의 진화 역사를 직접 인코딩함으로써 얻은 결과다.

코드 모델이 저장소 수준의 지식을 갖추는 방식은 앞으로도 활발히 연구될 영역이다. Code2LoRA가 제시한 "어댑터 생성" 접근은 추론 비용과 학습 비용 사이의 균형점을 새롭게 그어낸다. 특히 기업 환경에서 수십, 수백 개의 내부 저장소를 지원해야 하는 시나리오에서 이 접근법의 경제적 이점은 두드러질 것이다. RAG 파이프라인의 토큰 비용도, 저장소별 파인튜닝의 GPU 비용도 모두 피하면서 저장소 맞춤 성능을 얻을 수 있다는 것은 실용적인 코드 AI 인프라 관점에서 의미 있는 전진이다.