슬로바키아어 임베딩 벤치마크 SkMTEB, 저자원 언어 AI 모델 적응의 재현 가능한 경로

슬로바키아어 전용 임베딩 벤치마크 SkMTEB가 공개되며 불편한 진실 하나가 수면 위로 올라왔다. 언어 이해를 위해 개발된 슬로바키아어 특화 모델들이 임베딩 태스크에서는 대형 다국어 모델에 크게 뒤처진다는 것이다. 연구팀은 어휘 트리밍으로 모델 크기를 62% 줄이면서도 독점 API에 필적하는 성능을 달성했고, 이 방법론을 수백 개의 저자원 언어를 위한 재현 가능한 청사진으로 제시한다.

다국어 AI의 착시와 슬로바키아어의 현실

현재 대규모 언어 모델과 텍스트 임베딩 모델의 세계는 심각한 불균형 위에 서 있다. 영어, 중국어, 독일어 등 주요 언어들은 수천 개의 벤치마크와 수십 개의 특화 모델을 갖추고 있지만, 슬로바키아어처럼 화자 수가 500만 명에 불과한 언어는 AI 생태계에서 사실상 소외되어 있다. 다국어 모델들은 수십 개, 심지어 수백 개의 언어를 지원한다고 주장하지만, '다국어 지원'과 '다국어 깊이'는 전혀 다른 문제다. 기존 다국어 벤치마크가 슬로바키아어에 제공하던 평가 커버리지는 현실에서의 요구를 반영하기엔 극히 제한적이었다.

슬로박 연구팀이 발표한 SkMTEB(Slovak Massive Text Embedding Benchmark)는 바로 이 공백을 메우려는 시도다. 7가지 과제 유형에 걸친 31개 데이터셋으로 구성된 이 벤치마크는 분류, 클러스터링, 쌍 분류, 재순위화, 검색, 의미적 텍스트 유사도, 요약 등 실제 응용 시나리오를 포괄한다. 이는 기존 다국어 벤치마크가 슬로바키아어에 제공하던 커버리지의 거의 4배에 달하는 깊이다. 단순히 데이터를 모아둔 것이 아니라, 특정 언어 공동체의 필요에 AI 시스템을 책임 있게 평가하는 구조화된 프레임워크다.

벤치마크 설계가 MTEB(Massive Text Embedding Benchmark) 생태계를 따른다는 점도 중요하다. 영어권 임베딩 평가의 사실상 표준이 된 MTEB 틀 안에서 구축함으로써, 슬로바키아어 벤치마크는 더 넓은 연구 커뮤니티에 즉시 가독성을 갖는다. 슬로바키아어를 평가 파이프라인에 추가하고자 하는 연구자는 새로운 프레임워크를 배울 필요 없이 기존 워크플로에 SkMTEB를 끼워 넣으면 된다.

31개 모델이 드러낸 불편한 진실

연구팀은 SkMTEB를 활용해 31개 임베딩 모델을 평가했는데, 그 결과는 흥미롭고도 불편한 진실을 드러낸다. 가장 강력한 성능을 보인 것은 대규모 인스트럭션 튜닝 다국어 모델들이었다. 독점 API 뒤에 숨어 있는 대형 상용 모델들이 리더보드 상위권을 차지했다.

반면 슬로바키아어 전용으로 훈련된 기존 모델들은 기대에 크게 못 미쳤다. 자연어 이해(NLU) 태스크를 위해 설계된 슬로바키아어 특화 모델들은 임베딩 태스크로의 전이가 매우 저조했다. 이는 NLU 성능이 임베딩 품질을 보장하지 않는다는 중요한 교훈을 제공한다. 뉴스 기사의 주제를 분류하거나 감성을 분석하는 데 능숙한 모델이 의미 검색이나 검색 증강 생성(RAG)에서는 형편없을 수 있다는 것이다.

더 넓은 맥락에서 보면 이 결과는 저자원 언어 AI 개발의 전략적 문제를 제기한다. 슬로바키아어 RAG 시스템이나 의미 검색 엔진을 구축하는 조직 입장에서 직관적인 선택은 '슬로바키아어 모델을 쓰는 것'이지만, 이것이 실제로는 잘못된 선택임이 드러났다. 더 나은 선택은 대형 다국어 모델이지만, 그 대가로 API 비용, 데이터 프라이버시 제약, 클라우드 레이턴시, 외부 인프라 의존성이라는 새로운 문제가 따라온다. 의료, 법률, 공공 행정 같이 슬로바키아어가 실질적 작업 언어로 쓰이는 분야에서 이 제약들은 결코 가볍지 않다.

어휘 트리밍으로 62% 줄인 모델의 가능성

연구팀이 이 딜레마를 해결하기 위해 택한 방법이 방법론적으로 우아하다. 처음부터 슬로바키아어 임베딩 모델을 훈련하는 대신, Multilingual E5 모델에서 출발해 어휘 트리밍과 파인튜닝을 적용했다. 어휘 트리밍은 모델의 어휘 사전에서 대상 언어와 무관한 토큰들을 제거하는 기법이다. 수십 개 언어를 위해 훈련된 다국어 토크나이저는 슬로바키아어 텍스트에서 거의 쓰이지 않는 일본어 한자, 아랍 문자, 다양한 언어의 형태소들을 수십만 개 단위로 포함하고 있다. 이 무관한 토큰들과 대응하는 임베딩 가중치를 제거함으로써 모델 크기를 62%까지 줄이면서도 슬로바키아어 관련 성능을 유지할 수 있다.

그 결과물이 e5-sk-small(4500만 파라미터)과 e5-sk-large(3억 6500만 파라미터)다. 두 모델 모두 오픈소스로 공개되었으며, SkMTEB에서 독점 API와 경쟁적인 성능을 보이면서도 로컬에서 직접 실행 가능하다. '로컬 실행 가능'이라는 단어가 여기서 큰 무게를 갖는다. 슬로바키아어 환자 기록을 처리하는 병원은 그 데이터가 해외 API 엔드포인트를 경유하길 원하지 않는다. 민원 서류를 다루는 공공 기관도 마찬가지다. 이런 사용자들에게 로컬 배포 가능하면서 클라우드와 비슷한 성능을 내는 모델은 타협안이 아니라 유일한 선택지다.

어휘 트리밍 접근법의 더 큰 의의는 재현 가능성에 있다. 연구팀은 벤치마크, 모델, 데이터셋, 코드를 모두 공개하면서 이 방법론이 다른 저자원 언어에도 적용 가능한 청사진이 되기를 기대한다고 밝혔다. MTEB 스타일 평가 프레임워크, 어휘 트리밍된 다국어 기반 모델, 표적화된 파인튜닝의 조합은 합리적인 자원을 갖춘 어떤 NLP 그룹도 자신의 언어에 적용할 수 있는 워크플로다. 슬로베니아어, 마케도니아어, 웨일스어, 혹은 현재 AI 생태계에서 소외된 수백 개의 언어들에 이 접근법이 미칠 파급 효과는 슬로바키아어 한 언어의 이야기를 훨씬 뛰어넘는다.