AI · Web3 · Tech trends and insights at a glance
AI · Web3 · Tech trends and insights at a glance
by Liminal·P
2026.05.28원문 논문 ↗
AREA: Attribute Extraction and Aggregation for CLIP-Based Class-Incremental Learning
Zhen-Hao Xie, Yu-Cheng Shi, Da-Wei Zhou
발행일: 2026.05.27
새로운 클래스를 배울수록 기존 지식을 잃는 '재앙적 망각'은 AI 연속 학습의 가장 오래된 과제다. ICML 2026에 채택된 AREA는 CLIP 기반 인식 과정을 속성 추출과 속성 집계라는 두 단계로 해체하고, 각각을 독립적으로 안정화함으로써 망각이 정확히 어디서 어떻게 발생하는지를 구조적으로 진단한다.
인공지능이 고양이를 알아보는 방식을 생각해 보자. 모델은 털의 질감, 수염의 패턴, 귀의 형태 같은 시각적 속성들을 뽑아내고, 이것들을 하나의 표현 공간 안에서 적절히 합산해 '고양이'라는 범주와 연결한다. 이 과정은 겉으로 보기에 단일한 매칭처럼 느껴지지만, 실제로는 두 가지 개념적으로 구별되는 단계—속성 추출(extraction)과 속성 집계(aggregation)—로 분해될 수 있다. ICML 2026에 채택된 AREA(Attribute Extraction and Aggregation)는 바로 이 분해에서 출발한다.
Class-Incremental Learning(CIL), 즉 클래스 점진 학습은 실세계 AI 시스템의 핵심 난제 중 하나다. 사람은 새로운 대상을 배운다고 해서 이전에 배운 것을 잊지 않지만, 딥러닝 모델은 새로운 클래스 데이터만으로 파인튜닝하면 기존 클래스에 대한 성능이 급격히 하락한다. 이른바 '재앙적 망각'이다. OpenAI의 CLIP처럼 대규모 이미지-텍스트 쌍으로 사전학습된 비전-언어 모델을 활용한 CIL은 최근 주목받는 접근이지만, 증분 학습 과정에서의 망각 문제는 여전히 해결되지 않은 채로 남아 있다. AREA의 기여는 이 망각이 정확히 어디서, 어떤 구조적 이유로 발생하는지를 해부하고, 각 부위에 표적화된 처방을 설계한 데 있다.
AREA의 핵심 통찰은 망각이 단일 현상이 아니라는 데 있다. 새로운 클래스인 '자동차'를 학습할 때, 모델은 바퀴, 차체의 기하학, 금속성 반사 같이 기존에는 필요 없던 시각적 속성들을 추출해야 한다. 이 속성 추출 방식의 조정이 이전 클래스들의 임베딩 좌표를 교란한다. 동시에, 추출된 속성들을 최종 예측으로 통합하는 집계 메커니즘도 새 클래스의 데이터 분포 쪽으로 편향된다. 결국 추출 단계와 집계 단계 모두에서 기존 클래스에 대한 정보가 서서히 지워진다.
추출 안정화를 위해 AREA는 클래스 수준의 시각적·텍스트 속성을 초구면(hypersphere) 임베딩 공간 위에 앵커링한다. 구체적으로는 주측지선 분석(principal geodesic analysis, PGA)을 활용해 각 클래스의 속성 분포를 구면 위의 주성분으로 압축하고, 이 앵커들이 새로운 학습 이후에도 크게 이동하지 않도록 정규화한다. PGA는 평탄한 유클리드 공간의 주성분 분석(PCA)을 곡면 위로 확장한 것이다. CLIP의 임베딩이 이미 단위 구면 위에 정규화되어 있다는 점에서, 초구면 기하학은 이 작업에 자연스러운 선택이다. 기억의 '좌표계'를 고정해 두는 것과 같다—새로운 경험이 들어와도 과거 경험의 위치 자체는 흔들리지 않게 한다.
집계 안정화를 위해서는 경량의 태스크별 전문가(task-specific experts) 모듈을 도입한다. 각 전문가는 해당 태스크의 속성 집계 패턴을 학습하되, 변분 정보 병목(variational information bottleneck, VIB) 목적함수로 정규화된다. VIB는 전문가가 현재 태스크에만 과도하게 특화되지 않도록 일반화를 강제한다. 그 위에 잔차 정제(residual refinement) 구조를 얹어, 이전 태스크 전문가의 지식이 새 태스크 학습에 의해 덮어쓰이지 않도록 보호한다.
다수의 전문가 모듈을 학습한 이후, 추론 시에 어느 전문가를 선택할 것인가도 중요한 문제다. 단순히 모든 전문가의 출력을 평균 내면 태스크 간 경계가 흐려지고 정보가 희석될 수 있다. AREA는 최적 수송(optimal transport, OT) 이론을 이용한 라우팅 메커니즘을 도입한다. 주어진 테스트 샘플이 어느 태스크의 속성 다양체(manifold)에 가장 가까운지를 OT 거리로 계산하고, 그에 맞는 전문가를 선택해 예측에 활용한다. 단순한 중심점 거리 매칭이 아니라, 분포 전체의 기하학적 관계를 고려한 더 정밀한 라우팅이다.
실험 결과 AREA는 여러 표준 벤치마크에서 기존 최신 방법들을 일관되게 상회했다. ICML 2026 채택 논문인 만큼 방법론의 엄밀함과 기여의 신선함이 동시에 검증된 결과다. 그러나 더 중요한 기여는 성능 수치보다 분석적 프레임에 있다. 속성 추출과 집계를 별도로 진단하고 별도로 안정화할 수 있다는 시각은, 다중모달 지속 학습 연구의 설계 원칙으로 자리잡을 가능성이 있다. 재앙적 망각을 막는 방법을 찾는 것도 중요하지만, 그 망각이 정확히 어디서 어떻게 일어나는지를 구조적으로 이해하는 것이 더 근본적인 진전이다. AREA가 보여주는 것은 바로 그 해부학이다.