AI 벤치마크 점수의 해석 공백, EvalCards로 보고 투명성 구축

AI 평가 결과는 매일 쏟아지지만, 그 숫자를 신뢰할 맥락이 없다. 리더보드와 모델 카드, 기업 블로그가 제각각 다른 방식으로 결과를 보고하면서, 독자는 같은 모델조차 비교하기 어렵다. EvalCards는 10만 건의 실제 평가 데이터에 적용해 이 해석 공백이 얼마나 심각한지를 정량화하고, 통합 보고 레이어로 해결책을 제시한다.

숫자는 넘치는데 해석은 없다

매주 새로운 AI 모델이 출시되고, 리더보드 점수는 쉼 없이 경신된다. 그러나 그 점수들을 나란히 놓고 비교할 수 있는가 하면, 사실 그렇지 않다. MMLU에서 87점을 받은 모델 A와 역시 87점을 받은 모델 B가 있다고 하자. 두 점수가 같은 프롬프트 형식으로 측정됐는지, 같은 샷 수로 평가됐는지, 같은 데이터 분할을 썼는지, 그리고 학습 데이터와 테스트 데이터 사이에 오염 가능성은 없었는지 알 수 없다면, 그 87이라는 숫자는 사실상 비교 불가능한 기호에 불과하다.

이 문제는 새롭지 않다. 모델 카드는 평가 맥락을 기록하려 했지만, 채우지 않아도 그만인 선택 항목이 많고, 리더보드는 점수만 보여줄 뿐 그 점수가 어떻게 산출됐는지는 숨긴다. 기업 블로그는 자사 모델에 유리한 결과만 선별해 공개하고, 학술 벤치마크 논문은 재현에 필요한 정보를 본문에 흩뿌려 놓아 구조화된 추출이 어렵다. 이 모든 경로가 평가 결과를 생산하지만, 서로 다른 언어로 말한다.

2026년 6월에 공개된 논문 "Evaluation Cards"는 이 문제의 구조를 정밀하게 해부하고, 실제로 배포 가능한 해결책을 제시한다. 저자들은 52개의 관련 논문을 체계적으로 검토하고 10명의 이해관계자를 인터뷰하여, 현재 AI 평가 보고가 어떤 층위에서 실패하고 있는지를 먼저 진단했다. 그리고 그 진단 위에 EvalCards라는 통합 보고 레이어를 설계했다.

EvalCards의 설계: 세 층위를 엮는 단일 레코드

EvalCards의 핵심 아이디어는 간단하다. 지금까지 파편화되어 있던 세 가지 정보 층위, 즉 벤치마크 메타데이터, 평가 실행 데이터, 모델 메타데이터를 하나의 통합된 레코드로 엮는 것이다. 벤치마크가 어떤 과제를 측정하는지, 그 벤치마크를 어떤 조건에서 실행했는지, 그리고 평가받는 모델이 어떤 특성을 지니는지가 하나의 맥락 안에 담겨야만 점수가 의미를 가질 수 있다.

EvalCards는 단순한 메타데이터 수집을 넘어 네 가지 해석 신호를 제공한다. 재현성 신호는 해당 평가 결과를 독립적으로 재현하는 데 필요한 정보가 충분히 공개됐는지를 나타낸다. 문서 완전성 신호는 보고서에서 누락된 필수 정보가 무엇인지를 명시한다. 출처와 위험 신호는 학습 데이터와 벤치마크 데이터 간의 오염 가능성, 즉 모델이 평가 데이터를 이미 학습했을 가능성을 경고한다. 점수 비교 가능성 신호는 서로 다른 출처의 점수를 나란히 놓았을 때 실제로 비교가 성립하는지를 판단하는 근거를 제공한다.

이 네 가지 신호는 모든 독자에게 동일하게 제시되지 않는다. EvalCards는 독자 모드를 두 가지로 구분한다. 연구자 모드는 방법론적 세부 사항과 재현성 정보를 우선적으로 보여주고, 비연구자 모드는 위험 요약과 비교 가능성 경고에 집중한다. 같은 데이터를 보더라도 AI 정책 입안자와 딥러닝 연구자가 필요로 하는 해석의 층위는 다르다. EvalCards는 이 차이를 설계 단계에서 수용했다는 점에서, 단순한 체크리스트 제안과 구별된다.

현실 진단: 10만 건의 평가 결과가 드러낸 것

이 논문이 다른 제안들과 뚜렷이 구별되는 지점은 실제 배포 여부다. 저자들은 EvalCards를 구현한 모니터링 도구를 개발하고, 이를 5,816개의 모델과 635개의 벤치마크, 101,843개의 평가 결과에 적용했다. 이 규모의 실제 데이터에 신호를 적용하면서, 현재 AI 평가 보고 관행에 어떤 체계적 공백이 존재하는지가 수면 위로 드러났다.

결과는 예상보다 심각했다. 대부분의 평가 보고에서 재현에 필요한 정보가 충분히 기술되지 않았고, 점수를 비교 가능한 조건으로 제시한 경우는 소수에 불과했다. 데이터 오염 위험이 명시된 경우는 더 드물었다. 이 공백은 특정 행위자의 문제가 아니라, 구조적 인프라의 부재에서 비롯된 것이다. 보고 표준이 없으니, 아무도 표준에 맞게 보고하지 않는다.

AI 평가의 신뢰 위기는 오래전부터 학계에서 제기됐다. MMLU 오염 논란, 리더보드 과적합, 자체 선정 평가의 선택 편향 등 문제는 충분히 알려져 있다. 그러나 이를 체계적으로 추적하고 독자에게 해석 가능한 형태로 제공하는 도구는 없었다. EvalCards는 이 공백을 메우려는 첫 번째 본격적인 시도다. 논문 제안에 그치지 않고, 10만 건이 넘는 실제 데이터에 적용해 현실의 문제를 정량화한 것은 이 연구의 가장 중요한 기여다.

AI 모델 평가가 규제와 조달 결정의 근거로 쓰이는 시대가 오고 있다. 어떤 모델이 의료 진단이나 법적 판단 보조에 사용될 수 있는지를 벤치마크 점수로 판단한다면, 그 점수가 신뢰할 수 있는 맥락 위에 놓여 있어야 한다. EvalCards가 제안하는 방향은 거창한 규범 선언이 아니라, 기존 데이터를 구조화된 방식으로 읽을 수 있게 만드는 실용적 인프라다. 이 접근이 실제 보고 관행을 바꿀 수 있을지는 학계와 산업계의 채택 여부에 달려 있겠지만, 방향 자체는 분명히 옳다.