LLM의 논문 자동 재현 검증, 사회과학 감사 체계 혁신 가속

사회과학의 '재현성 위기'를 해소하기 위한 수작업 재분석이 지닌 한계를 LLM이 넘어설 수 있다는 실증 근거가 제시됐다. 76편의 논문에 대한 자동 재분석 실험에서 LLM은 정성적 결론 일치율 96%를 기록해 인간 재분석가(74%)를 크게 앞질렀다. AI가 과학의 자기 교정 메커니즘 자체를 강화하는 인프라 도구로 기능하기 시작한 셈이다.

사회과학과 행동과학 분야는 지난 10여 년간 이른바 '재현성 위기'의 그늘 아래 놓여 있었다. 2011년 이후 심리학·경제학·사회학의 유명한 실험 결과들이 독립 연구자의 손에서 재현되지 않는 사례가 속출했고, 이는 과학적 신뢰의 토대를 흔드는 문제로 비화했다. 그러나 재현성 검증에는 구조적 장벽이 있다. 논문 한 편을 재분석하려면 원자료를 입수하고, 통계 코드를 해독하며, 효과 크기를 재추정하는 고된 작업을 수행해야 한다. 매년 수만 편씩 쏟아지는 출판물을 사람의 손으로 체계적으로 감사한다는 것은 원리적으로 불가능에 가깝다.

LLM이 재현성 감사를 자동화하다

이 문제에 새로운 가능성을 제시한 것이 Holtdirk 등의 연구다. 연구팀은 사전에 주장이 정의된 사회·행동과학 논문 76편을 선정해 LLM 파이프라인으로 재분석을 수행했다. 각 논문에 대해 LLM은 원자료와 분석 지시를 제공받아 통계적 재분석을 실행하고, 그 결과를 원 논문의 주장 및 인간 재분석가의 결과와 비교했다.

결과는 주목할 만하다. 효과 크기(Cohen's d 기준 ±0.05 허용 범위)를 정확히 복원한 비율은 LLM이 41%, 인간 재분석가가 34%였다. 수치상 차이가 크지 않은 듯 보이지만, 정성적 결론—즉 재분석이 원 연구의 주장을 지지하는지 아닌지—에서 격차는 극명했다. LLM은 96%의 사례에서 원 연구와 같은 결론에 도달한 반면, 인간 재분석가의 일치율은 74%에 그쳤다. 다만 7편의 논문에서는 LLM이 유효한 효과 크기 추정값을 산출하지 못했는데, 이는 데이터 구조나 분석 방법의 복잡성 때문으로 풀이된다.

이 결과가 흥미로운 이유는 단순히 LLM이 '더 잘한다'는 데 있지 않다. 인간 연구자는 재분석 과정에서 어떤 검정을 사용할지, 이상값을 어떻게 처리할지, 모호한 결과를 어떻게 해석할지 등 다양한 재량적 판단을 내린다. 이런 판단의 분산이 결론을 갈라놓는다. LLM은 제공된 데이터와 지시에만 의존하기 때문에 이런 방향성 편향 없이 더 일관된 기준으로 평가를 수행한다는 것이 연구팀의 해석이다.

체계적 감사 체계로 가는 길

이 연구의 함의는 단순한 기술 시연을 넘어선다. 지금까지 재현성 감사는 개별 연구자나 프로젝트 단위에서 간헐적으로 이루어졌다. 연구팀이 제안하는 LLM 기반 파이프라인은 저널이나 학술 기관이 체계적인 감사 시스템을 구축할 수 있는 토대를 제공한다. 투고 단계나 심사 과정에서 자동화된 재현성 검사를 의무화하거나, 출판 후 대규모 소급 감사를 실시하는 것이 기술적으로 가능해지는 셈이다.

물론 한계도 분명하다. 현재 파이프라인은 원자료와 분석 코드가 공개된 연구에 한해 작동하며, 데이터 공개 자체가 이루어지지 않은 연구에는 적용할 수 없다. 76편이라는 표본 크기는 사회과학 전체 문헌의 다양성을 대표하기에 충분하지 않으며, 종단 연구나 복잡한 위계적 모형에서의 일반화 가능성은 추가 검증이 필요하다. LLM이 처리하지 못한 7편의 사례 역시 특정 분석 유형에서의 취약점을 시사한다.

그럼에도 이 연구는 중요한 전환점을 표시한다. 재현성은 오랫동안 과학적 이상으로 여겨져 왔지만, 검증 비용 때문에 실천이 뒤따르지 못했다. LLM이 이 비용을 획기적으로 낮출 수 있다면, 재현성은 비용 대비 실현 가능한 과학적 규범으로 자리잡을 수 있다. AI가 논문 작성 보조나 문헌 검색을 넘어, 과학의 자기 교정 메커니즘 자체를 강화하는 인프라 도구로 기능하기 시작했다는 점에서, 이 연구가 가리키는 방향은 주목할 가치가 있다.