Python에 갇힌 LLM 코딩 평가, 12개 언어 벤치마크로 민낯 노출 | AI Insight Note