이산 마스크의 한계를 넘은 연속 발산 정규화, LLM 강화학습 안정화의 새 지평 | AI Insight Note