11月27日,DeepSeek推出新型数学推理模型DeepSeekMath-V2,该模型采用自我验证训练框架,显著提升了在数学竞赛中的表现。该模型在IMO、CMO等竞赛中达到金牌水平,并在Putnam 2024中取得近乎满分的成绩。DeepSeekMath-V2基于DeepSeek-V3.2-Exp-Base构建,通过LLM验证器自动审查生成的数学证明,并利用高难度样本持续优化性能。 核心技术创新包括自驱动的验证-生成闭环和元验证机制,这些机制有效抑制了模型幻觉,提高了证明质量评估的准确性。自动化标注流程降低了人工成本,并通过多层验证机制确保标注的准确性和一致性。实验结果表明,自动化标注可以完全替代人工标注,显著提升了系统自主生成高质量训练数据的能力。
基准测试结果显示,DeepSeekMath-V2在CNML级别问题测试中超越了GPT-5-Thinking-High和Gemini 2.5-Pro的表现,在IMO-ProofBench基准测试中也表现优异,验证机制能够准确识别证明过程中的真实缺陷。这一创新方法不仅降低了人力成本,还证明了人工智能系统在适当技术支持下的自我演进与持续改进能力,为下一代自主学习系统的开发奠定了基础。