《DeepSeek推出数学推理模型DeepSeekMath-V2,IMO竞赛达金牌水平并实现全自动标注》

  • 来源专题:新一代信息技术
  • 编译者: 刘飞
  • 发布时间:2025-11-28
  • 11月27日,DeepSeek推出新型数学推理模型DeepSeekMath-V2,该模型采用自我验证训练框架,显著提升了在数学竞赛中的表现。该模型在IMO、CMO等竞赛中达到金牌水平,并在Putnam 2024中取得近乎满分的成绩。DeepSeekMath-V2基于DeepSeek-V3.2-Exp-Base构建,通过LLM验证器自动审查生成的数学证明,并利用高难度样本持续优化性能。 核心技术创新包括自驱动的验证-生成闭环和元验证机制,这些机制有效抑制了模型幻觉,提高了证明质量评估的准确性。自动化标注流程降低了人工成本,并通过多层验证机制确保标注的准确性和一致性。实验结果表明,自动化标注可以完全替代人工标注,显著提升了系统自主生成高质量训练数据的能力。 

    基准测试结果显示,DeepSeekMath-V2在CNML级别问题测试中超越了GPT-5-Thinking-High和Gemini 2.5-Pro的表现,在IMO-ProofBench基准测试中也表现优异,验证机制能够准确识别证明过程中的真实缺陷。这一创新方法不仅降低了人力成本,还证明了人工智能系统在适当技术支持下的自我演进与持续改进能力,为下一代自主学习系统的开发奠定了基础。

  • 原文来源:https://wallstreetcn.com/articles/3760281
相关报告
  • 《DeepMind和OpenAI模型获得奥数金牌分数》

    • 来源专题:数智化图书情报
    • 编译者:程冰
    • 发布时间:2025-07-30
    • 近日,国际顶尖学术期刊 Nature 在其官网头条报道了人工智能(AI)取得一项新成就——大语言模型首次在国际数学奥林匹克竞赛中达到金牌水平。 曾经被认为需要“人类顶级智慧”才能驾驭的国际数学奥林匹克竞赛(IMO),如今迎来了强大的 AI 挑战者。Google DeepMind 和 OpenAI 的最新大模型,首次在这项顶级数学竞赛中展现了与人类金牌选手比肩的实力! 国际数学奥林匹克竞赛,是全球顶尖中学生智力角逐的最高殿堂,其题目之难,往往令普通人望而却步。然而,人工智能(AI)正在这个领域创造历史。 2025 年 7 月 21 日,Google 旗下公司 DeepMind 宣布了一个震撼科技界的消息: 其开发的大型语言模型(LLM),成功解答一组与国际数学奥林匹克竞赛难度相当的题目,并且达到了人类金牌得主的水平! 具体来说,DeepMind 的大语言模型在今年的评估中,其表现在人类选手评分标准中,已跨越了金牌得主的得分门槛(6 道题,满分 42 分,35 分为金牌,28 分为银牌)。这标志着 AI 在解决复杂数学问题能力上的一个重大飞跃。 为什么说这是一个重大飞跃? 1.质的跨越: 就在去年(2024年),DeepMind 的大语言模型在同类评估中,表现还仅处于银牌得主的上限区间。从“银牌顶尖”跃升至“金牌门槛”,这远非微小的进步,而是 AI 在高级数学推理和问题解决能力上的一次实质性突破。 2.顶级对标: 国际数学奥林匹克竞赛金牌代表着全球高中生在数学领域所能达到的巅峰水平。AI 能在这个层次上取得分数,意味着它在理解复杂概念、进行创造性推理和发现精妙解法方面,已经达到了令人惊叹的高度。 这不仅仅是 DeepMind 的成就,据报道,OpenAI 的模型也在这一领域展现了同等级别的卓越能力。两大 AI 巨头在解决数学难题上的突破,共同宣告了 AI 在高级认知能力方面的巨大进步。 需要特别指出的是,DeepMind 今年取得的成绩背后隐藏着一个重大范式转变,因为该公司此前在数学领域的成绩依赖于两种专门设计的 AI 工具——AlphaGeometry 和 AlphaProof,这需要人类专家首先将考题陈述翻译成类似于编程语言的内容,然后再将 AI 的解答翻译回英语。而今年则是在 Gemeni 系统开发的大语言模型——DeepThink,全部围绕自然语言,不再需要翻译过程。 此外,这项突破的深远意义远超竞赛本身: 1、AI 能力的证明: 它有力地证明了大语言模型(LLM)能够处理极其复杂、需要深度逻辑思维和抽象推理的任务,而不仅仅是文本生成或模式识别。 2、教育与研究的新工具: 此类 AI 可以作为强大的助手,帮助学生学习高等数学、启发解题思路,甚至协助数学研究人员探索新的猜想和定理。 3、通往 AGI 之路的里程碑: 解决奥林匹克数学竞赛金牌级别的数学问题,需要多方面的认知能力组合,这无疑是通往通用人工智能(AGI)之路的重要一步。 从在围棋领域击败人类世界冠军,到如今在代表人类“纯粹智力”巅峰的国际数学奥林匹克中达到金牌水平,AI 一次又一次地刷新着我们对机器能力的认知。DeepMind 和 OpenAI 的这次突破,不仅将 AI 推向了数学推理的新高度,也预示着它们未来在科学探索、技术研发等更广阔领域释放巨大潜力的可能。人类智慧与机器智能相互启迪、共同前行的时代,正加速到来。
  • 《美国智库CSIS发布《DeepSeek、华为、出口管制以及中美AI竞赛的未来》报告》

    • 来源专题:集成电路与量子信息
    • 发布时间:2025-03-26
    • 2025年3月7日,美国智库战略和国际研究中心 (CSIS)发布《DeepSeek、华为、出口管制以及中美AI竞赛的未来》报告,关于DeepSeek、华为、出口管制和中美AI(特别是AI芯片)竞争的未来提出了21项关键判断,总体概述了DeepSeek的起源和成就、其地缘政治影响和美国及其盟国政策制定面临的关键挑战。 报告的主要观点包括: 1. DeepSeek的技术创新是真实的,而不是宣传。DeepSeek在性能和成本方面的技术成就并不令人惊讶,只是反映了行业发展的长期趋势。然而,令人惊讶的是这样的技术创新成就来自中国实验室。 2. DeepSeek的成功很大程度上反映了2022年10月发布的美国AI芯片出口管制条例存在的缺陷。美国政府在2023年10月的相关管制条例更新中弥补了这些缺陷。然而,从另一个角度来看,DeepSeek的技术创新也反映了美国AI芯片出口管制政策的成功,DeepSeek的首席执行官将美国的AI芯片出口管制政策描述为其公司和更广泛的中国AI生态系统面临的最大挑战。 3. DeepSeek发现的提高AI计算效率的技术可能比中国公司更有利于美国公司,因为美国公司可以将这些技术应用于更大的计算资源,从而为更多的客户提供更好的AI。DeepSeek和其他AI效率创新将继续促进AI芯片的发展 4. DeepSeek在提炼美国AI模型和复制闭源算法创新方面的成功,确实引发了在缺乏强有力的知识产权保护情况下,AI竞争优势的本质的战略问题。而且,近年来的事态发展并没有让人相信,保护知识产权和技术秘密的传统方法在涉及中国AI时可能有效。 5. 出口管制是否有效,取决于能否有效实施和执法,以防止芯片走私。在这一点上,如果特朗普政府减少相关政府资源和行政工作人员,或者导致盟国不合作,美国有理由为此感到非常担忧。 6. 除了走私,美国面临的最大战略挑战是,中国有可能在国内以足够的数量和质量生产AI芯片,以建设与美国竞争的AI数据中心基础设施。 7. DeepSeek有能力进行低于英伟达CUDA软件生态系统水平的架构创新。如果DeepSeek致力于加强华为的昇腾系列Ascend芯片和CANN异构计算架构软件生态系统,它将对英伟达构成更大威胁。 8. 由华为(AI芯片设计师)、中芯国际(AI芯片制造商)和长鑫存储/长江存储(高带宽存储器制造商)组成的中国联盟最近在推进AI芯片的国产化方面取得了重大战略进展。 9. 华为的AI芯片设计一直很强大。华为还利用空壳公司获得台积电的制造能力,获得了200多万个AI芯片,并储存了超过一年的高带宽存储器。 10. 由于美国及其盟国的出口管制,华为的AI芯片制造合作伙伴中芯国际(SMIC)一直在努力解决低产量(约20%)和每月2万片7 nm晶圆的问题。中芯国际的7 nm以下制程节点生产是一条困难且不确定的道路。据相关消息,华为已经成功将美国制造的库存设备转移到中芯国际SN2厂房,中芯国际预计到2025年底将实现每月5万片7 nm晶圆的产能。如果所有这些产能都用于生产华为Ascend芯片(这是不太可能的),这意味着将每年生产数百万颗Ascend 910C芯片。 11. 华为Ascend芯片继续面临挑战,缺乏兼容的AI软件导致采购的芯片的利用率很低。然而,如果DeepSeek的开源社区极大提高了华为CANN软件生态系统,从而提高了其与英伟达CUDA软件生态系统的竞争力,这种情况可能会改变。 12. 基于从台积电采购的芯片、库存的高带宽存储器,以及中芯国际不断增加的Ascend芯片产量,华为和DeepSeek有望成功建立一个由百万级Ascend芯片构成的AI超级集群,但是也将面临大规模芯片集成和软件框架方面的挑战。 13. 在人类水平的通用AI和超越人类水平的超级AI方面,美国公司仍然领先于中国。然而,这一差距已大幅缩小,即使在极其严格的出口管制下,指望美国领先一两年以上也是不现实的。