近日,国际顶尖学术期刊 Nature 在其官网头条报道了人工智能(AI)取得一项新成就——大语言模型首次在国际数学奥林匹克竞赛中达到金牌水平。
曾经被认为需要“人类顶级智慧”才能驾驭的国际数学奥林匹克竞赛(IMO),如今迎来了强大的 AI 挑战者。Google DeepMind 和 OpenAI 的最新大模型,首次在这项顶级数学竞赛中展现了与人类金牌选手比肩的实力!
国际数学奥林匹克竞赛,是全球顶尖中学生智力角逐的最高殿堂,其题目之难,往往令普通人望而却步。然而,人工智能(AI)正在这个领域创造历史。
2025 年 7 月 21 日,Google 旗下公司 DeepMind 宣布了一个震撼科技界的消息: 其开发的大型语言模型(LLM),成功解答一组与国际数学奥林匹克竞赛难度相当的题目,并且达到了人类金牌得主的水平!
具体来说,DeepMind 的大语言模型在今年的评估中,其表现在人类选手评分标准中,已跨越了金牌得主的得分门槛(6 道题,满分 42 分,35 分为金牌,28 分为银牌)。这标志着 AI 在解决复杂数学问题能力上的一个重大飞跃。
为什么说这是一个重大飞跃?
1.质的跨越: 就在去年(2024年),DeepMind 的大语言模型在同类评估中,表现还仅处于银牌得主的上限区间。从“银牌顶尖”跃升至“金牌门槛”,这远非微小的进步,而是 AI 在高级数学推理和问题解决能力上的一次实质性突破。
2.顶级对标: 国际数学奥林匹克竞赛金牌代表着全球高中生在数学领域所能达到的巅峰水平。AI 能在这个层次上取得分数,意味着它在理解复杂概念、进行创造性推理和发现精妙解法方面,已经达到了令人惊叹的高度。
这不仅仅是 DeepMind 的成就,据报道,OpenAI 的模型也在这一领域展现了同等级别的卓越能力。两大 AI 巨头在解决数学难题上的突破,共同宣告了 AI 在高级认知能力方面的巨大进步。
需要特别指出的是,DeepMind 今年取得的成绩背后隐藏着一个重大范式转变,因为该公司此前在数学领域的成绩依赖于两种专门设计的 AI 工具——AlphaGeometry 和 AlphaProof,这需要人类专家首先将考题陈述翻译成类似于编程语言的内容,然后再将 AI 的解答翻译回英语。而今年则是在 Gemeni 系统开发的大语言模型——DeepThink,全部围绕自然语言,不再需要翻译过程。
此外,这项突破的深远意义远超竞赛本身:
1、AI 能力的证明: 它有力地证明了大语言模型(LLM)能够处理极其复杂、需要深度逻辑思维和抽象推理的任务,而不仅仅是文本生成或模式识别。
2、教育与研究的新工具: 此类 AI 可以作为强大的助手,帮助学生学习高等数学、启发解题思路,甚至协助数学研究人员探索新的猜想和定理。
3、通往 AGI 之路的里程碑: 解决奥林匹克数学竞赛金牌级别的数学问题,需要多方面的认知能力组合,这无疑是通往通用人工智能(AGI)之路的重要一步。
从在围棋领域击败人类世界冠军,到如今在代表人类“纯粹智力”巅峰的国际数学奥林匹克中达到金牌水平,AI 一次又一次地刷新着我们对机器能力的认知。DeepMind 和 OpenAI 的这次突破,不仅将 AI 推向了数学推理的新高度,也预示着它们未来在科学探索、技术研发等更广阔领域释放巨大潜力的可能。人类智慧与机器智能相互启迪、共同前行的时代,正加速到来。