《DeepMind和OpenAI模型获得奥数金牌分数》

  • 编译者: 程冰
  • 发布时间:2025-10-20
  • 近日,国际顶尖学术期刊 Nature 在其官网头条报道了人工智能(AI)取得一项新成就——大语言模型首次在国际数学奥林匹克竞赛中达到金牌水平。

    曾经被认为需要“人类顶级智慧”才能驾驭的国际数学奥林匹克竞赛(IMO),如今迎来了强大的 AI 挑战者。Google DeepMind 和 OpenAI 的最新大模型,首次在这项顶级数学竞赛中展现了与人类金牌选手比肩的实力!

    国际数学奥林匹克竞赛,是全球顶尖中学生智力角逐的最高殿堂,其题目之难,往往令普通人望而却步。然而,人工智能(AI)正在这个领域创造历史。

    2025 年 7 月 21 日,Google 旗下公司 DeepMind 宣布了一个震撼科技界的消息: 其开发的大型语言模型(LLM),成功解答一组与国际数学奥林匹克竞赛难度相当的题目,并且达到了人类金牌得主的水平!

    具体来说,DeepMind 的大语言模型在今年的评估中,其表现在人类选手评分标准中,已跨越了金牌得主的得分门槛(6 道题,满分 42 分,35 分为金牌,28 分为银牌)。这标志着 AI 在解决复杂数学问题能力上的一个重大飞跃。

    为什么说这是一个重大飞跃?

    1.质的跨越: 就在去年(2024年),DeepMind 的大语言模型在同类评估中,表现还仅处于银牌得主的上限区间。从“银牌顶尖”跃升至“金牌门槛”,这远非微小的进步,而是 AI 在高级数学推理和问题解决能力上的一次实质性突破。

    2.顶级对标: 国际数学奥林匹克竞赛金牌代表着全球高中生在数学领域所能达到的巅峰水平。AI 能在这个层次上取得分数,意味着它在理解复杂概念、进行创造性推理和发现精妙解法方面,已经达到了令人惊叹的高度。

    这不仅仅是 DeepMind 的成就,据报道,OpenAI 的模型也在这一领域展现了同等级别的卓越能力。两大 AI 巨头在解决数学难题上的突破,共同宣告了 AI 在高级认知能力方面的巨大进步。

    需要特别指出的是,DeepMind 今年取得的成绩背后隐藏着一个重大范式转变,因为该公司此前在数学领域的成绩依赖于两种专门设计的 AI 工具——AlphaGeometry 和 AlphaProof,这需要人类专家首先将考题陈述翻译成类似于编程语言的内容,然后再将 AI 的解答翻译回英语。而今年则是在 Gemeni 系统开发的大语言模型——DeepThink,全部围绕自然语言,不再需要翻译过程。

    此外,这项突破的深远意义远超竞赛本身:

    1、AI 能力的证明: 它有力地证明了大语言模型(LLM)能够处理极其复杂、需要深度逻辑思维和抽象推理的任务,而不仅仅是文本生成或模式识别。

    2、教育与研究的新工具: 此类 AI 可以作为强大的助手,帮助学生学习高等数学、启发解题思路,甚至协助数学研究人员探索新的猜想和定理。

    3、通往 AGI 之路的里程碑: 解决奥林匹克数学竞赛金牌级别的数学问题,需要多方面的认知能力组合,这无疑是通往通用人工智能(AGI)之路的重要一步。

    从在围棋领域击败人类世界冠军,到如今在代表人类“纯粹智力”巅峰的国际数学奥林匹克中达到金牌水平,AI 一次又一次地刷新着我们对机器能力的认知。DeepMind 和 OpenAI 的这次突破,不仅将 AI 推向了数学推理的新高度,也预示着它们未来在科学探索、技术研发等更广阔领域释放巨大潜力的可能。人类智慧与机器智能相互启迪、共同前行的时代,正加速到来。

相关报告
  • 《中国国内医学相关的类GPT语言模型》

    • 来源专题:数智化图书情报
    • 编译者:闫亚飞
    • 发布时间:2023-12-01
    • 1、华佗GPT 华佗GPT 有免费体验网站,可直接访问对话,无需注册登录账户。目前处于测试阶段,还在不断完善优化中,由香港中文大学(深圳)和深圳市大数据研究院联合开发。 是一个基于大量中文医疗语料训练的大语言模型(LLM),目的是让语言模型具有医生的专业知识和患者的友好态度,为医疗咨询场景提供便捷有效的服务。目前处于测试阶段,生成结果正确性目前没有额外机制保证,结果仅供参考,请遵医嘱。界面中有上传图片和语音按钮,但这两个功能实际效果如何还待验证。 2、左医GPT 左医医疗大语言模型 不免费,但可申请短期体验。该对话页面需要用API key,底部有API key申请平台入口,在平台通过客服或联系电话或企业微信号等多种方式申请可获得key,申请就直接给,会给一个有试用期的API密钥,在左医GPT对话页面输入即可体验。目前主要对医院等医疗相关单位机构合作使用。我上次申请体验的是有2天试用期,不知现在能试用多久。 补充:百度搜索“左医GPT”,有介绍,平台申请直接获得key,因为医疗比较严肃,所以加一道,保证使用安全。——来自本文评论区 张超(左手医生创始人 CEO) 左医GPT不是基于GPT-3的,而是基于Transforme架构的自研模型。听译机器人的底层技术用的是左医GPT,和openAI没有任何关系。可通过语音识别和自然语言理解技术,实时记录医患对话,并自动生成电子病历。还可通过语言模型和知识图谱技术,为医生提供智能辅助功能,如用药指导、诊断建议、随访管理等。左医GPT是左手医生公司的核心产品之一,目前已经部署在全国近百家头部医院,提供智慧服务。 官网产品介绍地址(可申请API key) 左手医生开放平台-助力智慧医疗服务建设 3、岐黄问道GPT 大经中医岐黄问道大模型 (dajingtcm.com) 中医大模型,大经中医出品。目前对医疗机构开放申请内测。三个子模型:基于已确诊疾病的临床诊疗大模型,仅基于症状体征的临床诊疗大模型,中医养生调理大模型。 落地应用:在“学习强国”App中的中医智能健康助手就是基于此模型,只需要选择一些不舒服的表现,就能推荐中医调理方案。广东省中医院、上海中医药大学附属龙华医院等医疗机构单位;南京市江宁区、淄博市高青县等区域中医医联体,上海长宁区“为老服务中心”,下沉到山东吉林等地村卫生室这种基层医疗机构。 训练呢数据集:1100万条中医知识图谱数据;1500本中医古籍和文献数据;10万份真实中医专家医案数据;10万条脉象、舌象、经络、穴位数据;200万条真实的中医临床诊疗数据。 大经中医官网:大经中医 (dajingtcm.com) 4、本草(别名华驼,另有Med-ChatGLM) 中医大模型,免费开源,但目前无法直接使用,需下载在高性能计算机上进行复杂本地部署,也没有线上网站可体验。 哈尔滨工业大学开发的一款基于中医药知识图谱的人工智能系统,可提供中医药相关的问答、推理、分析等服务,赋能中医药行业的各个场景。 项目介绍地址(需翻墙才能访问) 本草(华驼) https://github.com/SCIR-HI/Huatuo-Llama-Med-Chinese Med-ChatGLM https://github.com/SCIR-HI/Med-ChatGLM 5、医联MedGPT 公司官网 成都医云科技有限公司 (medlinker.com) 个人无法直接使用,目前与各大医院及机构合作面向患者使用。是国内首个进行线下医院实际问诊等流程场景使用测评的大模型。已进入内部测试阶段,2023年5月正式发布。已拥有近3000种疾病的首诊能力,覆盖80%以上的成年人疾病和90%以上的0-12岁儿科疾病。突破AI医生无法与真实患者连续自由对话的难点,并在医疗问诊场景中支持多模态的输入和输出,在疾病的预防、诊断、治疗、康复四个重要环节全面实现智能化。MedGPT模型相关介绍文章如下: 文章一:医疗版ChatGPT直播评测!治疗方案与真人医生96%一致 文章二:鏖战一天,与三甲主治医师医学一致性达到96% 医联 MedGPT 通过首次公开大考! 在微信公众号“医联Medlinker”中有个“医联MedGPT 媒体沟通会”的发布会视频,里面详细讲解了模型具体情况。 6、砭石 中医大模型,不免费,可简单体验。智慧眼开发的医疗领域大模型砭石,是一款支持多模态(文本、图像、视频和音频)输入的人工智能医生,可以提供智能问诊、辅助诊断、智能用药等服务,赋能医疗健康行业的各个场景。 体验方法:扫描智慧眼官网上的二维码,体验互联网医院的服务,包括智能导诊、在线问诊、处方流转、药物配送等。扫描后进入小程序进行微信登陆,添加就诊人并实名认证,后自动跳转到“急速问诊”页面,该问诊就是基于砭石模型问答。下次再次使用时在小程序首页上的“问诊购药”或“复诊续方”功能按钮进入问答界面。("砭"读bian一声) 产品介绍官网(页面下滑找到微信小程序二维码) 智慧眼-人工智能/医疗健康-AI计算驱动生命健康 7、京东JDH 京医千询 基于京东自己的言犀大模型打造,投喂了京东互联网医院积累了上亿级的医疗问诊数据。远程医疗两个场景:一是药师的问答;二是医患问答。目前与互联网医院及医疗机构合作面向患者使用,个人目前无法直接使用。没有找到官网相关链接及信息,欢迎评论补充。感兴趣的可通过京东云网站客服等渠道咨询就行。 京医千询_百度百科 (baidu.com) 8、腾讯健康医疗大模型,面向B端医院企业商业,不对个人开放,官网:腾讯健康 9、百度灵医智惠,面向B端医院企业商业,不对个人开放,官网:灵医智惠 10、华为云盘古医疗,网址:盘古大模型_panguLM_大模型_华为云,药物分子大模型,医疗大模型。 11、清华药物研发助手ChatDD,详情介绍网址:水木分子发布ChatDD 新一代对话式药物研发助手,引领药物研发第四范式 将于2023年10月中旬邀请测试基础版本。清华系初创团队水木分子宣布发布新一代对话式药物研发助手ChatDD(Drug Design),覆盖药物立项、临床前研究、临床试验的各阶段,作为制药专家的得力AI助手,提升药物研发效率。千亿参数多模态生物医药对话大模型ChatDD-FM 100B。“制药版 ChatGPT”。兼具多模态和对话双重特点,能给医药界学生“解个惑”。主要给国内医药行业“打辅助”,侧重中文对话能力,融入了更多专家的对话模式和经验。 12、清华BioMedGPT,项目开源地址:https://github.com/taokz/BiomedGPT 生物医药版ChatGPT。清华大学聂再清教授带领团队着手构建的多模态生物医药领域基础模型,旨在将生物世界分子、文本与知识进行统一表示学习以达到在各项下游任务上能力的整体提升。通过打造的干湿闭环和专家在环的双闭环体系,使得BioMedGPT能够从真实世界学习、向人类专家学习有望成为生物医药研发基础大模型,支撑诸如高通量虚拟筛选、分子生成与优化、个性化药物重定位、生物医药知识检索等多项应用。主要用于科研领域,更擅长英文生物医药科研任务,适合直接拿来作为生物医药领域的相关科研任务的基础模型。
  • 《广州生物院在肿瘤免疫治疗小鼠模型构建上获进展》

    • 来源专题:中国科学院亮点监测
    • 编译者:yanyf@mail.las.ac.cn
    • 发布时间:2019-01-10
    • 10月2日,中国科学院广州生物医药与健康研究院李鹏课题组在国际期刊mAbs上在线发表了新的动物模型研究成果“Establishment of peripheral blood mononuclear cell-derived humanized lung cancer mouse models for studying efficacy of PD-L1/PD-1 targeted immunotherapy”。该研究探索了利用患者外周血淋巴细胞快速建立小鼠模型的方法,并首次建立了免疫系统与肿瘤组织来源于同一患者的小鼠模型。   近年来,随着免疫检查点机制的阐明与嵌合抗原受体T细胞技术的发展,免疫疗法成为治疗肿瘤的最新方向。小鼠模型是研究与评估肿瘤免疫治疗的常用模型,其中,在小鼠体内重建人免疫系统是建立动物模型的关键。然而,目前广泛应用的小鼠模型并没有统一的重建人类免疫系统的方法与标准,对肿瘤免疫疗法的临床前研究与疗效评估造成一定的阻碍。在该研究中,研究人员首先利用不同来源的免疫细胞在免疫缺陷的小鼠体内成功重建了免疫系统,再进一步地建立携带肺癌患者肿瘤的异种移植模型,利用靶向PD-1/PD-L1的抗体进行治疗用以评估免疫重建的效率与治疗效果。该研究首次对比了不同方法在重建免疫系统效率上的差异,探索了利用患者外周血淋巴细胞快速建立小鼠模型的方法。   目前广泛应用的小鼠模型是采用健康供者的细胞重建免疫系统的,对肿瘤组织产生异体间的免疫排斥,不能精准地反应免疫疗法对肿瘤的治疗效果。该研究首次从肺癌患者的肿瘤组织中分离浸润性T细胞,与肿瘤共同移植,建立了“升级版”的小鼠模型:在同一小鼠体内携带同一患者的免疫细胞与肿瘤组织。   该研究系统对比了建立肿瘤免疫治疗的小鼠模型的方法,探索了利用外周血淋巴细胞快速建立小鼠模型的优势;同时建立了免疫系统与肿瘤组织来源于同一患者的小鼠模型,新的模型能更真实地模拟患者的体内环境,为肿瘤免疫治疗提供了更精准的研究与评价工具。   该研究获得中国科学院战略先导项目,广东省和广州市的经费支持。