《中科大江俊团队自主研发Chem-GPT,改变传统化学研究范式,解放化学家双手》

  • 来源专题:数智化图书情报
  • 编译者: 黄雨馨
  • 发布时间:2023-07-11
  • 近日,中国科学技术大学化学与材料科学学院江俊团队自主研发 Chem-GPT——一款化学领域的聊天机器人程序。

    Chem-GPT 由化学数据驱动,并结合人类化学家的知识进行机器学习训练,能够针对使用者提出的问题,给出初步的实验建议。基于开源的 GPT 代码,目前阅读了 50 万化学论文,可以基于论文知识来回答化学问题、建议实验方案,驱动机器化学家「小来」做实验,解决化学品和新材料的研发问题。


    Chem-GPT 通过阅读 50 万篇化学论文,响应使用者提出的化学问题。

    1. 大胆假设:基于文献数据,给出初步实验建议;

    2. 小心求证:驱动机器化学家「小来」做实验与模拟;

    3. 精准预测:针对实验与理论数据归纳总结;

    4. 解决问题反馈优化方案驱动实验验证。,时长02:33以芬顿催化剂为例Fenton(芬顿)是众多的以人名命名的无机化学反应之一。

    芬顿反应是一种无机化学反应,过程是过氧化氢(H2O2) 与二价铁离子 Fe2+ 的混合溶液将很多已知的有机化合物如羧酸、醇、酯类氧化为无机态。反应具有去除难降解有机污染物的高能力,在印染废水、含油废水、含酚废水、焦化废水、含硝基苯废水、二苯胺废水等废水处理中有很广泛的应用。

    芬顿催化剂又叫芬顿催化氧化填料,芬顿填料,它在传统芬顿反应的基础上,将芬顿反应所需的铁氧化物通过特殊方法附着在载体表面,形成有效的芬顿催化剂。

    问:什么类型的非贵金属元素常用于芬顿催化剂?

    Chem-GPT 的结果其实就来自于江俊团队开发的化学文献机器阅读系统,该系统内置了自然语言处理模型,通过阅读数千篇芬顿催化剂相关文献,可以很快统计出文献中出现频次最多的非贵金属元素。

    化学文献机器阅读系统。文献中出现频次最多的非贵金属元素。除了对数量进行统计,该系统还能进行元素协同分析来帮助我们选择最佳的元素组合。


    最佳的元素组合。

    Chem-GPT 能从文献的精确分析中学习到正确的知识,并不是仅仅基于语言的关联性,因此它给出的答案保证了严谨与准确性。

    接下来,就可以调出机器化学家操作系统中保存的芬顿催化剂实验模板,并根据 Chem-GPT 推荐的元素组合编辑液体进样站的参数,让机器获取家小来帮助我们进行实验验证。


    就这样,小来开始了愉快的芬顿催化剂创制之旅。化学文献机器阅读系统化学文献机器阅读系统基于 Word2Vec 与机器学习算法,结合语法距离分析方法,根据关键词,从文献中抽取化学关系,包括 Alloy 和 Organic molecule 两种任务。程序使用说明如下:

    1. 数据准备:目前系统支持两种格式数据:一是 TSV 文件格式,需要从 Web of Science 网站上下载,方法如下:进入 Web of Science 网站,根据关键词检索文献后,以制表符分隔符的形式导出,具体步骤见下图所示。




    二是 PDF 格式文件格式,支持任意 PDF 格式论文。

    2. 数据准备完成后,点击页面新建任务按钮,进入新建任务页面;

    3. 在新建任务页中填写任务名称、抽取的分子类型、上传准备的数据、填写关键词信息,其中点击可添加多个关键字; 当抽取的任务类型为 ALLOY 时,需指定目标元素在元素周期表上的周期,当需抽取的任务类型为有机分子, 则无需选择。

    4. 填写完成后,提交任务,等待任务排队完成,即可获取最终化学关系抽取结果。机器化学家2021 年 6 月,在 2021 北京智源大会《科学智能》专题论坛上。中国科学技术大学化学物理系江俊教授作了题为「分子光谱与材料构效关系的机器学习研究」的演讲。

    江俊表示:「上个月,中国科学技术大学研究人员提出「机器化学家」这个概念。我从鄂维南院士提出的『AI for Science——从理论模型得到可靠的数据,再从数据得到有效的模型』得到了启示,修改了我之前的思路,并拿到了项目。」「机器化学家」将帮助人类科学家突破思维局限,从融合了底层规则的数据中,学习建立有效的复杂模型,指导化学实践。

    就在项目启动一年后,在中国科学院「数据驱动的化学、材料和生物科学的机器科学家」青年团队计划和国家自然科学基金委项目的资助下,江俊教授团队通过开发和集成移动机器人、化学工作站、智能操作系统、科学数据库,研制出数据智能驱动的全流程机器化学家。,时长02:02这个神奇的「机器化学家」是全球首个数据智能驱动的全流程机器化学家平台。

    当然,「机器化学家」并只是一年就可以完成的,这是中国科学技术大学化学与材料科学学院教授罗毅、江俊团队经过八年攻关研制出的。

    相关研究成果以「An all-round AI-Chemist with a scientific mind」为题,于 2022 年 9 月发表在《国家科学评论》(Natl.Sci.Rev.)上。

    论文链接:https://academic.oup.com/nsr/article/9/10/nwac190/6694008「机器化学家」由「化学大脑」、机器人实验员和智能化学工作站三部分组成。其中最核心的「化学大脑」通过分析大量化学实验和理论数据建立知识图谱,实现了阅读理解文献、设计化学实验、自主优化方案的能力,并配备了人机交互的操作系统,可以便于「无编程基础」的科研用户使用。机器人实验员和 16 个化学工作站之间能进行数据交换和互动,精准配合执行化学实验。

    业内专家认为,机器化学家的研究工作脱离了传统试错研究范式的限制,展现出「最强化学大脑」指导的智能新范式的巨大优势,引领化学研究朝着知识理解数字化、实验操作指令化、材料创制模板化的未来趋势前进,确立了我国在智能化学创新领域的全球领跑地位。

    全球首个数据智能驱动的全流程机器化学家。就在本月,江俊团队首次将数据驱动自动合成、机器人辅助可控合成、机器学习促进逆向设计,用于胶体纳米晶(例如钙钛矿)材料合成,探索构建了「机器科学家」平台,有望将科研人员从传统试错实验、劳动密集型表征中解放,聚焦科学创新,实现纳米晶材料数字智造。

    该研究以「A robotic platform for the synthesis of colloidal nanocrystals」为题,于 2023 年 3 月 2 日发布在《自然-合成》(Nature Synthesis)上。

    论文链接:https://www.nature.com/articles/s44160-023-00250-5「这主要得益于中国科大多学科交叉的背景,促使不同学科的科研人员汇集在一起共同做一件事。我们的目标是建成机器化学家大科学装置,解放化学家双手,加快新的化学品和新的材料研发创制。」江俊教授说。

    未来蓝图:改变传统化学研究范式,解放化学家双手

    对于未来,江俊教授希望他们可以建成一个「机器化学家」大科学装置:在一整栋大楼里,布置上百个机器人、上千个智能化学工作站。一边,全国的化学家、材料学家只需在网上提交自己的任务;另一边,团队成员通过智能操作系统分时安排机器人完成任务,最后将方案反馈给化学家们。

    基于这样一个大平台,各个课题组的实验数据可以交汇、共享,产生海量数据,实现自动提炼出数字化的知识图谱和人工智能的模型,进而指导机器人自动优化产生更好、更高效率的化学品或新材料。而且在完成各个实验过程中,机器人通过与科研人员互动,默默学习人类的操作逻辑、思维模式,很有可能在若干年之后,机器人会变成一个智能、创造力都比肩大学教授的机器化学家。

    「我们希望争取到国家的支持,在 2 至 3 年内建成拥有几十台机器人的小型装置,3 至 5 年后建成一个大科学装置。在这期间,我们还需要不断训练机器人和智能化学通用模型。」江俊教授规划着未来的研究蓝图。他们最终目标是改变传统化学研究范式,解放化学家双手。

相关报告
  • 《人工智能撬动科研范式变革!专家解读AI for Science专项部署工作》

    • 来源专题:数智化图书情报
    • 编译者:闫亚飞
    • 发布时间:2023-07-11
    • “AI for Science有可能推动我们在下一轮科技革命中走在前沿。”谈及近期科技部、自然科学基金委联合启动人工智能驱动的科学研究(AI for Science)专项部署工作,中国科学院院士、北京科学智能研究院院长、自然科学基金委“下一代人工智能”重大研究计划专家组组长鄂维南作出这样的预判。 鄂维南告诉科技日报记者,新一轮科技革命中很重要的一点,就是科学研究从“小农作坊”模式向“平台科研”模式转变,AI for Science正是推动“平台科研”的主要动力。AI技术不仅极大提高了科研活动中共性工具的效率和精度,更重要的是,它可以助力建立一个由产业需求推动科研的有效体系。 作为人工智能发展的一大趋势,国际学术界已对AI for Science形成共识——将带来科研范式的变革和新的产业业态。 “科技部、自然科学基金委联合启动AI for Science专项部署工作,进一步加强对AI for Science创新工作的统筹指导、系统布局,充分发挥我国在人工智能领域的优势,加速科学研究范式变革和能力提升,推动人工智能走向高质量应用新阶段。”中国科学院自动化研究所所长徐波说。 人工智能驱动科研突破什么瓶颈 鄂维南坦言,长期以来,科研人员在实际研究中面临四大痛点:其一,辛苦研究出来的基本原理等重要成果,用来解决实际问题时比较困难;其二,目前的实验手段,以及收集、处理、分析数据的效率相对低下;其三,科研团队工作方式多为“作坊模式”,从头到尾都自己干下来,科研效率亟待提高;其四,在解决生物制药、材料等实际问题过程中,仍然依靠经验和试错方式。 “人工智能为解决这些问题提供了有效手段,AI for Science是以‘机器学习为代表的人工智能技术’与‘科学研究’深度融合的产物。”在鄂维南看来,AI for Science为科学研究带来了新方法、新工具,在提升创新效能的同时,赋能产业应用的实际场景。 北京科学智能研究院副院长、深势科技创始人兼首席科学家张林峰认为,人工智能驱动下的科学研究最大的特点是,它以一种前所未有的方式,将不同学科、不同背景的人们连接在一起。 “Al for Science 是一个学科与知识体系大重构的过程,既需要计算机、数据科学、材料、化学、生物等学科的交叉融合,也需要数学、物理等基础学科进行更深入的理论构建和算法设计。”张林峰提醒,“当且仅当做好相关的融合,我们才有机会在新一轮科学革命中抢占先机。” 这些领域为何迫切需要AI驱动 那么,我国布局AI for Science前沿科技研发体系,将聚焦哪些领域发力? “紧密结合数学、物理、化学、天文等基础学科关键问题,布局AI for Science前沿科技研发体系,是增强基础科学研究竞争力的重要保证。”徐波解释说,新药创制、基因研究、生物育种、新材料研发等领域,则是人工智能与科学研究结合需求迫切、进展突出、具有代表性的重要方向。 比如,基于生物学机制、疾病和用药相关数据、药物的各种药学性质等建立的人工智能模型,可预测新药的安全性和有效性;通过人工智能辅助,可减少研发中的人力、物力和时间投入,提高药物研发成功率。当人工智能赋能新材料研发后,可实现将电子尺度和分子尺度等多尺度材料计算模拟方法耦合,快速筛选符合目标性能的新材料成分和构型,压缩新材料与器件研发周期和成本…… “科学研究中的人工智能方法,不能简单照搬我们熟知的AI领域,如计算机视觉和自然语言处理等领域现有模型和算法,而需要根据每个基础科学具体情况,研发针对性的智能算法、模型和软件工具。”徐波强调,只有将人工智能技术与自然科学和技术科学的领域知识深度结合,才能充分发掘人工智能加速重大科学问题研究和知识发现的变革性潜力。 整合资源形成推进合力 谈及我国在该领域的发展,鄂维南直言,我们率先意识到人工智能方法对基础科学研究可能产生的影响,全面布局AI for Science的科学研究和培养科研团队,将人工智能方法、高性能计算与物理模型相结合,并已走在了国际前沿。但如何高效利用这些优势积极引导布局,使我国在当下的科技革命中走在前列,并率先打造出新的科研体系、有效调动人才资源、合理利用资金和算力资源,是亟需解决的问题。 值得注意的是,科技创新2030—“新一代人工智能”重大项目已将AI for Science作为人工智能的重要发展方向进行安排。徐波介绍,在2022年指南中,部署了“重大科学问题研究的AI范式”任务,面向地球科学、空间科学、化学和材料科学、生物医药科学等领域重大科学问题开展创新研究。同时,面向国际竞争激烈的蛋白质结构预测领域,支持国内优势团队开展科研攻关。 记者了解到,科技部将以科技创新2030—“新一代人工智能”重大项目为牵引,加快人才、技术、数据、算力等要素汇聚,形成推进AI for Science的政策合力。在平台支撑方面,科技部正在加快推动公共算力开放创新平台建设,将为AI for Science发展打造智能算力基座;在机制创新方面,科技部将鼓励用户单位围绕业务深度挖掘技术需求和科学问题,深度参与模型研究与算法创新,积极开放数据、资源。 着眼未来发展,鄂维南提醒,要把资源真正配置到一线科研人员手中。AI for Science时代,更需构建垂直整合的人才团队,以重点问题为牵引,真正让人工智能的研究人员与基础科学领域如材料、能源等的研究人员一起工作,进行高频的学术交流和思想碰撞。 “AI for Science的潜力正在不断释放,但也面临‘点’上研究较多、追逐‘热点领域’研究较多,而系统布局较少的现实问题。”徐波说,为此,科技创新2030—“新一代人工智能”重大项目将在第二个五年实施阶段(2023—2027年)持续加强体系化布局和支持力度,拟研究人工智能驱动科学研究的新理论、新模型、新算法,研发跨尺度建模、高精度仿真、微分方程智能解算等共性研发工具和平台,发展一批针对典型科研领域的AI for Science专用平台,推进软硬件计算技术升级,打造智能化科研的开源开放创新生态。
  • 《德国科学家研发激光除草系统》

    • 来源专题:农业科技前沿与政策咨询快报
    • 编译者:李楠
    • 发布时间:2017-11-28
    • 为了保证农作物长势良好,提高作物产量,必须有效控制农田里的杂草。由于传统的化学除草剂被认为是有毒化学品,有机农业避免使用除草剂,因此,如果机器人能够自动识别农田中的杂草并用短激光脉冲将其除掉,这对于可持续发展农业而言,可谓一大福音。 在联邦经济与能源部(Federal Ministry for Economic Affairs and Energy)创业基金(EXIST)的支持下,德国波恩大学(the University of Bonn)的胡里奥·帕斯特拉纳博士带领其计算机科学团队开发了一个机器人识别杂草系统:在全地形机器人车或拖拉机上装载照相机,从众多作物中自动识别出杂草,并有针对性地将其去除。这一机器人系统在波恩创意交流会(Bonn Idea Exchange )上获得了最佳创意奖。帕斯特拉纳博士说“机器人用短激光脉冲照射杂草叶片,减弱其活性。如果该系统能够实现商业推广,在未来的农田里就可以不再使用除草剂,从而达到保护环境的目的。” 作为该机器人系统的主要发明人之一,帕斯特拉纳博士曾在在莱布尼茨-汉诺威大学(Leibniz Universität Hannover)攻读博士学位时的研究方向就是用统计模型对杂草进行检测和分类,并和同事合作建立起了机器人的早期模型。目前,帕斯特拉纳博士带领研究团队研究机器人学和图像自动识别(automated image interpretation techniques),这为机器人除草系统的深入研究提供技术保障。 为了促进可持续农业的进一步发展,同时基于该杂草自动识别系统的不断完善,在技术转移专家的指导和帮助下,目前技术创始人正在推进其创业项目——埃斯卡达技术(Escarda Technologies)。激光除草的设想将创新性机器人与可持续发展这一热点问题相结合,使激光技术助力新农业机械的发展,将具有良好的市场前景和竞争力。 (编译 李楠)