《中国科学院物理研究所联合中国科学院计算机网络信息中心发布无机材料合成预测对话大模型MatChat》

  • 来源专题:数智化图书情报
  • 编译者: 闫亚飞
  • 发布时间:2023-09-21
  • 近年来,人工智能领域的一项重要进展是大模型的崛起,巨大的参数规模使得模型的学习能力和内容生成能力获得了飞跃式的提升。国内外各类通用大模型,如ChatGPT3.5、ChatGPT4.0、文心一言、讯飞星火等,引发了全球研究人员的极大关注。为了突出模型在特定领域的能力,研究人员采用了fine-tune的方式对预训练模型进行相关领域知识的微调,这种方法在医疗、金融、教育等领域已经取得了显著成效。

    为实现模型在材料领域的应用,基于LLAMA2-7b,中国科学院物理研究所和中国科学院计算机网络信息中心共同合作,利用7万余条结构化材料知识数据进行学习和fine-tune训练,开发了材料领域大语言模型——CAS MatChat,该模型已初步具备了材料领域知识的生成推理能力。

    CAS MatChat专注于化学合成,能够根据所询问的结构进行逻辑推理,并输出相应的制备工艺和配方。目前已经部署上线(http://chat.aicnic.cn/onchat),并向所有材料科研人员开放使用,为材料研究和创新带来了新启发和思路。相关代码已经在GitHub发布(https://github.com/materialsCnicCas/CASMatChat),后续会持续不断地完善和加强CAS MatChat的推理和生成能力。

    该工作得到中国科学院网信专项(CAS-WX2023SF-0101)应用示范项目的支持。

  • 原文来源:https://mp.weixin.qq.com/s/jouunrhQ98LdvLPXoxB0sQ
相关报告
  • 《中国科学院科学数据中心建设与服务体系》

    • 来源专题:国家病毒资源信息监测和情报服务平台
    • 编译者:mall
    • 发布时间:2021-03-22
    • 数据资源作为重要的战略资源是驱动各领域创新发展的重要因素。随着信息化进程的发展,分布式多源异构数据的管理和应用问题凸显,如何有效地实现分布式数据的管理、整合、服务成为推动科研与应用的共性需求和必要手段。 中国科学院计算机网络信息中心大数据技术与应用发展部(以下简称大数据部)自“十•五”开始承担中国科学院“科学数据库及其应用系统”建设工作以来,立足实际需求,面向应用实效,扎实推进标准与系统研制和推广应用工作。从“十•五”面向分布式异构数据资源的规范化统一服务,到“十一•五”数据资源及其应用环境(含国家科学数据共享工程项目“基础科学数据共享网”)建设和服务体系形成,再到“十二•五”响应“海-云”环境和“十三•五”适应大数据环境下科研模式变革的体系完善,大数据部与时俱进推动科学数据中心体系相关标准(55项)、技术、工具(13个)的研制和应用,是我国数据资源管理研究与实践的先锋,为数据资源的开放与共享提供了强劲的源动力。 当前随着国家《科学数据管理办法》和首批国家科学数据中心的发布,结合国家建设科学数据中心的战略需求,大数据部提出面向科学数据数据中心体系的全生命周期体系化数据资源管理与服务解决方案。 标准规范体系 科学数据标准体系基本实现了从数据资源建设到应用及效果评估全生命周期关键内容的规范化,在科学数据资源建设和应用服务中发挥了积极的助推作用。科学数据标准体系可分为指导规范、数据采集与整理、元数据与元模型、系统与接口、数据管理、数据服务等类型,主要内容详见表1。自“十一•五”项目结束以来,在线发布的标准建设成果已被访问下载超过17万次之多,配套工具软件已经在项目内全面推广使用,部分成果(如VDB、MSIS等)还广泛应用到项目之外。 经过十余年的努力,大数据部的标准工作已经逐步形成了“有需求,多合作,要实用,慎提升”的特点,工作中与院内外合作机构建立了良好的关系,并谨慎的将有应用前景的标准提升为国家标准、国际标准,先后作为第一责任单位完成了《生态科学数据元数据(GB/T20533-2006)》、《信息技术数据溯源描述模型(GB/T34945-2017)》、《信息技术科学数据引用(GB/T35294-2017)》和CODATA国际标准《天然气水合物描述语言(GasHydrate Markup Language)》、以第二责任单位完成了《检测资源信息共享体系建设指南(GB/Z27414-2012)》和《土壤科学数据元数据(GB/T32739-2016)》。详见表2。 工具与技术体系 面向科学数据中心体系化、系统化建设及管理的需求,大数据部研发重点包括分布式数据资源自主管理与服务,数据资源集成整合管理与服务,数据资源与服务监控、统计分析及评估管理,数据资源统一发布、共享、服务及应用等。同时面向不同类型数据提供数据资源管理,并提供统一的管理和外延服务。 优势总结如下: 1、体系化的解决方案。采用体系化的设计理念,提供自顶向下的总体设计,协同策略、系统、规则、设施等各方面,保障数据资源高效、安全、可靠、敏捷的管理与服务。 2、完备的服务平台和软件体系。提供包括集成化数据服务、数据资源的监控与管理、数据资源的整合、分布式数据资源的自主管理在内的数据资源管理、整合与服务平台及完备的软件体系,并可为个性化需求提供定制和支持。 3、统一的管理和外延服务。基于标准化的数据资源管理机制,提供一整套有效的管理办法,并提供包括数据库建设、系统运维、服务咨询在内的多项外延服务。 4、丰富的建设经验。30年来,为中国科学院各科研单位的数据资源建设与服务有效助力,在地理、生态、环境等领域深入探索,为60多家科研单位提供服务。重点负责了国家生态系统研究网络体系建设、国防资源服务体系建设,为相关领域科研信息化建设,提供了体系架构、系统设计、开发、服务一体化的建设方案。
  • 《中国科学院自动化研究所发布类脑脉冲大模型“瞬悉1.0”》

    • 来源专题:集成电路与量子信息
    • 发布时间:2025-09-09
    • 据官网9月8日报道,中国科学院自动化研究所李国齐、徐波团队在论文工作基础上,借鉴大脑神经元内部复杂工作机制提出“基于内生复杂性”的大模型构架方式,与沐曦MetaX合作,打造了类脑脉冲大模型“瞬悉1.0”(SpikingBrain-1.0),在国产千卡GPU算力平台上完成全流程训练和推理,实现了大模型在法律/医学文档分析、复杂多智能体模拟、高能粒子物理实验、DNA序列分析、分子动力学轨迹等超长序列推理上数量级的效率和速度提升,展示了构建国产自主可控的新型非Transformer大模型架构生态的可行性,并将启迪更低功耗的下一代神经形态计算理论和芯片设计。研究团队开源了SpikingBrain-1.0-7B模型并开放SpikingBrain-1.0-76B测试网址,同步公开了经工业界大规模验证的类脑脉冲大模型SpikingBrain-1.0中英文技术报告。这是我国首次提出大规模类脑线性基础模型架构、并首次在国产GPU算力集群上构建类脑脉冲大模型的训练和推理框架。 SpikingBrain-1.0在多个核心性能上实现突破。第一,极低数据量上的高效训练:训练阶段具有线性或近线性复杂度,显著提升长序列训练效率,并能依托高效转换训练范式,以约为主流大模型2%的预训练数据量实现与众多开源Transformer模型在多任务语言理解(MMLU) ,中文多任务语言理解(CMMLU、Ceval) ,常识推理能力(ARC、HS)任务上相媲美的性能。第二,推理效率的数量级提升:推理阶段结合脉冲神经元事件驱动特性,SpikingBrain具有常数或部分层常数级别的复杂度和存储开销,SpikingBrain-7B模型在100万Token长度下TTFT(生成第一个Token所需时间)相比Transformer架构加速达到26.5倍,400万Token长度下加速超过100倍。同时在手机CPU端64k-128k-256k长度下较Llama3.2的同规模模型Decoding速度提升4.04x-7.52x-15.39x,在超长序列处理能力上展现出数量级的效率和速度提升。第三,国产自主可控类脑大模型生态的构建:SpikingBrain适配了面向国产GPU集群的高效训练和推理框架、Triton算子库、模型并行策略以及集群通信原语,表明了构建国产自主可控的新型非Transformer大模型架构生态的可行性。第四,基于动态阈值脉冲化的多尺度稀疏机制:设计细粒度的两阶段动态阈值脉冲化策略,结合粗粒度的混合专家模型(MoE)方案,在7B模型上实现了超过69.15%的稀疏度,长序脉冲占比约1.85%,为低功耗的类脑大模型运行提供有力支撑。