《《通用大模型评测体系2.0》发布》

  • 来源专题:数智化图书情报
  • 编译者: 程冰
  • 发布时间:2025-07-29
  • 6月24日,认知智能全国重点实验室牵头,联合中国科学院文献情报中心、中国科学院人工智能产学研创新联盟、长三角人工智能产业链联盟发布了《通用大模型评测体系2.0》(以下简称“评测体系2.0”)。

    这是该评测体系自2023年6月发布以来的首次重大升级。“评测体系2.0”以技术迭代与产业需求为导向,在评测维度扩展、专项能力深化、评测方法优化等方面实现全面突破,为中国大模型产业发展提供更加科学的标准化支撑。

    评测任务扩展至1186项全模态覆盖引领行业前沿,相比1.0版本的7大能力维度、71类任务类型、481个细分任务,“评测体系2.0”实现了全方位升级。

    在任务规模上,“评测体系2.0”涵盖8大类、1186项细分任务,任务规模扩大至近2.5倍;在模态能力方面,从原有的文本/图片单一模态扩展至文本、图片、语音、视频全模态覆盖,新增了多模理解、多模生成、语音交互等能力评测;在语言支持上,从中文为主扩展至中英文并重,支持多语言评测,基础通用认知能力全面支持中英文双语评测。

  • 原文来源:https://mp.weixin.qq.com/s/CI28wxFZv17sVM1gzPnLNQ
相关报告
  • 《国内首个光子芯片领域专用大模型发布》

    • 来源专题:光电信息技术
    • 编译者:王靖娴
    • 发布时间:2025-05-12
    • 【内容概述】据光行天下5月19日报道,近日,光子产业生态大会暨光子专用大模型OptoChat AI发布会8日在江苏省南京市举行。现场,国内首个专注于光子芯片领域的专用大模型——OptoChat AI正式发布。   别于传统集成电路,光子芯片需要传输光信号。一枚小小的光子芯片,集成了激光器、调制器、探测器等光学元件与电子芯片,工艺复杂度呈几何级数增长。光子专用大模型OptoChat AI由南智光电联合生态伙伴共同开发,聚焦于“懂光子、懂工艺、懂应用”的实用价值,系面向光子领域全产业链的专用人工智能大模型,致力于解决科研与工程之间“知识转化效率低、参数理解难、研发路径碎片化”等问题。这款大模型深度融合南智光电及其合作伙伴的专业数据库,主要面向国内外光子芯片领域的科研及产业机构,帮助工作人员解决研发、生产过程中的难题,突破传统试错式、经验驱动的研发路径。   相较于通用大模型,光子专用大模型OptoChat AI具备更强的专业性与可靠性,通过对超30万个权威专业文献、可信工艺数据的结构化提炼与智能训练,构建覆盖材料选型、结构设计、性能分析、制备路径优化等多环节的专业知识体系。如今,南智光电不仅拥有国内首个“薄膜铌酸锂+X”光子芯片全链条研发及生产能力,还成功实现了8英寸铌酸锂晶圆流片,现已服务各类客户300余家。目前,OptoChat AI已面向部分产业客户和研究团队开放试用,并将在后续开放接口与联合训练平台,产业界可免费使用、共建共享。
  • 《技术动态 | 东北大学发布TechGPT2.0大语言模型》

    • 来源专题:数智化图书情报
    • 编译者:于彰淇
    • 发布时间:2023-12-01
    • 文本数据分析的利器----TechGPT-2.0大语言模型 引言随着大模型时代的到来,大模型与知识图谱融合的工作日益成为当前研究的热点。为了对这项工作提供研究基础,东北大学知识图谱研究组于2023年6月发布了TechGPT-1.0大模型。 在TechGPT-1.0基础上,经过几个月的努力,东北大学知识图谱研究组发布功能更全、性能更好的TechGPT-2.0大模型。TechGPT-2.0延续了TechGPT-1.0以“知识图谱构建”与“智能问答”为核心的构建目标,在继承TechGPT-1.0全部功能的基础上,对其多项功能进行了增强,同时扩充了新的功能。 01基本介绍Introduction TechGPT-2.0 为TechGPT-1.0 基础上的改进版本,其采用华为昇腾服务器(4机*8卡-32G 910A)、华为MindSpore框架、采用全量微调方式训练完成。此次共发布两个7B版本的TechGPT-2.0模型,分别为TechGPT2-Alpaca、TechGPT2-Atom。 TechGPT-2.0 较TechGPT-1.0 新加了许多领域知识。除了TechGPT-1.0 所具备的计算机科学、材料、机械、冶金、金融和航空航天等十余种垂直专业领域能力,TechGPT-2.0 还在医学、法律等领域文本处理上展现出优秀的能力,并扩充了对地理地区、运输、组织、作品、生物、自然科学、天文对象、建筑等领域文本的处理能力。TechGPT-2.0还对幻觉、不可回答、长文本处理等问题进行了能力增强。同时,TechGPT-2.0对部署的硬件要求更低,使用NVIDIA 4090单机单卡、或昇腾910A单机单卡就可完成TechGPT-2.0模型部署。亮点介绍TechGPT-2.0 在继承了TechGPT-1.0 的能力上进行了重要的改进,具有以下几项新增亮点功能: 一、TechGPT-2.0 对医学领域文本的处理能力取得了显著提升。TechGPT-2.0在处理医学文本时能够更全面地理解上下文信息,能够对疾病、药物、专业术语等实体的进行更准确识别,还能够理解医学文本中的复杂关系、疾病诊断、治疗方案等内容。这种全面的医学分析能力使得模型可以用于协助医生阅读医学文献、提供患者诊断建议等应用场景,从而提高医学领域的信息处理效率和准确性。 二、TechGPT-2.0 能够更好地理解和解释法律文本,包括法规、合同和案例法等。TechGPT-2.0通过学习法律用语和结构,能够更准确地捕捉文本中的法律关系和条款,为用户提供更有深度和专业性的法律分析。这使得TechGPT-2.0模型在法律领域中的应用前景更为广泛,可以用于解决自动化合同审查、法规遵循检查等任务。 三、TechGPT-2.0 增强了对嵌套实体的抽取能力。即TechGPT-2.0可以更灵活地处理实体之间的复杂关系,深入挖掘文本中的层次结构,提高了对复杂文本的理解和生成能力。例如,在医学文献中,可能存在嵌套的实体关系,如疾病的亚型、药物的剂量信息等,TechGPT-2.0 能够更好地捕捉这些信息,并在生成回应时更准确地反映上下文的语境。 四、TechGPT-2.0 在幻觉、不可回答问题、长文本处理、以及与人类价值观对齐方面进行了强化。TechGPT-2.0通过对话和理解上下文,能够更好地理解人类的感受和价值观,并在回应中考虑这些因素。此外,TechGPT-2.0能够支持最大长度12K的文本输入,这使得模型能够更好地与人类用户进行交互,更好地满足用户的需求和期望,进一步提升了人机交互的质量和用户体验。 五、TechGPT-2.0使用华为昇腾910A服务器、华为Mindspore框架、以及Mindformer套件进行开发,采用分布式训练方案,使用服务器数量为4机*8卡(32G),具有更低的部署硬件要求。目前TechGPT-2.0的部署在使用NVIDIA的显卡并使用float16的情况下显存仅需15G,INT8量化下显存占用8G,INT4量化下显存仅需5G。因此,用户使用NAVID 4090单机单卡、或昇腾910A单机单卡就可以部署TechGPT-2.0模型。 总体而言,TechGPT 2.0 在继承了 TechGPT 1.0 的全部特性的同时,通过增加多领域、多任务的数据,展现出了嵌套实体的抽取、幻觉回答、回答不可回答问题和回答长文本问题的能力。这些改进使得模型更适用于广泛的应用场景,为用户提供了更准确、更深入的信息处理和生成能力。/////    02模型说明Model TechGPT2-Alpaca使用HFL发布的Chinese-Alpaca-2-7B模型,Chinese-Alpaca-2-7B模型是在Chinese-LLaMA-2-7B的基础上进一步通过指令精调获得。Chinese-LLaMA-2-7B为基座模型,是在LLaMA-2的基础上进行中文增量训练获得。 TechGPT2-Atom 使用Llama中文社区联合AtomEcho(原子回声)共同发布的Atom-7B-chat,并在此基础上进行全量微调后获得。 我们TechGPT-2的两个7B版本的模型、以及使用QLora线性插值法微调的长文本模型都已经在Hugging Face和GitHub上开源。后续在这些模型基础上的改进,也将开源到相同账号,欢迎大家使用并提出宝贵的意见。 HuggingFace地址:https://huggingface.co/neukg/TechGPT-2.0-alpaca-hf https://huggingface.co/neukg/TechGPT-2.0-atom-hf GitHub地址: https://github.com/neukg/TechGPT-2.0 03体验地址Link 我们目前对外提供TechGPT-1.0与TechGPT2-Atom版本的在线服务:http://techgpt.neukg.com/ 作为一个学术组织,我们无法长期提供模型的在线服务功能,当前的体验系统存在着随时下线的可能。因此建议大家后续通过开源权重自行体验,共同创建更好的中文大模型开源环境。///// 04模型样例Example TechGPT-2.0 在保留了TechGPT-1.0 模型的通用能力、实体识别能力以及三元组抽取能力的基础上,能够完成更为复杂的嵌套实体识别,并在医学、法律领域展现出优秀的能力,此外对幻觉、不可回答问题以及长文本问题有着较好的解决能力。