技术动态 | 东北大学发布TechGPT2.0大语言模型

《技术动态 | 东北大学发布TechGPT2.0大语言模型》

来源专题：数智化图书情报
编译者： 于彰淇
发布时间：2023-12-01
文本数据分析的利器----TechGPT-2.0大语言模型

引言随着大模型时代的到来，大模型与知识图谱融合的工作日益成为当前研究的热点。为了对这项工作提供研究基础，东北大学知识图谱研究组于2023年6月发布了TechGPT-1.0大模型。

在TechGPT-1.0基础上，经过几个月的努力，东北大学知识图谱研究组发布功能更全、性能更好的TechGPT-2.0大模型。TechGPT-2.0延续了TechGPT-1.0以“知识图谱构建”与“智能问答”为核心的构建目标，在继承TechGPT-1.0全部功能的基础上，对其多项功能进行了增强，同时扩充了新的功能。

01基本介绍Introduction

TechGPT-2.0 为TechGPT-1.0 基础上的改进版本，其采用华为昇腾服务器（4机*8卡-32G 910A）、华为MindSpore框架、采用全量微调方式训练完成。此次共发布两个7B版本的TechGPT-2.0模型，分别为TechGPT2-Alpaca、TechGPT2-Atom。

TechGPT-2.0 较TechGPT-1.0 新加了许多领域知识。除了TechGPT-1.0 所具备的计算机科学、材料、机械、冶金、金融和航空航天等十余种垂直专业领域能力，TechGPT-2.0 还在医学、法律等领域文本处理上展现出优秀的能力，并扩充了对地理地区、运输、组织、作品、生物、自然科学、天文对象、建筑等领域文本的处理能力。TechGPT-2.0还对幻觉、不可回答、长文本处理等问题进行了能力增强。同时，TechGPT-2.0对部署的硬件要求更低，使用NVIDIA 4090单机单卡、或昇腾910A单机单卡就可完成TechGPT-2.0模型部署。亮点介绍TechGPT-2.0 在继承了TechGPT-1.0 的能力上进行了重要的改进，具有以下几项新增亮点功能：

一、TechGPT-2.0 对医学领域文本的处理能力取得了显著提升。TechGPT-2.0在处理医学文本时能够更全面地理解上下文信息，能够对疾病、药物、专业术语等实体的进行更准确识别，还能够理解医学文本中的复杂关系、疾病诊断、治疗方案等内容。这种全面的医学分析能力使得模型可以用于协助医生阅读医学文献、提供患者诊断建议等应用场景，从而提高医学领域的信息处理效率和准确性。

二、TechGPT-2.0 能够更好地理解和解释法律文本，包括法规、合同和案例法等。TechGPT-2.0通过学习法律用语和结构，能够更准确地捕捉文本中的法律关系和条款，为用户提供更有深度和专业性的法律分析。这使得TechGPT-2.0模型在法律领域中的应用前景更为广泛，可以用于解决自动化合同审查、法规遵循检查等任务。

三、TechGPT-2.0 增强了对嵌套实体的抽取能力。即TechGPT-2.0可以更灵活地处理实体之间的复杂关系，深入挖掘文本中的层次结构，提高了对复杂文本的理解和生成能力。例如，在医学文献中，可能存在嵌套的实体关系，如疾病的亚型、药物的剂量信息等，TechGPT-2.0 能够更好地捕捉这些信息，并在生成回应时更准确地反映上下文的语境。

四、TechGPT-2.0 在幻觉、不可回答问题、长文本处理、以及与人类价值观对齐方面进行了强化。TechGPT-2.0通过对话和理解上下文，能够更好地理解人类的感受和价值观，并在回应中考虑这些因素。此外，TechGPT-2.0能够支持最大长度12K的文本输入，这使得模型能够更好地与人类用户进行交互，更好地满足用户的需求和期望，进一步提升了人机交互的质量和用户体验。

五、TechGPT-2.0使用华为昇腾910A服务器、华为Mindspore框架、以及Mindformer套件进行开发，采用分布式训练方案，使用服务器数量为4机*8卡（32G），具有更低的部署硬件要求。目前TechGPT-2.0的部署在使用NVIDIA的显卡并使用float16的情况下显存仅需15G，INT8量化下显存占用8G，INT4量化下显存仅需5G。因此，用户使用NAVID 4090单机单卡、或昇腾910A单机单卡就可以部署TechGPT-2.0模型。

总体而言，TechGPT 2.0 在继承了 TechGPT 1.0 的全部特性的同时，通过增加多领域、多任务的数据，展现出了嵌套实体的抽取、幻觉回答、回答不可回答问题和回答长文本问题的能力。这些改进使得模型更适用于广泛的应用场景，为用户提供了更准确、更深入的信息处理和生成能力。///// 02模型说明Model

TechGPT2-Alpaca使用HFL发布的Chinese-Alpaca-2-7B模型，Chinese-Alpaca-2-7B模型是在Chinese-LLaMA-2-7B的基础上进一步通过指令精调获得。Chinese-LLaMA-2-7B为基座模型，是在LLaMA-2的基础上进行中文增量训练获得。

TechGPT2-Atom 使用Llama中文社区联合AtomEcho（原子回声）共同发布的Atom-7B-chat，并在此基础上进行全量微调后获得。

我们TechGPT-2的两个7B版本的模型、以及使用QLora线性插值法微调的长文本模型都已经在Hugging Face和GitHub上开源。后续在这些模型基础上的改进，也将开源到相同账号，欢迎大家使用并提出宝贵的意见。

HuggingFace地址：https://huggingface.co/neukg/TechGPT-2.0-alpaca-hf

https://huggingface.co/neukg/TechGPT-2.0-atom-hf

GitHub地址：

https://github.com/neukg/TechGPT-2.0

03体验地址Link

我们目前对外提供TechGPT-1.0与TechGPT2-Atom版本的在线服务：http://techgpt.neukg.com/

作为一个学术组织，我们无法长期提供模型的在线服务功能，当前的体验系统存在着随时下线的可能。因此建议大家后续通过开源权重自行体验，共同创建更好的中文大模型开源环境。/////

04模型样例Example

TechGPT-2.0 在保留了TechGPT-1.0 模型的通用能力、实体识别能力以及三元组抽取能力的基础上，能够完成更为复杂的嵌套实体识别，并在医学、法律领域展现出优秀的能力，此外对幻觉、不可回答问题以及长文本问题有着较好的解决能力。

展开更多
原文来源：https://mp.weixin.qq.com/s/mnYD4-0gHW3_ITsQADjXgA

644浏览量

0点赞

原文链接

《《通用大模型评测体系2.0》发布》

《“拟干海”大模型发布》

《技术动态 | 东北大学发布TechGPT2.0大语言模型》