文本数据分析的利器----TechGPT-2.0大语言模型
引言随着大模型时代的到来,大模型与知识图谱融合的工作日益成为当前研究的热点。为了对这项工作提供研究基础,东北大学知识图谱研究组于2023年6月发布了TechGPT-1.0大模型。
在TechGPT-1.0基础上,经过几个月的努力,东北大学知识图谱研究组发布功能更全、性能更好的TechGPT-2.0大模型。TechGPT-2.0延续了TechGPT-1.0以“知识图谱构建”与“智能问答”为核心的构建目标,在继承TechGPT-1.0全部功能的基础上,对其多项功能进行了增强,同时扩充了新的功能。
01基本介绍Introduction
TechGPT-2.0 为TechGPT-1.0 基础上的改进版本,其采用华为昇腾服务器(4机*8卡-32G 910A)、华为MindSpore框架、采用全量微调方式训练完成。此次共发布两个7B版本的TechGPT-2.0模型,分别为TechGPT2-Alpaca、TechGPT2-Atom。
TechGPT-2.0 较TechGPT-1.0 新加了许多领域知识。除了TechGPT-1.0 所具备的计算机科学、材料、机械、冶金、金融和航空航天等十余种垂直专业领域能力,TechGPT-2.0 还在医学、法律等领域文本处理上展现出优秀的能力,并扩充了对地理地区、运输、组织、作品、生物、自然科学、天文对象、建筑等领域文本的处理能力。TechGPT-2.0还对幻觉、不可回答、长文本处理等问题进行了能力增强。同时,TechGPT-2.0对部署的硬件要求更低,使用NVIDIA 4090单机单卡、或昇腾910A单机单卡就可完成TechGPT-2.0模型部署。亮点介绍TechGPT-2.0 在继承了TechGPT-1.0 的能力上进行了重要的改进,具有以下几项新增亮点功能:
一、TechGPT-2.0 对医学领域文本的处理能力取得了显著提升。TechGPT-2.0在处理医学文本时能够更全面地理解上下文信息,能够对疾病、药物、专业术语等实体的进行更准确识别,还能够理解医学文本中的复杂关系、疾病诊断、治疗方案等内容。这种全面的医学分析能力使得模型可以用于协助医生阅读医学文献、提供患者诊断建议等应用场景,从而提高医学领域的信息处理效率和准确性。
二、TechGPT-2.0 能够更好地理解和解释法律文本,包括法规、合同和案例法等。TechGPT-2.0通过学习法律用语和结构,能够更准确地捕捉文本中的法律关系和条款,为用户提供更有深度和专业性的法律分析。这使得TechGPT-2.0模型在法律领域中的应用前景更为广泛,可以用于解决自动化合同审查、法规遵循检查等任务。
三、TechGPT-2.0 增强了对嵌套实体的抽取能力。即TechGPT-2.0可以更灵活地处理实体之间的复杂关系,深入挖掘文本中的层次结构,提高了对复杂文本的理解和生成能力。例如,在医学文献中,可能存在嵌套的实体关系,如疾病的亚型、药物的剂量信息等,TechGPT-2.0 能够更好地捕捉这些信息,并在生成回应时更准确地反映上下文的语境。
四、TechGPT-2.0 在幻觉、不可回答问题、长文本处理、以及与人类价值观对齐方面进行了强化。TechGPT-2.0通过对话和理解上下文,能够更好地理解人类的感受和价值观,并在回应中考虑这些因素。此外,TechGPT-2.0能够支持最大长度12K的文本输入,这使得模型能够更好地与人类用户进行交互,更好地满足用户的需求和期望,进一步提升了人机交互的质量和用户体验。
五、TechGPT-2.0使用华为昇腾910A服务器、华为Mindspore框架、以及Mindformer套件进行开发,采用分布式训练方案,使用服务器数量为4机*8卡(32G),具有更低的部署硬件要求。目前TechGPT-2.0的部署在使用NVIDIA的显卡并使用float16的情况下显存仅需15G,INT8量化下显存占用8G,INT4量化下显存仅需5G。因此,用户使用NAVID 4090单机单卡、或昇腾910A单机单卡就可以部署TechGPT-2.0模型。
总体而言,TechGPT 2.0 在继承了 TechGPT 1.0 的全部特性的同时,通过增加多领域、多任务的数据,展现出了嵌套实体的抽取、幻觉回答、回答不可回答问题和回答长文本问题的能力。这些改进使得模型更适用于广泛的应用场景,为用户提供了更准确、更深入的信息处理和生成能力。///// 02模型说明Model
TechGPT2-Alpaca使用HFL发布的Chinese-Alpaca-2-7B模型,Chinese-Alpaca-2-7B模型是在Chinese-LLaMA-2-7B的基础上进一步通过指令精调获得。Chinese-LLaMA-2-7B为基座模型,是在LLaMA-2的基础上进行中文增量训练获得。
TechGPT2-Atom 使用Llama中文社区联合AtomEcho(原子回声)共同发布的Atom-7B-chat,并在此基础上进行全量微调后获得。
我们TechGPT-2的两个7B版本的模型、以及使用QLora线性插值法微调的长文本模型都已经在Hugging Face和GitHub上开源。后续在这些模型基础上的改进,也将开源到相同账号,欢迎大家使用并提出宝贵的意见。
HuggingFace地址:https://huggingface.co/neukg/TechGPT-2.0-alpaca-hf
https://huggingface.co/neukg/TechGPT-2.0-atom-hf
GitHub地址:
https://github.com/neukg/TechGPT-2.0
03体验地址Link
我们目前对外提供TechGPT-1.0与TechGPT2-Atom版本的在线服务:http://techgpt.neukg.com/
作为一个学术组织,我们无法长期提供模型的在线服务功能,当前的体验系统存在着随时下线的可能。因此建议大家后续通过开源权重自行体验,共同创建更好的中文大模型开源环境。/////
04模型样例Example
TechGPT-2.0 在保留了TechGPT-1.0 模型的通用能力、实体识别能力以及三元组抽取能力的基础上,能够完成更为复杂的嵌套实体识别,并在医学、法律领域展现出优秀的能力,此外对幻觉、不可回答问题以及长文本问题有着较好的解决能力。