《Meta发布多轮多语言基准Multi-IF:覆盖8种语言,超4500种任务》

  • 来源专题:中国科学院自动化所所级服务
  • 编译者: 张桂英
  • 发布时间:2024-11-25
  • Meta全新发布的基准Multi-IF涵盖八种语言、4501个三轮对话任务,全面揭示了当前LLM在复杂多轮、多语言场景中的挑战。所有模型在多轮对话中表现显著衰减,表现最佳的o1-preview模型在三轮对话的准确率从87.7%下降到70.7%;在非拉丁文字语言上,所有模型的表现显著弱于英语。 在大语言模型(LLMs)不断发展的背景下,如何评估这些模型在多轮对话和多语言环境下的指令遵循(instruction following)能力,成为一个重要的研究方向。 现有评估基准多集中于单轮对话和单语言任务,难以揭示复杂场景中的模型表现。 最近,Meta GenAI团队发布了一个全新基准Multi-IF,专门用于评估LLM在多轮对话和多语言指令遵循(instruction following)中的表现,包含了4501个三轮对话的多语言指令任务,覆盖英语、中文、法语、俄语等八种语言,以全面测试模型在多轮、跨语言场景下的指令执行能力。 论文链接:https://arxiv.org/abs/2410.15553 Multi-IF下载链接:https://huggingface.co/datasets/facebook/Multi-IF 实验结果表明,多数LLM在多轮对话中表现出显著的性能衰减。
  • 原文来源:http://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&mid=2652543105&idx=3&sn=0e07e36c2f1700496963fa793545336c&scene=0
相关报告
  • 《联发科技试图在基准作弊指控尚未发布之前就予以反驳》

    • 来源专题:宽带移动通信
    • 编译者:张卓然
    • 发布时间:2020-05-23
    • 本周早些时候,我们报道了联发科技在其产品上所推出的令人震惊的新“基准作弊服务”(BCaaS)操作模式。今天,我们发现在Anandtech公布调查结果之前,联发科技就已经试图用自己的文章来反驳这一说法。 专家提示:如果一家公司在一本著名的刊物上在一篇文章产生影响之前对其发表了回应,那么他们一定是在试图用自己的方式抢占话语权以摆脱困境。 让我们仔细研究一下联发科技的声明,我将各种不诚实的陈述,虚假陈述和一些毫无根据的谎言都用斜体来标注。 “几乎每一款现代智能手机都被设计成在不同的环境下以不同的方式运行,这意味着设备已经过优化,可以根据正在运行的应用程序来调整电源和性能。联发科技以其智能节能创新而闻名,它涵盖了多种技术,用于动态管理设备的计算资源,以便提供一个持续的用户体验。这意味着,只有在必须获得良好的用户体验时,设备才会全速运转(这会消耗电池寿命)。” 这是一个谎言,Andrei Frumusanu一开始发现问题是因为他注意到了PCMark得分存在巨大差异(下图是在Oppo Reno3 Pro P95上运行的作弊和不作弊的结果): 非作弊得分是6781,而作弊得分是9048,或者在一个与任何人的“良好用户体验”毫无关系的应用程序中性能提高了1.33倍。实际上,对像PCMark这样的应用程序进行超频处理是非常糟糕的,因为PCM的全部目的是创建一个更逼真的测试环境,在这个环境中,延迟、加载时间等都将被记入结果。这并不意味着它像一些移动基准测试那样是一个严格的综合测试或单一功能测试。 “当运行最严格的应用程序时,我们的芯片组提供大功率,使人们可以享受更流畅的游戏体验,并从最新的AI应用程序中获得最大收益。另一方面,当你在做如查看电子邮件之类的轻任务时,我们的芯片组将在一个超省电模式下运行。” 联发科技可能指的是目前某些手机上所提供的“高功率”模式选项,但这与该公司正在超频的白名单是完全不同的功能。“高性能”模式是您在Android中能启用的一种功能,通常在单击后可能会一个对手机的电池寿命和SoC寿命产生影响的警告。此外,除非您的目标是依靠SoC的性能,否则所有列入白名单的应用程序都不是游戏或用户能“充分利用”的首选应用程序。 我加上了最后一句话,因为这句话不是谎言。在这种写作风格中,常见的公关策略是将公然的虚假陈述和明显真实的陈述混合在一起,半真半假。 “有趣的是,当在行业中广泛使用这些类型的配置时,我们确实发现AnandTech对联发科技电力设备的基准测试优化提出了质疑。如果他们审查其他设备,他们会像我们一样,看到我们的主要竞争对手的芯片组是以完全相同的方式运行——AnandTech会认为这是在设备基准测试中作弊。” 这段话的全部暗示言论都是谎话,在过去的7年里,Anandtech调查了华硕、荣耀、HTC、华为、谷歌、LG、摩托罗拉、Nvidia、三星和小米制造的设备上的移动基准作弊行为(不是每家公司都有自己的报道,也不是每家公司都作弊,但上面的链接涵盖了所有存在问题的公司的报告)。 有些公司比其他公司作弊更多,有些根本就没有被发现作弊。自从被发现作弊以来,三星和华为都已改正了自己的做法。 公司试图掩盖自己不当行为的最常见方式之一,就是声称调查人员有偏见、不称职,或两者兼而有之。在此,联发科技断然宣称Anandtech未能尽职调查,并暗示这是该网站发表了这篇烂文章的原因。他们不是坏人,确切地说——他们只是不了解移动行业的来龙去脉,或者公司实际上是如何开发产品的。“我们确实觉得这很有趣”这样的短语最好的地方在于,联发科技无法提出任何可以反驳的具体指控。“我们确实觉得这很有趣”的意思是“我们希望你相信我们的暗示,即Anandtech针对我们的理由是无效的,但你必须自己解释为什么会这样。”也许你会选择种族主义、沙文主义或专业无能,问题是,联发科技希望你能考虑一下。 我意识到很多人对公司沟通的细节不是特别感兴趣,这也是问题的一部分。联发科技知道,大多数人永远不会去进行一个调查,以查明它的反诉是否正确。它知道有许多人倾向于认为媒体即是错误的,并将站在公司的一边。它知道,提出歧视的想法将会引起自己客户群的共鸣,从而强调在中美关系日益紧张之际,美国网站是如何对中国公司挑刺的。 我认为很重要的一点是,我们要展示公司是如何通过真假参半的陈述来操纵围绕其产品的谈话的。在这种情况下,联发科技预先发表了对一篇它甚至没有读过的文章的回应,再加上对文章本身的仔细阅读,说明这篇博客文章中有多少是由虚假的声明所构成的。
  • 《技术动态 | 东北大学发布TechGPT2.0大语言模型》

    • 来源专题:数智化图书情报
    • 编译者:于彰淇
    • 发布时间:2023-12-01
    • 文本数据分析的利器----TechGPT-2.0大语言模型 引言随着大模型时代的到来,大模型与知识图谱融合的工作日益成为当前研究的热点。为了对这项工作提供研究基础,东北大学知识图谱研究组于2023年6月发布了TechGPT-1.0大模型。 在TechGPT-1.0基础上,经过几个月的努力,东北大学知识图谱研究组发布功能更全、性能更好的TechGPT-2.0大模型。TechGPT-2.0延续了TechGPT-1.0以“知识图谱构建”与“智能问答”为核心的构建目标,在继承TechGPT-1.0全部功能的基础上,对其多项功能进行了增强,同时扩充了新的功能。 01基本介绍Introduction TechGPT-2.0 为TechGPT-1.0 基础上的改进版本,其采用华为昇腾服务器(4机*8卡-32G 910A)、华为MindSpore框架、采用全量微调方式训练完成。此次共发布两个7B版本的TechGPT-2.0模型,分别为TechGPT2-Alpaca、TechGPT2-Atom。 TechGPT-2.0 较TechGPT-1.0 新加了许多领域知识。除了TechGPT-1.0 所具备的计算机科学、材料、机械、冶金、金融和航空航天等十余种垂直专业领域能力,TechGPT-2.0 还在医学、法律等领域文本处理上展现出优秀的能力,并扩充了对地理地区、运输、组织、作品、生物、自然科学、天文对象、建筑等领域文本的处理能力。TechGPT-2.0还对幻觉、不可回答、长文本处理等问题进行了能力增强。同时,TechGPT-2.0对部署的硬件要求更低,使用NVIDIA 4090单机单卡、或昇腾910A单机单卡就可完成TechGPT-2.0模型部署。亮点介绍TechGPT-2.0 在继承了TechGPT-1.0 的能力上进行了重要的改进,具有以下几项新增亮点功能: 一、TechGPT-2.0 对医学领域文本的处理能力取得了显著提升。TechGPT-2.0在处理医学文本时能够更全面地理解上下文信息,能够对疾病、药物、专业术语等实体的进行更准确识别,还能够理解医学文本中的复杂关系、疾病诊断、治疗方案等内容。这种全面的医学分析能力使得模型可以用于协助医生阅读医学文献、提供患者诊断建议等应用场景,从而提高医学领域的信息处理效率和准确性。 二、TechGPT-2.0 能够更好地理解和解释法律文本,包括法规、合同和案例法等。TechGPT-2.0通过学习法律用语和结构,能够更准确地捕捉文本中的法律关系和条款,为用户提供更有深度和专业性的法律分析。这使得TechGPT-2.0模型在法律领域中的应用前景更为广泛,可以用于解决自动化合同审查、法规遵循检查等任务。 三、TechGPT-2.0 增强了对嵌套实体的抽取能力。即TechGPT-2.0可以更灵活地处理实体之间的复杂关系,深入挖掘文本中的层次结构,提高了对复杂文本的理解和生成能力。例如,在医学文献中,可能存在嵌套的实体关系,如疾病的亚型、药物的剂量信息等,TechGPT-2.0 能够更好地捕捉这些信息,并在生成回应时更准确地反映上下文的语境。 四、TechGPT-2.0 在幻觉、不可回答问题、长文本处理、以及与人类价值观对齐方面进行了强化。TechGPT-2.0通过对话和理解上下文,能够更好地理解人类的感受和价值观,并在回应中考虑这些因素。此外,TechGPT-2.0能够支持最大长度12K的文本输入,这使得模型能够更好地与人类用户进行交互,更好地满足用户的需求和期望,进一步提升了人机交互的质量和用户体验。 五、TechGPT-2.0使用华为昇腾910A服务器、华为Mindspore框架、以及Mindformer套件进行开发,采用分布式训练方案,使用服务器数量为4机*8卡(32G),具有更低的部署硬件要求。目前TechGPT-2.0的部署在使用NVIDIA的显卡并使用float16的情况下显存仅需15G,INT8量化下显存占用8G,INT4量化下显存仅需5G。因此,用户使用NAVID 4090单机单卡、或昇腾910A单机单卡就可以部署TechGPT-2.0模型。 总体而言,TechGPT 2.0 在继承了 TechGPT 1.0 的全部特性的同时,通过增加多领域、多任务的数据,展现出了嵌套实体的抽取、幻觉回答、回答不可回答问题和回答长文本问题的能力。这些改进使得模型更适用于广泛的应用场景,为用户提供了更准确、更深入的信息处理和生成能力。/////    02模型说明Model TechGPT2-Alpaca使用HFL发布的Chinese-Alpaca-2-7B模型,Chinese-Alpaca-2-7B模型是在Chinese-LLaMA-2-7B的基础上进一步通过指令精调获得。Chinese-LLaMA-2-7B为基座模型,是在LLaMA-2的基础上进行中文增量训练获得。 TechGPT2-Atom 使用Llama中文社区联合AtomEcho(原子回声)共同发布的Atom-7B-chat,并在此基础上进行全量微调后获得。 我们TechGPT-2的两个7B版本的模型、以及使用QLora线性插值法微调的长文本模型都已经在Hugging Face和GitHub上开源。后续在这些模型基础上的改进,也将开源到相同账号,欢迎大家使用并提出宝贵的意见。 HuggingFace地址:https://huggingface.co/neukg/TechGPT-2.0-alpaca-hf https://huggingface.co/neukg/TechGPT-2.0-atom-hf GitHub地址: https://github.com/neukg/TechGPT-2.0 03体验地址Link 我们目前对外提供TechGPT-1.0与TechGPT2-Atom版本的在线服务:http://techgpt.neukg.com/ 作为一个学术组织,我们无法长期提供模型的在线服务功能,当前的体验系统存在着随时下线的可能。因此建议大家后续通过开源权重自行体验,共同创建更好的中文大模型开源环境。///// 04模型样例Example TechGPT-2.0 在保留了TechGPT-1.0 模型的通用能力、实体识别能力以及三元组抽取能力的基础上,能够完成更为复杂的嵌套实体识别,并在医学、法律领域展现出优秀的能力,此外对幻觉、不可回答问题以及长文本问题有着较好的解决能力。