《佳文速递|ChatGPT中文性能测评与风险应对》

  • 来源专题:数智化图书情报
  • 编译者: 黄雨馨
  • 发布时间:2023-10-10
  • ChatGPT中文性能测评与风险应对

    【目的】 介绍ChatGPT的主要技术创新,使用9个数据集在4个任务上测评ChatGPT的中文性能,分析ChatGPT潜在的风险以及中国应对策略建议。【方法】 使用ChnSentiCorp数据集测试ChatGPT和WeLM模型,EPRSTMT数据集测试ChatGPT和ERNIE 3.0 Titan,发现ChatGPT在情感分析任务上与国产大模型差距不大;使用LCSTS和TTNews数据集测试ChatGPT和WeLM模型,ChatGPT均优于WeLM;使用CMRC2018和DRCD数据集进行抽取式的机器阅读理解,C3数据集进行常识性的机器阅读理解,发现ERNIE 3.0 Titan在该任务中优于ChatGPT;使用WebQA和CKBQA数据集进行中文闭卷问答测试,发现ChatGPT容易产生事实性错误,与国产模型差距较大。【结果】 ChatGPT在自然语言处理的经典任务上表现较好,在情感分析上具有85%以上的准确率,在闭卷问答上出现事实性错误的概率较高。【局限】 将判别式的任务转为生成式的过程中可能引入评估分数的误差。本文仅在零样本情况下评估ChatGPT,并不清楚其在其他情况下的表现。由于后续版本的迭代更新,ChatGPT评测结果具有一定的时效性。【结论】 ChatGPT很强大但仍然存在一些缺点,研发中国化的大模型应以国家战略需求为导向,并且注意语言模型的风险和局限。

相关报告
  • 《ChatGPT:改变游戏规则还是道德风险?》

    • 来源专题:科技期刊发展智库
    • 编译者:张恬
    • 发布时间:2023-03-31
    • 人工智能Artificial Intelligence已成为我们生活的重要组成部分,人工智能工具的快速发展有助于自动化和简化当今一些具有挑战性和繁琐的任务,即使在科学和研究领域也是如此。随着语言工具获得全球关注,2023年1月20日,RESEARCHER.life上发表了一篇博文,讨论了 ChatGPT 如何在学术写作过程中帮助研究人员,并探讨了围绕使用此类 AI 工具撰写研究论文的局限性和伦理问题,文章内容如下: 什么是Artificial Intelligence ? ChatGPT是一个由OpenAI开发的预训练语言模型。它使用Transformer架构的一个变种,该架构在Vaswani等的论文 "Attention Is All You Need "中有所介绍。该模型在人类生成的文本的大型数据集上进行训练,并针对特定任务进行微调,如问题回答、语言翻译和文本完成。ChatGPT能够理解和生成类似人类的文本,使其对广泛的自然语言处理任务有用。它可以针对不同的任务进行微调,并可通过OpenAI的API和各种开源框架获得。 2022年11月30日推出的ChatGPT正以其理解关键用户输入并生成类似人类反应的对话的迷人能力而风靡世界。除了ChatGPT、OpenAI,一家位于加州旧金山的人工智能公司也因创造了DALL-E而闻名,这个AI工具因能够将文本变成图像而名声大噪。 ChatGPT是如何工作的? 大型语言模型旨在准确预测一个句子中的下一个词,这使它们能够编写整页的内容。这些人工智能模型是在大量人类生成的文本上训练的神经网络,以学习如何执行任何任务。例如,ChatGPT是在5700亿字节的文本上训练的,有1750亿个参数(其前身GPT-2只有15亿个参数),这有助于它执行没有明确训练的任务。除了是有史以来最大的语言模型,ChatGPT还带有额外的人类反馈强化学习(RLHF),这使它比早期工具具有明显的优势。因此,难怪它被视为内容生成的一个突破性模型。 OpenAI聊天机器人目前正处于“研究预览”阶段,用户可以免费试用,并分享反馈意见,以便改进其回答问题的方式。过去45天左右,全世界的人都在广泛使用ChatGPT,互联网上充斥着关于这个AI工具对特定线索表现好坏的讨论。有些人已经把它与谷歌相提并论。 为什么研究人员正在转向使用ChatGPT 学生和研究人员已经越来越多地转向AI工具,以帮助他们更容易和更有效地进行学术写作。ChatGPT可以提供听起来很智能、写出来很好的文本,已经成为帮助研究人员,尤其是英语为非母语的研究人员进行学术写作的有力工具。 以下是研究人员可以使用ChatGPT的一些场景: (1)创建研究论文纲要 ChatGPT是研究人员的一个很好的辅助工具,它可以根据用户的输入为博士论文或研究论文产生一个结构良好的大纲或一个令人印象深刻的标题。研究人员可以评估这个大纲,并在开始写作前根据需要进行修改。 (2)撰写研究论文摘要 研究人员经常发现很难以完善的摘要有效地展示他们的工作,这是ChatGPT证明其有用的另一个领域。在最近的一项研究中,由ChatGPT生成的摘要设法欺骗了科学家,甚至通过了抄袭和AI输出检测检查。 (3)将一种语言的文本翻译成另一种语言 ChatGPT非常适用于自然语言处理任务,如将一种语言的文本翻译成另一种语言,但仍需要研究人员对照真人翻译来评估其性能,以确保完全准确。 (4)重写困难的文本段落 ChatGPT对于研究人员,特别是英语为非母语的人是一个很好的选择,可以重写翻译文本,并为常见的概念生成定义或类比。研究人员在努力以清晰、简洁的方式传达复杂的想法时,也可以使用ChatGPT将现有的文本变成写得很好的内容,同时保留原始信息,且没有语言和语法错误。 (5)总结长篇文章或文件 ChatGPT通过生成长篇文件的简短摘要,帮助忙碌的研究人员进行文献搜索和阅读。这些短小精悍的摘要可以帮助他们快速掌握观点,并锁定可能与他们工作相关的研究论文。 (6)为实验设计提出新建议 像ChatGPT这样的语言模型可以帮助设计实验,根据输入的描述提供有趣的变化,或者为既定的实验方案提供一个新的视角。 (7)自然语言处理任务的训练 ChatGPT是一个多功能的语言模型,可以为特定的任务进行微调和定制,如理解语言的训练模型、文本生成、对话系统、数据增强和预训练。 使用ChatGPT进行研究写作的局限性 虽然ChatGPT是一个强大的研究写作工具,但研究人员在使用它时需要考虑一些限制。 (1)ChatGPT不能产生原创性想法,它只能根据在训练数据中看到的模式来创造文本,这就提高了抄袭的风险,因为AI生成的文本可能不包括对研究写作至关重要的参考文献或引文。 (2)ChatGPT是一个统计模型,根据训练数据中的模式生成文本,其优秀程度无法超越它收到的提示。由于它不能理解内容的含义,这可能意味着它偶尔会建议一些听起来合理但不正确或无意义的答案。 (3)OpenAI聊天机器人可能并不总是代表研究的特定领域,这可能导致生成的研究内容不准确或不一致。这对研究人员来说是个问题,他们需要生成特定领域专业知识的文本。 (4)如果训练数据包含偏见,ChatGPT偶尔可能会生成有偏见或攻击性的文本。因此,在使用该模型进行研究写作时,必须意识到这种局限性,并采取必要的措施来消除这种情况。 (5)最后,ChatGPT对世界和2021年之后发生的全球事件了解有限。必须记住,这个AI聊天机器人产生的任何内容都需要深入检查和编辑,以确保它符合关键的提交要求。 华盛顿大学和艾伦人工智能研究所的计算机科学家Yejin Choi说:“我们今天拥有的基本上是一张没有大脑的嘴。”弄清楚如何教大型语言模型进行因果推理、常识或道德判断仍然是研究人员的一大挑战。 使用ChatGPT进行学术写作的伦理问题 学术写作是研究过程中的一个关键部分,需要仔细考虑和关注细节。ChatGPT可以在几秒钟内提供基于提示的文本,这可以节省时间并提高生产力,但重要的是要考虑使用此类工具进行研究写作的道德影响。 (1)偏见渗入写作的风险 虽然已经采取了额外的安全措施,但ChatGPT是在现有的数据集上训练的,如果这些数据集包含负面信息或偏见,就可能渗入结果。研究人员需要意识到这一点,并检查所提供的答案或文本,以确保它们是准确和无偏见的。 (2)内容被剽窃的可能性 AI工具可以帮助研究人员快速创建论文草稿,但它们也可能被用来快速复制文本,导致抄袭的可能性。研究人员应采取必要的措施,以确保所有来源都得到适当的引用和注明。 (3)列入攻击性或有害的文本 如果训练数据集包含任何攻击性或有害的语言,ChatGPT可能会在其生成的文本中复制这些语言。这对负责确保文本尊重和包容的研究人员来说可能是个问题。 (4)对学术文本质量的担忧 ChatGPT可以实现学术写作的自动化,甚至可以生成引文和参考文献,但它并不能保证可靠、高质量的研究。学术界必须注意这一缺陷,并仔细编辑自动化文本,以确保其可靠、可复制、科学准确,并符合提交所需的所有严格的质量标准。 总之,使用像ChatGPT这样的AI工具来撰写研究论文应该是负责任的和符合道德的。研究人员必须了解这些工具是为了提高他们的能力,而不是完全取代他们,从而为他们的研究做出最佳决定。就像《算法大师》一书的作者Pedro Domingos所说:“这不是人与机器的问题,而是有机器的人与没有机器的人的问题。数据和直觉就像马和骑手,你不要试图超越一匹马;你要驾驭它。”
  • 《美JHU发布应对全球灾难性生物风险的技术分析报告》

    • 来源专题:生物安全知识资源中心 | 领域情报网
    • 编译者:huangcui
    • 发布时间:2018-11-16
    • 10月9日,美国约翰霍普金斯大学(JHU)健康安全中心发布《应对全球灾难性生物风险的技术》(Technologies to Address Global Catastrophic Biological Risks)报告。该报告的目标包括:(1)明确应对严重传染病和全球灾难性生物事件所需的技术解决方案的领域;(2)确定可能降低全球灾难性生物风险的技术;(3)介绍这些技术的背景,并展示其前景、局限性以及成功开发和使用的条件。 报告指出,传染病突发事件的出现可能悄无声息,但会对健康和社会造成十分不利且持久的影响。在过去的一个世纪里,全球经历了一系列紧急事件,如1918年的大流感造成5000万至1亿人死亡;致命的严重急性呼吸综合症(SARS)和中东呼吸综合征(MERS)冠状病毒的出现;2013年-2016年,西非爆发的埃博拉疫情导致逾2.8万例病例和1.1万人死亡,并对该地区造成了毁灭性的影响。全球灾难性生物风险(global catastrophic biological risk,GCBR)作为一类传染病突发事件,是一类涉及生物制剂的特殊风险,包括自然出现、重新出现、故意创造并释放,或实验室设计和泄露,这些威胁可能导致超出国家和国际组织以及私营部门集体控制能力的突然、非同寻常、广泛的灾难。 由于气候变化、人口增长、城市化以及广泛的全球旅行等因素,严重传染病和全球灾难性生物风险正在增加。此外,生物技术的进展促使可以开展更容易且更有针对性的生物学操作,这就增加了微生物被滥用或引起传染病大流行的可能。尽管生物技术确实会带来一些社会风险,但针对该报告所描述的技术及其他一些技术的投资将有助于保护世界免遭破坏性生物事件威胁。如果应用得当,这些技术可以提高人们识别和解决新出现的生物问题的能力。 框架技术要求 如果出现严重的传染病大流行,响应将需要全球化。但很多国家没有能力有效应对,这将使整个世界变得脆弱。预防和响应这类事件所需技术的属性可能在质量和数量上与常规公共卫生和医疗实践中使用的技术不同。这项研究指出了减少GCBR涉及的变革技术可能具备的特点,包括: •更好的敏感性,以促进预防 •提高更早做出响应决策的能力 •分散的方法,以增大规模并便于获取 •坚固耐用或易于在各种环境中使用 •缩短开发、应用和部署的时间 方法 为确定严重传染病和全球灾难性生物事件相关的潜在技术解决方案,研究团队开展地平线扫描(Horizon Scanning),以了解技术空间、技术发展的突出领域和即将发生的有利于GCBR减少的变化。同时,研究团队还进行了文献综述,并就当前和未来科学研究状况的判断采访了相关领域的专家。 一旦确定了技术,就会将一系列基于Heilmeier问题的评估问题应用于每项技术,如该技术已取得的研究进展、潜在影响和成功实施所需的投资额等。评估问题包括: •这项技术是什么? •这项技术可以解决什么问题? •现在已有的相关研究是怎样的? •这项技术的应用前景如何? 技术 该报告调研了五大类技术,每一类都包括一系列潜在的重要技术或预防和应对严重传染病紧急情况的技术。 疾病检测、监控和态势感知 广泛应用的全基因组测序:作为一种监测工具,可以接近实时地测定病原体生物学表征,包括毒力、传播性、对药物或疫苗的敏感性或抗性。 用于环境监测的无人机网络:可自主进行环境监测的陆地、海洋和空中无人机网络将有助于填补在监测重要生态系统的生物破坏和生物恐怖事件方面的空白。无人机可以穿越不同的生态系统,利用从光学像机到复杂生物技术的各种传感器和工具收集数据。 农业病原体的遥感:先进的卫星成像和图像处理技术可用于持续的、大范围分布的、系统的农业监测,以判断重要作物和其他植被的健康状况,以便在潜在威胁蔓延之前发现它们。 传染病诊断 微流体装置:微流体装置是“芯片上实验室”的诊断设备,在某些情况下有可能增强或取代传统的实验室检测设备,从而便于在床边和资源受限的环境中进行诊断。 手持式质谱仪:未来的质谱仪将是一种手持式、真正便携的装置,可在现场和护理点提供先进的诊断功能。一些质谱技术甚至可以诊断未知病原体,从而不需要在进行诊断测试之前区分细菌、病毒、真菌或原生动物。 无细胞诊断:无细胞诊断去除细胞膜,使细菌细胞内的构件与人工基因回路结合,以制造用于诊断的蛋白质。这些无细胞诊断方法可以产生肉眼可见的快速比色输出,便于说明。在严峻的环境中,可将细胞提取物冷冻干燥在纸上。 分散的医疗应对措施(Medical Countermeasure,MCM) 化学和生物制品的3D打印:3D制药打印可用于分布制造MCM以及个性化的药物剂量和配方。3D打印机现在几乎可以在任何打印机可使用的地方合成关键的化学制剂和药物,并且有相关工作正在探索利用这种技术打印疫苗。 用于制造MCM的合成生物学:合成生物学不仅可以用来发现和生产治疗药物,还能以分散和定制的方式进行生产。这可能意味着药物和疫苗的发现更快,生产速度和数量也将远超传统制造技术。 MCM的分配、配送和管理 用于疫苗接种的微阵列贴片:微阵列贴片(microarray patch,MAP)是一种新兴的疫苗接种技术,可用于将大规模疫苗接种活动现代化。MAP技术将使人们在紧急情况下可以自己接种疫苗,从而显著缩短群体完成接种的时间。 自传播疫苗:自传播疫苗经过基因工程改造,可以像传染病一样在人群中传播,但不会引发疾病,反而能提供保护。目标人群中的少数个体接种疫苗后,疫苗株就会像病毒一样在人群中传播,从而获得快速、广泛的免疫效应。 用于疫苗接种的可摄入细菌:通过基因工程改造的细菌可以在人体中产生抗原,进而作为疫苗引发对相关病原体的免疫应答。将这些细菌置于温度稳定的胶囊内,可用于流行性疾病大爆发情况下人们自我给药。 自扩增型mRNA(SAM)疫苗:SAM疫苗利用的是可被人体细胞编译系统识别的正链RNA,通常为修饰的病毒基因。一旦在人体细胞内递送,SAM就被编译并产生两种蛋白质:刺激免疫应答的目的抗原和用于细胞内疫苗扩增的病毒复制酶。SAM自复制的能力使其产生较其他疫苗更强、更广泛、更有效的体液和细胞免疫应答。 无人机运送到偏远地区:无人机运输网络可以将临床物资和药品快速运送到难以进入的区域,这些地区可能是由于物理或地形障碍,也可能是存在应急人员感染的风险。 医疗护理和应对病人激增的能力 机器人技术和远程医疗:机器人和远程医疗是与全球灾难性生物事件医学处置相关的两大类医疗保健技术。在此类事件中这些技术的成功使用将有助于在非传统环境(如家庭)中进行医疗护理。 易于使用的便携式呼吸机:呼吸道疾病大爆发时,患者在病情严重时期和身体恢复阶段都需要呼吸机来辅助呼吸。便宜的便携式呼吸机如果兼具直观且基本上自动化的用户界面将使更多患者得到护理,从而获得生存的机会。 该报告重点介绍了15项预防传染病大流行的技术或技术类别,上述技术仍需进一步的科学研究和投资以及解决相关法律、法规、道德、政策和运营等方面的问题才能更好地发挥作用,这些都需要大量精力和资金的投入。尽管疫苗开发和某些监测方面已得到很多关注,但必须同时解决预防和响应传染病的其它需求才能成功应对全球灾难性生物事件威胁。成立一个由技术开发人员、公共卫生从业人员和政策制定者组成的联盟可以更准确地了解应对流行性疾病和GCBR的迫切问题,共同开发技术解决方案,进而填补这些不足。