《Nature|32 门大学课程中对话人工智能的感知、性能和可检测性》

  • 来源专题:战略生物资源
  • 编译者: 李康音
  • 发布时间:2023-09-25
  • 2023年,纽约大学的研究人员在Nature发表题为Perception, performance, and detectability of conversational artificial intelligence across 32 university courses的论文。研究人员发现,在9个专业中,ChatGPT的课堂表现超过普通学生。教授认为,在学校中使用ChatGPT,能让自己更好地教学。但是对于让学生使用ChatGPT学习,完成作业,却非常不支持,会将使用ChatGPT的学生视为作弊或者抄袭。

    研究人员通过将ChatGPT与来自8个学科的32门大学水平课程的学生的表现进行比较,来研究ChatGPT作为抄袭工具的潜力。此外,研究人员评估了专门用于检测ChatGPT生成文本的现有算法,并评估了可用于逃避此类算法的混淆攻击的有效性。为了更好地了解学生和教育工作者对ChatGPT的效用以及使用ChatGPT所产生的道德和规范问题的看法,研究人员调查了来自五个国家的参与者:巴西、印度、日本、英国和美国。此外,研究人员对作者所在机构的151名本科生和60名教授进行了更广泛的调查,以探索不同学科对ChatGPT的看法差异。

    研究人员发现,ChatGPT的表现与32门课程中的9门课程的学生相当,甚至更好。此外,研究人员发现当前的检测算法倾向于将人类答案错误地分类为人工智能生成的答案,并将ChatGPT答案错误地分类为人工生成的答案。更糟糕的是,混淆攻击使这些算法无效,无法检测95%的ChatGPT答案。最后,在学生和教育工作者之间似乎都有一个共识,即他们打算在他们的作业中使用ChatGPT,而将其视为剽窃。这两者之间的内在冲突给教育机构提出了紧迫的挑战,要求他们制定与生成式人工智能相关的适当的学术诚信政策,特别是与ChatGPT相关的政策。

    研究人员的研究结果提供了及时的见解,可以指导围绕生成式人工智能时代教育改革的政策讨论。




    本文内容转载自“新智元”微信公众号。

    原文链接: https://mp.weixin.qq.com/s/Zi3opb60g4Bo5LmGNWWrvQ

  • 原文来源:https://www.nature.com/articles/s41598-023-38964-3
相关报告
  • 《Nature | 医学人工智能的未来》

    • 来源专题:战略生物资源
    • 编译者:李康音
    • 发布时间:2023-10-29
    • 本文内容转载自“ChemBioAI”微信公众号。原文链接: https://mp.weixin.qq.com/s/hlwb9sc0rugxZ_ThiOy7gQ 2023年10月24日,《自然》新闻(Nature News)在线发表了一篇题为An AI revolution is brewing in medicine. What will it look like?的特别报道。 Jordan Perchik于2018年开始在亚拉巴马大学伯明翰分校进行放射科住院医生培训,那时正值他所谓的放射科学领域的“AI恐慌”高峰期。在计算机科学家Geoffrey Hinton宣称人们应停止培训成为放射科医生的仅仅两年后,这一时期开始。Hinton被称为人工智能之父,他预测这些系统很快将能够比人类更好地阅读和解释医学扫描图像和X光片。此后,放射科医学项目的申请数量大幅下降。 基于人工智能的工具越来越多地成为医疗保健的一部分,美国食品和药品监督管理局(FDA)已经授权使用超过500种这类工具。其中大多数与医学影像有关,用于改进图像质量、测量异常或标记检测结果以供后续跟踪。 调查显示,虽然许多医生知道临床AI工具的存在,但实际上只有很小一部分 (大约在10%到30%之间) 使用过它们,他们的态度从谨慎乐观到彻底不信任不等。荷兰乌得勒支大学医疗中心的医学创新实施专家Charisma Hehakaya说:“一些放射科医生对AI应用的质量和安全性存在疑虑。”即使AI工具能够完成它们的目标任务,仍不清楚这是否会转化为患者更好的医疗护理。但有一种被称为综合医学AI的方法似乎正在兴起。这些模型受到庞大数据集的训练,就像驱动ChatGPT和其他AI聊天机器人的模型一样。在吸收大量医学图像和文本数据后,这些模型可以适用于许多任务。尽管目前获得批准的工具执行特定功能,比如在计算机断层扫描(CT)中检测肺结节,但这些综合模型将更像医生,评估扫描中的每一种异常情况,并将其整合为一种诊断。 尽管现在的AI爱好者趋向避免大胆宣称机器将取代医生,但许多人认为,这些模型可以克服目前医学AI的某些限制,有朝一日可能在某些情况下超越医生。然而,这些新工具能够在实际临床护理中使用之前,还有漫长的道路需要走。 目前存在的限制 医学领域的人工智能工具充当从业者的辅助角色,例如通过快速浏览扫描图像并标记医生可能立即查看的潜在问题,这些工具有时表现很出色。Jordan Perchik记得有一次,在他值夜班的时候,一种AI分诊工具在凌晨3点为一名出现呼吸急促症状的患者标记了一张胸部CT扫描。他将这张扫描图像提上优先级,并同意AI的评估结果,该结果显示患者存在肺栓塞,这是一种可能致命且需要立即治疗的情况。如果没有被标记出来,这张扫描图像可能要等到当天晚些时候才会被评估。 但如果AI犯了错误,它也会产生相反的效果。Jordan Perchik说,最近他发现了一例AI没有标记出来的肺栓塞病例,他决定采取额外的审查步骤,最终证实了他的评估,但这减缓了他的工作进度。如果他决定相信AI并继续前进,那么这种情况可能会被漏诊。”许多已获批准的设备并不一定符合医生的需求,早期的AI医学工具是根据影像数据的可用性来开发的,因此一些应用程序是为常见且容易识别的疾病而建立的。 另一个问题是,这些AI工具倾向专注于特定任务,而不是全面解释医学检查——观察图像中可能相关的一切,考虑以前的结果和患者的临床病史。尽管专注于检测一些疾病具有一定价值,但它并不反映放射科医生真正的认知工作。 解决方案通常是增加更多基于AI的工具,但这也对医疗护理构成挑战,伦敦Google Health的临床研究科学家Alan Karthikesalingam表示。假如一个人接受常规乳腺X光检查,技术员可能会采用一种用于乳腺癌筛查的AI工具的辅助。如果发现异常,同一患者可能需要进行磁共振成像(MRI)扫描以确认诊断,而这可能需要另一个AI设备。如果诊断结果得到确认,那么病变将会通过手术移除,可能需要另一种AI系统来协助进行病理学分析。 许多医院并不了解监测AI性能和安全性所涉及的挑战,英国伯明翰大学研究医疗AI负责创新的临床研究员Xiaoxuan Liu表示。她和她的同事们确定了数千份医学成像研究,比较了深度学习模型的诊断性能与医疗保健专业人员的性能。对于该团队评估的69项诊断准确性研究,一个主要发现是,大多数模型未经真正独立于用于训练模型的信息的数据集进行测试。这意味着这些研究可能高估了模型的性能。 坚实的基础 为了解决医学领域AI工具的一些限制,研究人员一直在探索具备更广泛能力的医学人工智能。他们受到了像ChatGPT这样的革命性大型语言模型的启发。这个术语是由斯坦福大学的科学家们在2021年创造的,它描述了在广泛的数据集上进行训练的模型,这些数据集可以包括图像、文本和其他数据,使用一种称为自监督学习的方法。这些基础模型,也被称为基本模型或预训练模型,构成了后续可以适应执行不同任务的基础。 目前大多数医学AI设备是通过监督学习方法开发的。例如,使用这种方法训练一个模型来识别肺炎,需要专家分析大量的胸部X光片并将它们标记为“肺炎”或“非肺炎”,以教导系统识别与该疾病相关的模式。在基础模型中不需要大量图像的注释。例如,对于ChatGPT,使用大量文本进行训练,以训练一个通过预测句子中的下一个单词来学习的语言模型。同样,伦敦摩尔菲尔德眼科医院的眼科医生Pearse Keane及其同事开发的医学基础模型使用了160万张视网膜照片和扫描图像,以学习如何预测这些图像缺失部分应该是什么样子。在进行了这一预训练后,研究人员引入了几百张标记图像,使其能够学习特定的与视觉相关的疾病,如糖尿病性视网膜病变和青光眼。该系统在检测这些眼部疾病以及通过眼底血管微小变化检测出的心脏病和帕金森病等系统性疾病方面优于以前的模型,但该模型尚未在临床环境中进行测试。 Keane表示,基础模型对眼科学领域特别合适,因为几乎可以对眼部的每个部位进行高分辨率成像。而且有大量的这些图像数据可用于训练这种模型。人工智能将彻底改变医疗保健,而眼科学可以成为其他医学专业的示范。大型科技公司已经在投资使用多种图像类型的医学成像基础模型,包括皮肤照片、视网膜扫描、X光片和病理学切片,并整合电子健康记录和基因组数据。 今年6月,Google Research科学家们发表了一篇论文,介绍了他们称之为REMEDIS(具有自监督的强大和高效医学成像)的方法,与使用监督学习训练的AI工具相比,该方法能够将诊断准确性提高高达11.5%。研究发现,在对未标记图像的大型数据集进行预训练后,只需要少量标记图像就能达到这些结果。这项研究的共同作者之一,Karthikesalingam说:“我们的主要发现是,REMEDIS能够以非常高效的方式,只需很少的示例,学会如何在许多不同的医学图像中对许多不同的事物进行分类,包括胸部X光片、数字病理学扫描和乳腺X光检查。”次月,Google的研究人员在一篇预印本中描述了他们如何将这一方法与该公司的医学大型语言模型Med-PaLM相结合,该模型几乎可以像医生一样回答一些开放性的医学问题。结果表明,Med-PaLM Multimodal不仅可以解释胸部X光图像,还可以以自然语言起草医疗报告。 微软也在努力将语言和视觉整合到一个单一的医学AI工具中。今年6月,公司的科学家们推出了LLaVA-Med(生物医学大型语言和视觉助手),该模型在与从PubMed Central(一个公开可访问的生物医学文章数据库)提取的文本配对的图像上进行训练。微软Health Futures的生物医学AI研究负责人Hoifung Poon表示:“一旦你这样做,你就可以开始与图像进行对话,就像你在与ChatGPT交谈一样。” 这种方法的一个挑战是它需要大量的文本-图像对。 随着这些模型在越来越多的数据上进行训练,一些科学家乐观地认为它们可能能够识别人类无法识别的模式。AI工具可能在某些领域超越人类能力,比如使用数字病理学来预测免疫疗法对肿瘤的反应。 Karthikesalingam还指出,即使Google的医学成像AI取得了最佳结果,它仍然无法与人类相媲美。人类放射科医生的X光报告仍然被认为明显优于最先进的多模式综合医学系统。尽管基础模型似乎特别适合扩大医学AI工具的应用,但要展示它们可以安全用于临床护理还有很长的路要走。 毫无疑问,AI在放射科领域的作用将继续增长,与其说取代放射科医生,不如培训他们如何使用AI。
  • 《人工智能助力生物识别精准化》

    • 来源专题:光电情报网信息监测服务平台
    • 编译者:husisi
    • 发布时间:2020-05-26
    • “你是谁?”在当今社会,无处不在的身份识别场景在无声发问。进小区门,要问你是业主本人吗?进家门,要扭动匹配的钥匙或按下指纹;开电脑工作,弹出密码输入弹窗。每个人都是独立的个体,我们能否使用唯一特性与外界建立联系?唯一意味着安全,也意味着核实更方便准确,就像我们的身份证,上面有唯一的数字编码。 与此同时,数字化时代,我们与机器的互动,从敲键盘一步跨向手指点击滑动、开口对话、抬起头、眨眨眼,远隔千里的人们能便捷地沟通交流、能跨省跨国网上办事,但客观上无法实现“亲眼所见”,也给建立“信任”关系带来新的挑战。 人工智能技术的发展,针对数字社会人与人之间、人与机器之间如何建立“信任”关系,提供了一个很好的技术解决手段,即生物识别技术。你用什么方式证明自己?怎样才能定义这世界独一无二的你?设备的进化中,谁在保证个人使用的安全性?无接触生活的背后都是技术在化解复杂,生物识别技术的研究,正是希望解决这些问题。 1.生物识别是数字社会的重要基础 无论处于哪个社会经济发展阶段,“人”始终是最重要的核心要素。人类作为群居动物,在地球上有人类的时刻,“信任”的需求就应运而生,通过视觉“亲眼所见”、听觉“亲耳所闻”等辨别同伴建立信任关系,这种最原始的通过“亲眼所见”等手段建立“信任”的方式也将伴随人类一直延续下去。 数字化世界,需要迭代新的信任交互,生物识别技术是技术发展演进到一定阶段的必然产物,也是一种新型数字身份的基础设施。它基于个体生物特征进行自动识别的一种技术,结合计算机与光学、声学、生物传感器和生物统计学原理等,依靠人体的生理特征或者行为特征来进行身份验证的识别,是当前人工智能技术和信息安全技术在工业界落地应用最显著的代表性成果之一。 所谓生物特征包括人脸、指纹、声纹、虹膜、指静脉、体温等,行为特征则记录签名笔迹、行走步态、坐姿等。这些生物特征各有特点,比如每个人的静脉血管都不是一样的,血管也足够多,因此它的信息唯一、丰富,几乎不能被复制;而一个人随着年龄增长和一些突发情况,行为特征比如走路姿态可能会发生变化,可以理解为特征信息稳定性不那么强。 唯一的、稳定的生物特征就具备理论上的安全基础,我们将它们进一步结合形成有效技术手段,同时采用多种方式来确保它准确、高效就像使用身份证确认“你就是你”。 作为一种身份认证方式,目前生物识别技术已经在金融、教育、司法、医疗、社会治理等行业都有了广泛应用,它需要满足不同场景、行业要求和不断变化演进的业务需求。它将迅速成为数字经济社会的重要信息基础设施之一。 2.生物识别开始出现大规模技术创新 从技术上来说,传统生物识别技术在鲁棒性、准确性以及抗攻击能力等方面,近年来都有大幅提升。比如突破2D人脸存在景深数据丢失的局限性,3D人脸识别技术因其具有更强的描述能力开始在高准确性应用中逐渐增多;在3D识别的基础上人脸活体检测的新技术也进一步被采用;防止人脸数据库被盗库的识别技术也已被提出;指纹识别则开始引入基于手指皮肤颜色和的脉搏心率信号的活体检验,用于防止被仿生导电材料做成的假手指攻击;声纹识别可结合使用电磁场检测,来判断声源为真人还是扬声器等。 另一方面,考虑到应用场景的不同需求:持续认证、移动设备上识别、个人隐私保护等,新型生物识别技术也是应需而生。比如,浙江大学网络空间安全团队针对持续认证,开发了“心脏密码”系统通过不间断用生物雷达的无线信号来感知心脏运动,实现了易用性高的非接触式可持续认证;针对移动设备上的生物识别,利用设备内置摄像头捕捉到的眼球运动,智能手环上测量到的心电图,以及虚拟现实头罩测量到的眼电图和脑电波都相应的实现了可靠的生物识别;针对生物识别中的个人隐私保护,采用无线信号成像来代替摄像头,既避免了摄像头受视角和阻挡等条件的限制,更消除了直接获取图像的隐私泄露风险。 另外,正如每种生物特征各有特点,在充分考虑各种攻击场景下,任何单一生物识别技术往往都呈现出特定的优势和局限。每个模态都具有不同的数据安全程度、采集适应场景、隐私敏感度等,因此解决方案并不能通过单一技术完全达成。 多模态多因子生物识别技术融合因此非常重要。比如夜晚光照不理想,人像识别率低,结合红外成像和热成像的跨模态互补就能增强人像识别的准确度。像是蚂蚁金服多模态融合人脸识别技术实现用户的精准识别,满足金融级误识率(低至千万分之一误识率)下,大大超出了单模态人脸识别技术能达到的性能瓶颈,并提升了人脸识别的安全性。同时,还充分利用移动设备的芯片级安全能力,经过与产业链多方的合作,构造了基于TEE(可信执行环境)的全链路安全协议,为生物支付提供了强有力的安全保障。此外,通过风险感知模块检测黑产攻击,风控引擎自动更新风险模型,风险拦截效率大幅提升,充分保证了交易安全。 未来生物识别技术的趋势便是如此,将会从传统的只提取人体生理特征,向人、物理世界、数字世界融合的认证方向发展。生物识别技术将在和环境特征、数字凭证相结合,满足时空关联、多模态多因子融合的基础上完全实现可信认证。 3.“生物识别”“多模态融合”作为主流研究方向形成标准化的应用共识 从实验室走向产业商用,从模型走向安全产品,靠的是持续生物识别技术迭代和多重技术算法的保障,尤其引起我们关注的是“安全和隐私保护”。 基于这一点,去年,浙江大学和蚂蚁金服联合成立了数据安全与隐私保护实验室,汇集了双方创新力量和优势资源,产学研联合推进前沿科技研究,提升国内生物识别行业安全技术水平。 目前针对人脸数据脱敏、不可逆、可更新、加密等做了大量研究,给生物识别信息保护提供可行的安全技术解决方案。部分安全技术已经转化应用到蚂蚁金服人脸识别技术上,支撑大量金融级安全应用。 在生物识别技术突破最多的是人脸识别,即在图像特征抽取和人脸比对环节中取得了很大进展。但从实验室之外的实际场景应用模拟发现,其影响因素很多。从全链路的角度来看,活体检测、人脸交互、关键点定位、人脸跟踪等在真实的场景下,特别是不同的手机、环境、用户背景等条件下,想做到非常好并且稳定的用户体验是很难的。我们对此进行了很多特殊的优化,如使算法在不同的手机上达到比较一致的运算速度、响应时间,通过文案设计提高用户对刷脸的感知和理解,适应用户背景(如光线、角度等),分析基于其他传感器数据的反馈等。同时企业根据自身业务的不断发展,向学术界持续反馈新的需求,也反过来促进了联合实验室在新技术前沿开拓的方向感和紧迫感,产学研联动形成良性闭环发展。 基于我们共同进行的大量研究、实践积累,近期企业已在IEEE成立“移动设备生物特征识别”标准工作组,并立项“生物特征识别多模态融合”IEEE国际标准。这也是中国企业首次在国际标准中,提出移动设备多模态融合技术的实现框架、功能要求、性能要求、安全要求等。这意味着,“生物识别”、“多模态融合”作为主流研究方向将形成标准化的应用共识。这也是一项技术脱离实验室踏上商用之路的重要一步,有利于推动行业平均技术发展水平。而国际标准是国际规则和共识重要通用载体,对整个行业良性发展至关重要,也是具备技术实力的中国企业必须具备发言权之处。毫无疑问,高校和企业在生物识别这类国际前沿技术及标准上的探索,是中国科技布局眼光、研究能力、科学严谨性的综合体现。它同样预示着,中国企业在人工智能技术领域的国际竞争进入新阶段——从产品出海到技术走出去,如今又向输出全球标准迈进。