《预测能力成为陷阱?临床人工智能上演“模型大逃杀”》

  • 来源专题:战略生物资源
  • 编译者: 李康音
  • 发布时间:2023-10-17
  • 2023年10月17日,据智药局报道,当前,越来越多的人工智能模型有望被用于临床,包括预测白血病、中风的危险性。药物临床开发阶段,AI模型也开始试点对临床试验结果的预测以及分析。很多模型声称能够对临床结果做出预测及警示,助力临床研究和护理,但是在实际部署过程中,医生与模型的互动反而可能会造成AI性能的改变。一项新的研究表明,随着时间的推移,这些预测模型可能“会好心办坏事”——导致呈现的数据结果出现误差,效果急剧下降。明明应该是向善的技术,最终反而害了人?

    AI临床,模型吃模型

    临床中,疾病的发展和死亡息息相关。例如在ICU病房,急性肾损伤(Acute kidney injury,AKI)是常见的并发症,高达20%-70%患者将会进展到AKI的某个阶段。另外,急性肾损伤又跟死亡率高度相关,那么预测急性肾损伤概率和预测死亡率就成为了两个模型,针对其中一个结果的处理会影响另一个结果。近日的论文中,研究人员以美国两大顶尖医院——西奈山医疗系统和贝斯以色列女执事医疗中心重症监护病房(ICU)的入院情况作为研究对象,共计收治了13万名病人。而为了评估模型的结果,团队又引入了几个数据,一个是依从率,指医生得知模型预警后的遵守程度(毕竟医生不会完全听信模型);第二个则是有效率,也叫敏感度,指导致管理变化并防止不利结果的真阳性模型预测的比例。还有一个是特异性,也称作真阴性率,医学中如果特异性较低,则会出现很多假阳性的误诊患者。

    研究人员设立了3个场景。

    场景1:初次使用后重新训练模型

    在第一个场景中,研究团队训练一个预测ICU入院后5天死亡率的模型,并根据新的患者数据对其进行了重新训练,模拟了如果预测工具在部署后反馈会发生什么。他们发现,虽然该方法最初提高了性能,但结果却导致性能进一步下降。表现为死亡率预测模型在重新训练一次后失去了 9%到39% 的特异性。发生这种情况是因为模型首先适应不断变化的条件,随着患者特征和模型“学习”的结果之间的关系因再训练而发生变化,导致其性能下降。

    场景2:按顺序部署模型

    第二种情况涉及在已经部署了另一个模型之后开发一个新模型。在部署急性肾损伤的模型后,训练了与预测死亡率的模型。这一情境下,实施急性肾损伤 (AKI) 后创建的死亡率预测模型失去了 8% 到 15% 的特异性。当肾脏模型的预测帮助患者避免急性肾损伤时,它也降低了死亡率。因此当后来再使用这些数据创建死亡率预测因子时,其特异性就受到了影响。两个工具都将受到数据漂移的影响。专家称可能无法定义结果之间的确切关系,这意味着之前接受机器学习引导护理的患者的结果有所改善,但他们的数据不再适合在模型训练中使用。

    场景3:同时使用两个预测模型

    在这个场景中,将ICU入院后5天内预测死亡率和AKI的模型同时实施。最终发现使用一组预测会使另一组预测变得过时,不再适用了。因此,预测应该基于新收集的数据,这可能成本高昂或不切实际。在23053项预测中,118项AKI预测和141项死亡率预测被认为过时,依从率为0.1。当依从率为0.75时,这些值分别增加到5841和6962。两个模型同时部署时,每个模型各自所驱动的医疗保健变化都会使其他模型的预测失效,每个模型都会导致另一个模型的有效准确度降低 1% 到 28%。

    这也反应了:使用预测模型的时间越长,而不考虑反馈循环后性能下降,它们的可靠性就越低,就像一颗定时炸弹。

    呼吁更多监管

    当然这次研究仍然有局限性,导致结论不一定准确,例如数据上因为伦理和审查问题,导致它是一次回顾性模拟研究,而并非真实临床上的部署。也就是说,这项研究无法得知真实临床上的依从性,以及临床干预措施在减少肾脏损伤和死亡方面的效果如何。但它也揭开了一个被忽视的问题,人们总是宣称AI模型的准确度有多么高,进入医院试点部署了,但后续对却缺乏对模型性能的监测。

    这些模型在实际部署中会产生复杂的相互作用,例如按顺序部署或者同时部署后,一旦重新训练模型或者数据反馈机制,那么这个模型就没用了。并且随着临床模型的越来越多,它可能会更加难办。例如此前智药局曾经报道过,当前国内外医疗大模型数量暴增,未来的迭代将接受这些数据的训练,而且可能会产生意想不到的后果。由此我们陷入了一个“模型吃模型”的世界。(model-eat-model world)

    专家警示,如果不加以重视,一个AI模型除了最终使自己无法使用外,还会混淆其他模型的部署和未来开发。此前FDA出台过关于AI模型的指南草案,并提出了一种全生命周期方法来监管人工智能或机器学习模型,用于监控和更新模型的过程。建议的组件包括数据管理、模型再训练、性能评估和更新程序。

    我们早就该意识到,影响患者预后和 EHR 数据下游反馈的成功实施,需要新的方法来更新模型。

    本文内容转载自“ 智药局”微信公众号。

    原文链接: https://mp.weixin.qq.com/s/-NgpeJcvpD1LA75JRmW1Dw


  • 原文来源:https://mp.weixin.qq.com/s/-NgpeJcvpD1LA75JRmW1Dw
相关报告
  • 《人工智能中场之争:大模型在产业变革中的应用探索》

    • 来源专题:数智化图书情报
    • 编译者:闫亚飞
    • 发布时间:2023-09-27
    • 2023年对于人工智能产业而言是非常重要的一年,尤其是以GPT-3、ChatGPT为代表的大模型技术所取得的显著成果标志着以专用小模型训练为主的“手工作坊时代”向通用大模型预训练为主的“工业化时代”的人工智能研究范式转变,敲开了通用人工智能的大门。AIGC(AI-Generated Content)指利用人工智能技术(生成式AI路径)来生成内容的新型内容生产方式。AIGC应用创新的技术支撑为“生成对抗网络(GAN)/ 扩散模型(Diffusion)”与“Transformer预训练大模型”的两类大模型分支。在国外AIGC应用展示出大模型的能量的同时,我国企业也加强了相关产品技术布局,云厂商、AI大厂、创企、各行业公司及技术服务商等产业各领域玩家纷纷发布大模型或基于大模型的应用产品及各类技术服务。 从商业化布局角度来看,如今基础大模型厂商可分为三类参与者,分别为云巨头厂商、人工智能公司或创业公司和学术研究机构,在定位有通用能力基座的同时打通向上商业化路径。其中,云巨头厂商将借助云服务及数据库资源,更强调MaaS能力输出。AI公司或创业公司将借助业务积累或生态资源锚定几个典型行业或业务场景展开商业占领。垂直领域厂商将基于开源模型或基模平台开发部署细分领域模型产品,厂商优势在垂类数据与业务理解。通用模型和各领域专有的知识数据结合,未来垂直大模型是重要的发展方向,本文重点讨论大模型在垂直行业部署与细分场景的落地应用现状。大模型在金融领域的应用探索 金融行业作为人工智能应用场景密集的行业,是大模型技术落地的最佳领域之一。以大模型为代表的新一代人工智能技术将加速金融数字化和金融智能化的发展,重塑现有业务流程,改变产业格局。大模型技术可应用于智能客服、投顾、营销、风控、运营、投研、投行、量化交易、低码研发等多个场景。第一是基于大模型的智能客服将超越人工服务,让高质量顾问式金融服务成为可能。在通用大模型的基础上,叠加金融客服领域的数据和专业服务经验,经过垂直领域定向训练后客服机器人既能与用户进行多轮对话,还能提供具体可行的解决方案。 第二是生成式大模型可以成为理财师、经纪人等从业者的“全能业务助理”。基于大模型的业务助理不仅了解国内外的宏观政策、行业信息、产品信息,还可以自动生成文章、报告,提供专业建议和方案辅助交流。 第三是广告和营销内容一键生成,营销效率大幅提升。以ChatGPT为代表的大模型技术,将带来知识型工作者生产效率的二次飞跃。过去,我们需要在海量信息中检索词条,将大量的精力投入到信息的获取、提炼与整合,自己做检索、设计、制作等工作。未来,大模型技术会适应并普及到所有知识型工作行业,例如文案、设计、编程等,人机协作将大幅提高工作效率。 大模型能够凭借强大的信息挖掘能力,唤醒金融机构大量沉积的信息,就像是一块巨大的磁石,做关键信息的抽取,为判别式小模型进行赋能。比如,在风险决策、信用评估、反欺诈等场景下,大模型能丰满信息的维度,挖掘出小模型无法覆盖到的区域。大模型对于小模型并非是替代或“消灭”,相反,两者将是相互协作的关系,大模型与小模型相互搭配,将大大提升金融决策的精准度和效率。 医疗保健行业充斥着各种类型的基于文本的文档,例如患者病历、索赔文件、临床记录、同意书和弃权书等。大语言模型(Large Language Model,LLM)能够快速阅读、解释大量文本并对其采取行动,这意味着他们可以为医疗机构带来优势,使他们能够以独特的方式安全、可靠地工作。医疗保健非常适合利用大型语言模型,因为给定的医疗系统的医疗记录中存在大量的潜在数据。 在这样一个文档密集的行业中,医疗保健领域并不缺乏大型语言模型的应用场景。以下是大型语言模型功能的示例,这些功能在医疗保健环境中应用时,可以简化流程并改进整体工作流程。 临床记录:医疗健康专业人员可以使用LLM创建准确且全面的临床记录,使用LLM分析患者数据并生成相关摘要。这有助于减轻记录负担,同时确保准确记录重要信息。改进信息提取:从非结构化文本(例如患者记录或研究文章)中识别和提取相关信息是LLM的另一个自然应用。这种能力使医疗保健组织能够释放隐藏在庞大数据存储库中的宝贵见解,最终支持更好的决策。高级沟通能力:由于大语言模型擅长理解自然语言,因此非常适合患者与提供者沟通等任务。这些模型可以通过以上下文相关的方式解释和回应患者的询问、担忧或反馈,促进更有效的互动。文件生成和管理:大语言模型可以自动生成重要的医疗保健文件,例如同意书、弃权书和出院摘要。通过从患者记录中提取相关信息并预先填充这些文档,LLM可以节省时间,最大限度地减少错误风险,并使提供者能够让患者感觉他们了解他们,而无需要求重复信息。当纳入智能入院和登记工作流程时,这些工具能够轻松捕获准确的患者信息,从而最大限度地提高临床和财务成果。 大模型在工业领域的应用探索 大模型在工业的应用,目前在生产制造、研发设计和经营管理领域都形成一些场景,但都处于起步和探索阶段。各工业相关领域技术服务商和行业解决方案商也都在积极布局AI大模型的行业应用,以下是大模型技术在工业领域的应用场景方向探索。 其中生产制造的应用包含运营管理,使用自然语言交互方式,分析操作和运营人员的自然语言指令,进行对应数据、信息的查找、呈现和关联分析等,提高信息查找和分析的效率,帮人员更直观快捷的获取所需的信息。质量安检,使用大模型提供更强的视觉检测能力,用于质检、安全监测等,提高模型泛化能力,降低训练样本需求。生成模拟检测图像的缺陷样本,补充小样本的不足,提高模型准确性等。自动对检测的结果进行分析,并生成检测报告等。在计划调度层面,使用大模型进行排产排程优化、生产和物流调度优化,提高算法能力,基于自然语言自动生成PLC控制代码,提高开发效率,降低开发门槛。在自动化控制层面,使用自然语言与机器人交互,对工业机器人进行智能控制,提高机器人场景适应性降低操作难度。 在可见的未来里,相信随着大模型技术的进一步发展,这类生成式AI产品将在工业互联网领域发挥越来越重要的作用,支持更多工业场景需求的落地实现。大模型在交通领域的应用探索 大模型在交通领域应用的优势:一是自然语言处理能力,如和文字相关的交通报告分析、语音识别等;二是轨迹大数据,在交通出行建模、拥堵研判,主流交通路径等方面有所应用;三是多模态,比如如何从视频转化为交通流指标等,都是交通大模型中非常重要的因素;四是计算机视觉模型,在车道线、红绿灯、交通违法事件等交通要素识别方面的应用广泛。 2023年4月,百度基于文心大模型在高速公路领域发布了数字人“简璐璐”,服务于路网监测、应急指挥、养护管理、公众出行全环节,可以结合用户问题,提供全新对话式交互,实时给出精准答复。随后,在交通管理领域发布了全域信控缓堵解决方案,能够提供全域感知、全域优化、全域协同和全域服务四大能力,实现信控优化的代际提升,可实现超千规模路口的全域拥堵治理。 2023年7月19日,北京交通大学联合中国计算机学会智慧交通分会、足智多模公司等正式发布并开源了国内首个综合交通大模型——TransGPT·致远,依托北京交通大学“交通大数据与人工智能”教育部重点实验室科研团队自主研发。与通用型多模态交通大模型产品不同,致远大模型自研发伊始就瞄准交通运输行业中的实际应用需求,基于研发团队长期汇聚积累的综合交通大数据,在交通态势预测、交通规划设计、公共交通服务、智能咨询助手、交通安全教育、交通协助管理、交通事故分析、自动驾驶辅助等方面形成具有实际应用价值的智能化支撑能力。交通态势的全面及时、精准感知是智慧交通的基础,也是一直以来困扰行业的难题。交通事件识别不准的问题在交通行业是普遍存在的。现阶段在应对AI大规模落地应用问题上,预训练大模型借助其通用、泛化能力优势为AI落地提供了新的解决思路。 交通感知方面,大模型可以进行道路路况识别和车辆车流密度检测。基于某帧画面生成当前路况描述并直接发布,这些数据可以连接到情报版或导航软件,将海量的监控图片、监控数据利用起来。此外,大模型在道路分割、服务区、停车场余位识别、交通事件检测等方面也有所应用,可做到让视频监测真正免配置,大幅提升检测准确率。交通治理方面,通过大模型的语义理解、泛化推理、自动取数能力可对历史交通数据和实时交通数据进行分析,精准定位、判断某路段和某区域的交通状况;快速聚焦交通运行核心痛点问题;预测未来交通状况;提供初步、快速的交通决策支持,缓解交通规划方案和治理经验复用高度依赖高阶人才的难题。交通控制系统优化方面,大语言模型通过集成和调度车辆监管、交通信号调整、智能导航、智能停车等多种智能服务,实现交通系统的动态优化和智能化服务,提高交通治理效率和安全性。交通物流行业应用方面,大模型的应用场景可分为两类,一类是人机交互类场景,如数字人、智能客服。面向问答类场景,通过调用大模型的理解能力、推理能力、解决问题的能力,将一个问题拆分成多个任务,由大模型和交通业务系统共同完成,并将语料资源整合成完整的答案交付给用户,从而开发作业系统增强服务、专业咨询引导和内容生产服务。 尽管大模型具有广阔的应用前景,但在实际应用中仍面临一些挑战。产业大模型的综合能力实际上取决于计算能力、行业专业知识和模型精调的结合。其中,行业专业知识至关重要,它涵盖了专家经验、行业数据、组织能力和工程能力,这是垂直企业的核心竞争优势所在。其次在落地应用过程中,如何确保在保障数据安全的前提下释放其价值,如何提高模型的准确性和可靠性,以及如何确保AI生成的内容的安全性、可信性和可靠性,这些都是在推动大模型产业化落地时需要各方共同努力解决的问题。
  • 《Nature | 医学人工智能的未来》

    • 来源专题:战略生物资源
    • 编译者:李康音
    • 发布时间:2023-10-29
    • 本文内容转载自“ChemBioAI”微信公众号。原文链接: https://mp.weixin.qq.com/s/hlwb9sc0rugxZ_ThiOy7gQ 2023年10月24日,《自然》新闻(Nature News)在线发表了一篇题为An AI revolution is brewing in medicine. What will it look like?的特别报道。 Jordan Perchik于2018年开始在亚拉巴马大学伯明翰分校进行放射科住院医生培训,那时正值他所谓的放射科学领域的“AI恐慌”高峰期。在计算机科学家Geoffrey Hinton宣称人们应停止培训成为放射科医生的仅仅两年后,这一时期开始。Hinton被称为人工智能之父,他预测这些系统很快将能够比人类更好地阅读和解释医学扫描图像和X光片。此后,放射科医学项目的申请数量大幅下降。 基于人工智能的工具越来越多地成为医疗保健的一部分,美国食品和药品监督管理局(FDA)已经授权使用超过500种这类工具。其中大多数与医学影像有关,用于改进图像质量、测量异常或标记检测结果以供后续跟踪。 调查显示,虽然许多医生知道临床AI工具的存在,但实际上只有很小一部分 (大约在10%到30%之间) 使用过它们,他们的态度从谨慎乐观到彻底不信任不等。荷兰乌得勒支大学医疗中心的医学创新实施专家Charisma Hehakaya说:“一些放射科医生对AI应用的质量和安全性存在疑虑。”即使AI工具能够完成它们的目标任务,仍不清楚这是否会转化为患者更好的医疗护理。但有一种被称为综合医学AI的方法似乎正在兴起。这些模型受到庞大数据集的训练,就像驱动ChatGPT和其他AI聊天机器人的模型一样。在吸收大量医学图像和文本数据后,这些模型可以适用于许多任务。尽管目前获得批准的工具执行特定功能,比如在计算机断层扫描(CT)中检测肺结节,但这些综合模型将更像医生,评估扫描中的每一种异常情况,并将其整合为一种诊断。 尽管现在的AI爱好者趋向避免大胆宣称机器将取代医生,但许多人认为,这些模型可以克服目前医学AI的某些限制,有朝一日可能在某些情况下超越医生。然而,这些新工具能够在实际临床护理中使用之前,还有漫长的道路需要走。 目前存在的限制 医学领域的人工智能工具充当从业者的辅助角色,例如通过快速浏览扫描图像并标记医生可能立即查看的潜在问题,这些工具有时表现很出色。Jordan Perchik记得有一次,在他值夜班的时候,一种AI分诊工具在凌晨3点为一名出现呼吸急促症状的患者标记了一张胸部CT扫描。他将这张扫描图像提上优先级,并同意AI的评估结果,该结果显示患者存在肺栓塞,这是一种可能致命且需要立即治疗的情况。如果没有被标记出来,这张扫描图像可能要等到当天晚些时候才会被评估。 但如果AI犯了错误,它也会产生相反的效果。Jordan Perchik说,最近他发现了一例AI没有标记出来的肺栓塞病例,他决定采取额外的审查步骤,最终证实了他的评估,但这减缓了他的工作进度。如果他决定相信AI并继续前进,那么这种情况可能会被漏诊。”许多已获批准的设备并不一定符合医生的需求,早期的AI医学工具是根据影像数据的可用性来开发的,因此一些应用程序是为常见且容易识别的疾病而建立的。 另一个问题是,这些AI工具倾向专注于特定任务,而不是全面解释医学检查——观察图像中可能相关的一切,考虑以前的结果和患者的临床病史。尽管专注于检测一些疾病具有一定价值,但它并不反映放射科医生真正的认知工作。 解决方案通常是增加更多基于AI的工具,但这也对医疗护理构成挑战,伦敦Google Health的临床研究科学家Alan Karthikesalingam表示。假如一个人接受常规乳腺X光检查,技术员可能会采用一种用于乳腺癌筛查的AI工具的辅助。如果发现异常,同一患者可能需要进行磁共振成像(MRI)扫描以确认诊断,而这可能需要另一个AI设备。如果诊断结果得到确认,那么病变将会通过手术移除,可能需要另一种AI系统来协助进行病理学分析。 许多医院并不了解监测AI性能和安全性所涉及的挑战,英国伯明翰大学研究医疗AI负责创新的临床研究员Xiaoxuan Liu表示。她和她的同事们确定了数千份医学成像研究,比较了深度学习模型的诊断性能与医疗保健专业人员的性能。对于该团队评估的69项诊断准确性研究,一个主要发现是,大多数模型未经真正独立于用于训练模型的信息的数据集进行测试。这意味着这些研究可能高估了模型的性能。 坚实的基础 为了解决医学领域AI工具的一些限制,研究人员一直在探索具备更广泛能力的医学人工智能。他们受到了像ChatGPT这样的革命性大型语言模型的启发。这个术语是由斯坦福大学的科学家们在2021年创造的,它描述了在广泛的数据集上进行训练的模型,这些数据集可以包括图像、文本和其他数据,使用一种称为自监督学习的方法。这些基础模型,也被称为基本模型或预训练模型,构成了后续可以适应执行不同任务的基础。 目前大多数医学AI设备是通过监督学习方法开发的。例如,使用这种方法训练一个模型来识别肺炎,需要专家分析大量的胸部X光片并将它们标记为“肺炎”或“非肺炎”,以教导系统识别与该疾病相关的模式。在基础模型中不需要大量图像的注释。例如,对于ChatGPT,使用大量文本进行训练,以训练一个通过预测句子中的下一个单词来学习的语言模型。同样,伦敦摩尔菲尔德眼科医院的眼科医生Pearse Keane及其同事开发的医学基础模型使用了160万张视网膜照片和扫描图像,以学习如何预测这些图像缺失部分应该是什么样子。在进行了这一预训练后,研究人员引入了几百张标记图像,使其能够学习特定的与视觉相关的疾病,如糖尿病性视网膜病变和青光眼。该系统在检测这些眼部疾病以及通过眼底血管微小变化检测出的心脏病和帕金森病等系统性疾病方面优于以前的模型,但该模型尚未在临床环境中进行测试。 Keane表示,基础模型对眼科学领域特别合适,因为几乎可以对眼部的每个部位进行高分辨率成像。而且有大量的这些图像数据可用于训练这种模型。人工智能将彻底改变医疗保健,而眼科学可以成为其他医学专业的示范。大型科技公司已经在投资使用多种图像类型的医学成像基础模型,包括皮肤照片、视网膜扫描、X光片和病理学切片,并整合电子健康记录和基因组数据。 今年6月,Google Research科学家们发表了一篇论文,介绍了他们称之为REMEDIS(具有自监督的强大和高效医学成像)的方法,与使用监督学习训练的AI工具相比,该方法能够将诊断准确性提高高达11.5%。研究发现,在对未标记图像的大型数据集进行预训练后,只需要少量标记图像就能达到这些结果。这项研究的共同作者之一,Karthikesalingam说:“我们的主要发现是,REMEDIS能够以非常高效的方式,只需很少的示例,学会如何在许多不同的医学图像中对许多不同的事物进行分类,包括胸部X光片、数字病理学扫描和乳腺X光检查。”次月,Google的研究人员在一篇预印本中描述了他们如何将这一方法与该公司的医学大型语言模型Med-PaLM相结合,该模型几乎可以像医生一样回答一些开放性的医学问题。结果表明,Med-PaLM Multimodal不仅可以解释胸部X光图像,还可以以自然语言起草医疗报告。 微软也在努力将语言和视觉整合到一个单一的医学AI工具中。今年6月,公司的科学家们推出了LLaVA-Med(生物医学大型语言和视觉助手),该模型在与从PubMed Central(一个公开可访问的生物医学文章数据库)提取的文本配对的图像上进行训练。微软Health Futures的生物医学AI研究负责人Hoifung Poon表示:“一旦你这样做,你就可以开始与图像进行对话,就像你在与ChatGPT交谈一样。” 这种方法的一个挑战是它需要大量的文本-图像对。 随着这些模型在越来越多的数据上进行训练,一些科学家乐观地认为它们可能能够识别人类无法识别的模式。AI工具可能在某些领域超越人类能力,比如使用数字病理学来预测免疫疗法对肿瘤的反应。 Karthikesalingam还指出,即使Google的医学成像AI取得了最佳结果,它仍然无法与人类相媲美。人类放射科医生的X光报告仍然被认为明显优于最先进的多模式综合医学系统。尽管基础模型似乎特别适合扩大医学AI工具的应用,但要展示它们可以安全用于临床护理还有很长的路要走。 毫无疑问,AI在放射科领域的作用将继续增长,与其说取代放射科医生,不如培训他们如何使用AI。