《预测能力成为陷阱?临床人工智能上演“模型大逃杀”》

  • 来源专题:战略生物资源
  • 编译者: 李康音
  • 发布时间:2023-12-04
  • 2023年10月17日,据智药局报道,当前,越来越多的人工智能模型有望被用于临床,包括预测白血病、中风的危险性。药物临床开发阶段,AI模型也开始试点对临床试验结果的预测以及分析。很多模型声称能够对临床结果做出预测及警示,助力临床研究和护理,但是在实际部署过程中,医生与模型的互动反而可能会造成AI性能的改变。一项新的研究表明,随着时间的推移,这些预测模型可能“会好心办坏事”——导致呈现的数据结果出现误差,效果急剧下降。明明应该是向善的技术,最终反而害了人?

    AI临床,模型吃模型

    临床中,疾病的发展和死亡息息相关。例如在ICU病房,急性肾损伤(Acute kidney injury,AKI)是常见的并发症,高达20%-70%患者将会进展到AKI的某个阶段。另外,急性肾损伤又跟死亡率高度相关,那么预测急性肾损伤概率和预测死亡率就成为了两个模型,针对其中一个结果的处理会影响另一个结果。近日的论文中,研究人员以美国两大顶尖医院——西奈山医疗系统和贝斯以色列女执事医疗中心重症监护病房(ICU)的入院情况作为研究对象,共计收治了13万名病人。而为了评估模型的结果,团队又引入了几个数据,一个是依从率,指医生得知模型预警后的遵守程度(毕竟医生不会完全听信模型);第二个则是有效率,也叫敏感度,指导致管理变化并防止不利结果的真阳性模型预测的比例。还有一个是特异性,也称作真阴性率,医学中如果特异性较低,则会出现很多假阳性的误诊患者。

    研究人员设立了3个场景。

    场景1:初次使用后重新训练模型

    在第一个场景中,研究团队训练一个预测ICU入院后5天死亡率的模型,并根据新的患者数据对其进行了重新训练,模拟了如果预测工具在部署后反馈会发生什么。他们发现,虽然该方法最初提高了性能,但结果却导致性能进一步下降。表现为死亡率预测模型在重新训练一次后失去了 9%到39% 的特异性。发生这种情况是因为模型首先适应不断变化的条件,随着患者特征和模型“学习”的结果之间的关系因再训练而发生变化,导致其性能下降。

    场景2:按顺序部署模型

    第二种情况涉及在已经部署了另一个模型之后开发一个新模型。在部署急性肾损伤的模型后,训练了与预测死亡率的模型。这一情境下,实施急性肾损伤 (AKI) 后创建的死亡率预测模型失去了 8% 到 15% 的特异性。当肾脏模型的预测帮助患者避免急性肾损伤时,它也降低了死亡率。因此当后来再使用这些数据创建死亡率预测因子时,其特异性就受到了影响。两个工具都将受到数据漂移的影响。专家称可能无法定义结果之间的确切关系,这意味着之前接受机器学习引导护理的患者的结果有所改善,但他们的数据不再适合在模型训练中使用。

    场景3:同时使用两个预测模型

    在这个场景中,将ICU入院后5天内预测死亡率和AKI的模型同时实施。最终发现使用一组预测会使另一组预测变得过时,不再适用了。因此,预测应该基于新收集的数据,这可能成本高昂或不切实际。在23053项预测中,118项AKI预测和141项死亡率预测被认为过时,依从率为0.1。当依从率为0.75时,这些值分别增加到5841和6962。两个模型同时部署时,每个模型各自所驱动的医疗保健变化都会使其他模型的预测失效,每个模型都会导致另一个模型的有效准确度降低 1% 到 28%。

    这也反应了:使用预测模型的时间越长,而不考虑反馈循环后性能下降,它们的可靠性就越低,就像一颗定时炸弹。

    呼吁更多监管

    当然这次研究仍然有局限性,导致结论不一定准确,例如数据上因为伦理和审查问题,导致它是一次回顾性模拟研究,而并非真实临床上的部署。也就是说,这项研究无法得知真实临床上的依从性,以及临床干预措施在减少肾脏损伤和死亡方面的效果如何。但它也揭开了一个被忽视的问题,人们总是宣称AI模型的准确度有多么高,进入医院试点部署了,但后续对却缺乏对模型性能的监测。

    这些模型在实际部署中会产生复杂的相互作用,例如按顺序部署或者同时部署后,一旦重新训练模型或者数据反馈机制,那么这个模型就没用了。并且随着临床模型的越来越多,它可能会更加难办。例如此前智药局曾经报道过,当前国内外医疗大模型数量暴增,未来的迭代将接受这些数据的训练,而且可能会产生意想不到的后果。由此我们陷入了一个“模型吃模型”的世界。(model-eat-model world)

    专家警示,如果不加以重视,一个AI模型除了最终使自己无法使用外,还会混淆其他模型的部署和未来开发。此前FDA出台过关于AI模型的指南草案,并提出了一种全生命周期方法来监管人工智能或机器学习模型,用于监控和更新模型的过程。建议的组件包括数据管理、模型再训练、性能评估和更新程序。

    我们早就该意识到,影响患者预后和 EHR 数据下游反馈的成功实施,需要新的方法来更新模型。

    本文内容转载自“ 智药局”微信公众号。

    原文链接: https://mp.weixin.qq.com/s/-NgpeJcvpD1LA75JRmW1Dw


相关报告
  • 《Science | 临床预测模型的虚幻泛化》

    • 来源专题:战略生物资源
    • 编译者:李康音
    • 发布时间:2024-01-15
    • 2024年1月11日,耶鲁大学医学院等机构的研究人员在Science上发表了题为Illusory generalizability of clinical prediction models的研究论文。 人们普遍希望统计模型能够改善与医疗有关的决策。由于医疗结果数据的成本和稀缺性,这种希望通常基于研究人员在一两个数据集或临床环境中观察模型的成功。 该研究通过检查机器学习模型在精神分裂症抗精神病药物的几项独立临床试验中的表现来仔细研究这种乐观情绪。在开发模型的试验中,模型以很高的准确性预测了患者的预后,但在样本外应用时,其表现并不比偶然性好。在试验中合并数据以预测遗漏的试验结果并没有改善预测。这些结果表明,预测精神分裂症治疗结果的模型高度依赖于上下文,并且可能具有有限的普遍性。
  • 《《北京市人工智能行业大模型创新应用白皮书(2023年)》发布》

    • 来源专题:数智化图书情报
    • 编译者:杨小芳
    • 发布时间:2023-12-01
    •          11月29日,北京市科学技术委员会、中关村科技园区管理委员会在AICC 2023人工智能计算大会上发布了《北京市人工智能行业大模型创新应用白皮书(2023年)》(以下简称《白皮书》)。    《白皮书》从大模型全球发展态势、国内外行业应用概述、北京应用情况和发展建议等方面进行了系统分析和阐述,旨在进一步推动大模型应用落地,展示北京市大模型应用成果,促进大模型价值传播和供需对接。    《白皮书》认为,大模型技术迅速迭代,打破了原有AI技术发展的上限,呈现出数据巨量化、模型通用化、应用模式中心化等特点,以“无限生产”的能力重塑企业生产引擎,推动生产效率颠覆式提升。从全球范围看,世界各地均在积极推动大模型研发和应用,其中美国和中国发布的通用大模型总数占全球发布量的80%,成为大模型技术领域的引领者;欧盟、英国、加拿大、新加坡等国家和地区尚处于前期尝试阶段,仅个别头部企业开始应用。从全国范围看,国家和地方层面高度重视通用大模型产业发展。2023年7月,国家网信办、国家发展和改革委员会、教育部、科学技术部、工业和信息化部、公安部、国家广播电视总局等7部委联合公布《生成式人工智能服务管理暂行办法》,鼓励和规范生成式人工智能创新发展;北京、上海、广东等多省市也陆续出台大模型产业发展措施,加速大模型应用落地。从北京市大模型产业发展来看,北京是当前国内人工智能领域创新基础最好、人才资源最集中、研发创新能力最强、产品迭代最活跃的地区,现已拥有大模型创新团队122家,数量居全国首位,约占全国的一半。    《白皮书》详细梳理了现阶段北京市大模型应用的典型特点。从模型演进看,通用大模型趋于收敛,垂直行业应用成为大模型产业落地的关键赛道;当前,大模型发展呈现出从技术到产品、再到商业化应用的发展路径,并不断深入垂直行业领域。从应用领域来看,大模型应用案例百花齐放,已经在传统产业赋能、金融、政务、文化旅游、医疗、智慧城市等各个领域得到初步应用,其中,传统产业赋能和金融领域发展较快,如传统产业赋能领域有产业知识问答、图文生成等,金融领域有智能投研助理、智能客服等。从应用类型来看,大模型主要有内容生成、智能问答、IT支持、数据分析、智能识别和智能硬件等六个方面,其中内容生成和智能问答最为成熟。从商业模式来看,目前大模型商业模式初具雏形,形成了以通用大模型AI服务为主的基础层、以垂直行业领域AI服务为主的行业层和以大模型应用服务为主的应用层,三层服务相互促进,协同优化,共同支撑产业转化和发展。    《白皮书》对北京市大模型应用案例进行了梳理,从政务、金融、医疗、传统产业赋能、文化旅游、智慧城市等六个行业领域切入,围绕创新性、示范性、经济与社会效益性、可推广性等四个维度,选取衔远科技、360、瑞莱智慧、旷视、百度等18个典型案例,详细分析了各领域用户需求、解决方案、项目成果。如衔远科技围绕北京一轻科技集团在市场需求跟踪、新型产品研发等方面需求,打造品商大模型示范应用,形成商品智能反向定制、预测性生产、智能调度、智能营销等服务功能,加速消费制造领域全链路数智化升级;360围绕银行在数字化转型方面需求,打造金融领域大模型,实现员工平均办公文档处理时间减少40%等。基于案例分析,《白皮书》进一步提出了目前大模型应用落地面临的挑战。一是算力资源供不应求,成为大模型企业创新研发的重要挑战。二是高质量数据成为严重掣肘大模型行业应用的关键。三是大模型幻觉问题有所改善,但离规模落地尚有差距。四是大模型应用存在“蹭热度”和同质化情况。 附件:北京市人工智能行业大模型创新应用白皮书(2023年)