《预测能力成为陷阱?临床人工智能上演“模型大逃杀”》

  • 来源专题:战略生物资源
  • 编译者: 李康音
  • 发布时间:2023-10-17
  • 2023年10月17日,据智药局报道,当前,越来越多的人工智能模型有望被用于临床,包括预测白血病、中风的危险性。药物临床开发阶段,AI模型也开始试点对临床试验结果的预测以及分析。很多模型声称能够对临床结果做出预测及警示,助力临床研究和护理,但是在实际部署过程中,医生与模型的互动反而可能会造成AI性能的改变。一项新的研究表明,随着时间的推移,这些预测模型可能“会好心办坏事”——导致呈现的数据结果出现误差,效果急剧下降。明明应该是向善的技术,最终反而害了人?

    AI临床,模型吃模型

    临床中,疾病的发展和死亡息息相关。例如在ICU病房,急性肾损伤(Acute kidney injury,AKI)是常见的并发症,高达20%-70%患者将会进展到AKI的某个阶段。另外,急性肾损伤又跟死亡率高度相关,那么预测急性肾损伤概率和预测死亡率就成为了两个模型,针对其中一个结果的处理会影响另一个结果。近日的论文中,研究人员以美国两大顶尖医院——西奈山医疗系统和贝斯以色列女执事医疗中心重症监护病房(ICU)的入院情况作为研究对象,共计收治了13万名病人。而为了评估模型的结果,团队又引入了几个数据,一个是依从率,指医生得知模型预警后的遵守程度(毕竟医生不会完全听信模型);第二个则是有效率,也叫敏感度,指导致管理变化并防止不利结果的真阳性模型预测的比例。还有一个是特异性,也称作真阴性率,医学中如果特异性较低,则会出现很多假阳性的误诊患者。

    研究人员设立了3个场景。

    场景1:初次使用后重新训练模型

    在第一个场景中,研究团队训练一个预测ICU入院后5天死亡率的模型,并根据新的患者数据对其进行了重新训练,模拟了如果预测工具在部署后反馈会发生什么。他们发现,虽然该方法最初提高了性能,但结果却导致性能进一步下降。表现为死亡率预测模型在重新训练一次后失去了 9%到39% 的特异性。发生这种情况是因为模型首先适应不断变化的条件,随着患者特征和模型“学习”的结果之间的关系因再训练而发生变化,导致其性能下降。

    场景2:按顺序部署模型

    第二种情况涉及在已经部署了另一个模型之后开发一个新模型。在部署急性肾损伤的模型后,训练了与预测死亡率的模型。这一情境下,实施急性肾损伤 (AKI) 后创建的死亡率预测模型失去了 8% 到 15% 的特异性。当肾脏模型的预测帮助患者避免急性肾损伤时,它也降低了死亡率。因此当后来再使用这些数据创建死亡率预测因子时,其特异性就受到了影响。两个工具都将受到数据漂移的影响。专家称可能无法定义结果之间的确切关系,这意味着之前接受机器学习引导护理的患者的结果有所改善,但他们的数据不再适合在模型训练中使用。

    场景3:同时使用两个预测模型

    在这个场景中,将ICU入院后5天内预测死亡率和AKI的模型同时实施。最终发现使用一组预测会使另一组预测变得过时,不再适用了。因此,预测应该基于新收集的数据,这可能成本高昂或不切实际。在23053项预测中,118项AKI预测和141项死亡率预测被认为过时,依从率为0.1。当依从率为0.75时,这些值分别增加到5841和6962。两个模型同时部署时,每个模型各自所驱动的医疗保健变化都会使其他模型的预测失效,每个模型都会导致另一个模型的有效准确度降低 1% 到 28%。

    这也反应了:使用预测模型的时间越长,而不考虑反馈循环后性能下降,它们的可靠性就越低,就像一颗定时炸弹。

    呼吁更多监管

    当然这次研究仍然有局限性,导致结论不一定准确,例如数据上因为伦理和审查问题,导致它是一次回顾性模拟研究,而并非真实临床上的部署。也就是说,这项研究无法得知真实临床上的依从性,以及临床干预措施在减少肾脏损伤和死亡方面的效果如何。但它也揭开了一个被忽视的问题,人们总是宣称AI模型的准确度有多么高,进入医院试点部署了,但后续对却缺乏对模型性能的监测。

    这些模型在实际部署中会产生复杂的相互作用,例如按顺序部署或者同时部署后,一旦重新训练模型或者数据反馈机制,那么这个模型就没用了。并且随着临床模型的越来越多,它可能会更加难办。例如此前智药局曾经报道过,当前国内外医疗大模型数量暴增,未来的迭代将接受这些数据的训练,而且可能会产生意想不到的后果。由此我们陷入了一个“模型吃模型”的世界。(model-eat-model world)

    专家警示,如果不加以重视,一个AI模型除了最终使自己无法使用外,还会混淆其他模型的部署和未来开发。此前FDA出台过关于AI模型的指南草案,并提出了一种全生命周期方法来监管人工智能或机器学习模型,用于监控和更新模型的过程。建议的组件包括数据管理、模型再训练、性能评估和更新程序。

    我们早就该意识到,影响患者预后和 EHR 数据下游反馈的成功实施,需要新的方法来更新模型。

    本文内容转载自“ 智药局”微信公众号。

    原文链接: https://mp.weixin.qq.com/s/-NgpeJcvpD1LA75JRmW1Dw


  • 原文来源:https://mp.weixin.qq.com/s/-NgpeJcvpD1LA75JRmW1Dw
相关报告
  • 《人工智能中场之争:大模型在产业变革中的应用探索》

    • 来源专题:数智化图书情报
    • 编译者:闫亚飞
    • 发布时间:2023-09-27
    • 2023年对于人工智能产业而言是非常重要的一年,尤其是以GPT-3、ChatGPT为代表的大模型技术所取得的显著成果标志着以专用小模型训练为主的“手工作坊时代”向通用大模型预训练为主的“工业化时代”的人工智能研究范式转变,敲开了通用人工智能的大门。AIGC(AI-Generated Content)指利用人工智能技术(生成式AI路径)来生成内容的新型内容生产方式。AIGC应用创新的技术支撑为“生成对抗网络(GAN)/ 扩散模型(Diffusion)”与“Transformer预训练大模型”的两类大模型分支。在国外AIGC应用展示出大模型的能量的同时,我国企业也加强了相关产品技术布局,云厂商、AI大厂、创企、各行业公司及技术服务商等产业各领域玩家纷纷发布大模型或基于大模型的应用产品及各类技术服务。 从商业化布局角度来看,如今基础大模型厂商可分为三类参与者,分别为云巨头厂商、人工智能公司或创业公司和学术研究机构,在定位有通用能力基座的同时打通向上商业化路径。其中,云巨头厂商将借助云服务及数据库资源,更强调MaaS能力输出。AI公司或创业公司将借助业务积累或生态资源锚定几个典型行业或业务场景展开商业占领。垂直领域厂商将基于开源模型或基模平台开发部署细分领域模型产品,厂商优势在垂类数据与业务理解。通用模型和各领域专有的知识数据结合,未来垂直大模型是重要的发展方向,本文重点讨论大模型在垂直行业部署与细分场景的落地应用现状。大模型在金融领域的应用探索 金融行业作为人工智能应用场景密集的行业,是大模型技术落地的最佳领域之一。以大模型为代表的新一代人工智能技术将加速金融数字化和金融智能化的发展,重塑现有业务流程,改变产业格局。大模型技术可应用于智能客服、投顾、营销、风控、运营、投研、投行、量化交易、低码研发等多个场景。第一是基于大模型的智能客服将超越人工服务,让高质量顾问式金融服务成为可能。在通用大模型的基础上,叠加金融客服领域的数据和专业服务经验,经过垂直领域定向训练后客服机器人既能与用户进行多轮对话,还能提供具体可行的解决方案。 第二是生成式大模型可以成为理财师、经纪人等从业者的“全能业务助理”。基于大模型的业务助理不仅了解国内外的宏观政策、行业信息、产品信息,还可以自动生成文章、报告,提供专业建议和方案辅助交流。 第三是广告和营销内容一键生成,营销效率大幅提升。以ChatGPT为代表的大模型技术,将带来知识型工作者生产效率的二次飞跃。过去,我们需要在海量信息中检索词条,将大量的精力投入到信息的获取、提炼与整合,自己做检索、设计、制作等工作。未来,大模型技术会适应并普及到所有知识型工作行业,例如文案、设计、编程等,人机协作将大幅提高工作效率。 大模型能够凭借强大的信息挖掘能力,唤醒金融机构大量沉积的信息,就像是一块巨大的磁石,做关键信息的抽取,为判别式小模型进行赋能。比如,在风险决策、信用评估、反欺诈等场景下,大模型能丰满信息的维度,挖掘出小模型无法覆盖到的区域。大模型对于小模型并非是替代或“消灭”,相反,两者将是相互协作的关系,大模型与小模型相互搭配,将大大提升金融决策的精准度和效率。 医疗保健行业充斥着各种类型的基于文本的文档,例如患者病历、索赔文件、临床记录、同意书和弃权书等。大语言模型(Large Language Model,LLM)能够快速阅读、解释大量文本并对其采取行动,这意味着他们可以为医疗机构带来优势,使他们能够以独特的方式安全、可靠地工作。医疗保健非常适合利用大型语言模型,因为给定的医疗系统的医疗记录中存在大量的潜在数据。 在这样一个文档密集的行业中,医疗保健领域并不缺乏大型语言模型的应用场景。以下是大型语言模型功能的示例,这些功能在医疗保健环境中应用时,可以简化流程并改进整体工作流程。 临床记录:医疗健康专业人员可以使用LLM创建准确且全面的临床记录,使用LLM分析患者数据并生成相关摘要。这有助于减轻记录负担,同时确保准确记录重要信息。改进信息提取:从非结构化文本(例如患者记录或研究文章)中识别和提取相关信息是LLM的另一个自然应用。这种能力使医疗保健组织能够释放隐藏在庞大数据存储库中的宝贵见解,最终支持更好的决策。高级沟通能力:由于大语言模型擅长理解自然语言,因此非常适合患者与提供者沟通等任务。这些模型可以通过以上下文相关的方式解释和回应患者的询问、担忧或反馈,促进更有效的互动。文件生成和管理:大语言模型可以自动生成重要的医疗保健文件,例如同意书、弃权书和出院摘要。通过从患者记录中提取相关信息并预先填充这些文档,LLM可以节省时间,最大限度地减少错误风险,并使提供者能够让患者感觉他们了解他们,而无需要求重复信息。当纳入智能入院和登记工作流程时,这些工具能够轻松捕获准确的患者信息,从而最大限度地提高临床和财务成果。 大模型在工业领域的应用探索 大模型在工业的应用,目前在生产制造、研发设计和经营管理领域都形成一些场景,但都处于起步和探索阶段。各工业相关领域技术服务商和行业解决方案商也都在积极布局AI大模型的行业应用,以下是大模型技术在工业领域的应用场景方向探索。 其中生产制造的应用包含运营管理,使用自然语言交互方式,分析操作和运营人员的自然语言指令,进行对应数据、信息的查找、呈现和关联分析等,提高信息查找和分析的效率,帮人员更直观快捷的获取所需的信息。质量安检,使用大模型提供更强的视觉检测能力,用于质检、安全监测等,提高模型泛化能力,降低训练样本需求。生成模拟检测图像的缺陷样本,补充小样本的不足,提高模型准确性等。自动对检测的结果进行分析,并生成检测报告等。在计划调度层面,使用大模型进行排产排程优化、生产和物流调度优化,提高算法能力,基于自然语言自动生成PLC控制代码,提高开发效率,降低开发门槛。在自动化控制层面,使用自然语言与机器人交互,对工业机器人进行智能控制,提高机器人场景适应性降低操作难度。 在可见的未来里,相信随着大模型技术的进一步发展,这类生成式AI产品将在工业互联网领域发挥越来越重要的作用,支持更多工业场景需求的落地实现。大模型在交通领域的应用探索 大模型在交通领域应用的优势:一是自然语言处理能力,如和文字相关的交通报告分析、语音识别等;二是轨迹大数据,在交通出行建模、拥堵研判,主流交通路径等方面有所应用;三是多模态,比如如何从视频转化为交通流指标等,都是交通大模型中非常重要的因素;四是计算机视觉模型,在车道线、红绿灯、交通违法事件等交通要素识别方面的应用广泛。 2023年4月,百度基于文心大模型在高速公路领域发布了数字人“简璐璐”,服务于路网监测、应急指挥、养护管理、公众出行全环节,可以结合用户问题,提供全新对话式交互,实时给出精准答复。随后,在交通管理领域发布了全域信控缓堵解决方案,能够提供全域感知、全域优化、全域协同和全域服务四大能力,实现信控优化的代际提升,可实现超千规模路口的全域拥堵治理。 2023年7月19日,北京交通大学联合中国计算机学会智慧交通分会、足智多模公司等正式发布并开源了国内首个综合交通大模型——TransGPT·致远,依托北京交通大学“交通大数据与人工智能”教育部重点实验室科研团队自主研发。与通用型多模态交通大模型产品不同,致远大模型自研发伊始就瞄准交通运输行业中的实际应用需求,基于研发团队长期汇聚积累的综合交通大数据,在交通态势预测、交通规划设计、公共交通服务、智能咨询助手、交通安全教育、交通协助管理、交通事故分析、自动驾驶辅助等方面形成具有实际应用价值的智能化支撑能力。交通态势的全面及时、精准感知是智慧交通的基础,也是一直以来困扰行业的难题。交通事件识别不准的问题在交通行业是普遍存在的。现阶段在应对AI大规模落地应用问题上,预训练大模型借助其通用、泛化能力优势为AI落地提供了新的解决思路。 交通感知方面,大模型可以进行道路路况识别和车辆车流密度检测。基于某帧画面生成当前路况描述并直接发布,这些数据可以连接到情报版或导航软件,将海量的监控图片、监控数据利用起来。此外,大模型在道路分割、服务区、停车场余位识别、交通事件检测等方面也有所应用,可做到让视频监测真正免配置,大幅提升检测准确率。交通治理方面,通过大模型的语义理解、泛化推理、自动取数能力可对历史交通数据和实时交通数据进行分析,精准定位、判断某路段和某区域的交通状况;快速聚焦交通运行核心痛点问题;预测未来交通状况;提供初步、快速的交通决策支持,缓解交通规划方案和治理经验复用高度依赖高阶人才的难题。交通控制系统优化方面,大语言模型通过集成和调度车辆监管、交通信号调整、智能导航、智能停车等多种智能服务,实现交通系统的动态优化和智能化服务,提高交通治理效率和安全性。交通物流行业应用方面,大模型的应用场景可分为两类,一类是人机交互类场景,如数字人、智能客服。面向问答类场景,通过调用大模型的理解能力、推理能力、解决问题的能力,将一个问题拆分成多个任务,由大模型和交通业务系统共同完成,并将语料资源整合成完整的答案交付给用户,从而开发作业系统增强服务、专业咨询引导和内容生产服务。 尽管大模型具有广阔的应用前景,但在实际应用中仍面临一些挑战。产业大模型的综合能力实际上取决于计算能力、行业专业知识和模型精调的结合。其中,行业专业知识至关重要,它涵盖了专家经验、行业数据、组织能力和工程能力,这是垂直企业的核心竞争优势所在。其次在落地应用过程中,如何确保在保障数据安全的前提下释放其价值,如何提高模型的准确性和可靠性,以及如何确保AI生成的内容的安全性、可信性和可靠性,这些都是在推动大模型产业化落地时需要各方共同努力解决的问题。
  • 《ESMO 2023:人工智能是肿瘤学的“新目标”》

    • 来源专题:战略生物资源
    • 编译者:李康音
    • 发布时间:2023-10-31
    • 本文内容转载自“智药局”微信公众号。原文链接: https://mp.weixin.qq.com/s/aELFPPL7A9PVTFVWX0m9tg 欧洲肿瘤内科学会年会 (ESMO) 是欧洲最负盛名和最具影响力的肿瘤学会议。2023 年 ESMO 大会于 10 月 20 日-24 日在西班牙马德里举行,超过3300名肿瘤学家到场交流,涵盖了肿瘤领域的基础研究、转化研究以及最新的临床研究进展。今年的大会上,也聚集了马德里的医生和深度学习专家,讨论人工智能在该领域的挑战和进展。在会议上,专家们发问:“ 我们是否进入了大数据和人工智能的肿瘤学新时代?” 五大应用领域 肿瘤学中的人工智能有五大应用领域,包括转化肿瘤学(临床前实验)、癌症成像、临床结果、临床决策和人工智能系统还有望简化分子病理学实验室的工作流程。 辅助药物设计 智药局注意到,本届ESMO中有多家AI药企携最新的管线参与会议。例如英矽智能携QPCTL小分子抑制剂亮相,分享多癌种研究数据。Exscientia也带来 LSD1 和 MALT1 抑制剂的新临床前数据,目前已经进入临床管线中。除此之外,还有药企分享借助人工智能和生物信息平台改善细胞疗法的结果。“经过多年的负面研究和高毒性率,由于嵌合抗原受体设计的改进、特异性的上调以及可能的下调,新的分子技术和生物信息学平台似乎有助于产生具有更积极结果的增强细胞疗法。”丹麦哥本哈根大学医院国家癌症免疫治疗中心的 Inge Marie Svane 教授说。 例如,大会介绍了来自BioNtech的一种非工程新抗原特异性 T 细胞产品 (BNT221) 治疗难治性转移性黑色素瘤的 I 期首次人体研究的中期结果。这项疗法使用通过白细胞分离术从个体患者身上收集的外周血单核细胞来创建个性化的 BNT221,其中包含针对患者肿瘤特异性的多种新抗原的 T 细胞反应。BioNtech使用生物信息学平台预测每位患者的免疫原性新抗原产物,然后用于在离体诱导过程中启动、激活和扩展来自 CD4+ 和 CD8+ 区室的记忆和从头 T 细胞反应。结果显示,9 名患者在淋巴细胞清除化疗后接受单次输注 BNT221,没有观察到剂量限制性毒性以及与淋巴细胞清除相关的输注后 3-4 级血液学毒性。9 名患者中有 4 名检测到肿瘤缩小。通过 TCR 测序分析,在一名接受测试的患者中观察到肿瘤浸润的证据。虽然到目前为止只有少数患者接受了治疗,因此预测反应的程度或持久性还为时过早,但令人鼓舞的是,注入的新抗原特异性 T 细胞浸润了肿瘤病变,这意味着它们能够瞄准肿瘤。 生成新疗法的生物信息学平台正在迅速塑造研究格局,但仍需要正确定义其评估和批准。 诊断癌症成像 癌症成像和预测生物标志物识别是 2023 年 ESMO 大会上提出的研究报告中执行地最好的任务。近年来,人工智能应用已从研究转向临床实践,多种人工智能工具现已获得美国 FDA 批准或在欧洲获得 CE 标志,还有许多其他工具目前正在评估中。在 2023 年 ESMO 大会上,展示了多种人工智能工具的性能数据,强调了它们在一系列应用中的优势。例如一项研究表明,开发用于肺结节分析的人工智能工具首次证明了在CT图像上预测磨玻璃结节(GGNs)患者肺癌风险的能力,用来帮助对GGN患者展开干预性措施。AI工具评估了来自169个癌症和347个良性结节的CT图像时,与两个参考模型相比,它显示出积极预测GGN恶性肿瘤的能力略高,受试者工作特征曲线(AUC)下的面积为89.1%,而86.5%和80.9%。此外,该工具排除了48.7%的良性模块(100%灵敏度)的恶性肿瘤,而参考模型的恶性肿瘤为14.1%和16.7%。 人工智能系统还有望简化分子病理学实验室的工作流程。AIMMeR 的评估就是一个例子,这是一种人工智能工具,用于自动确定大会上提出的 II/III 期 CRC 患者的免疫组织化学图像中的错配修复 (MMR) 蛋白状态。该分析包括来自 SCOT 试验的 2,000 多个病例,比较了基于奥沙利铂的辅助化疗 3 个月和 6 个月,AIMMeR 在识别 MMR 缺陷方面表现出很高的准确性,证明了该队列的预后和预测价值。 识别临床结果/预测生物标志物 ESMO中还探讨了人工智能在识别临床结果的预测生物标志物方面的作用。在第一个项目中,对深度学习 AI 框架 NaroNet 进行了评估,以确定可预测 53 名接受免疫检查点抑制剂治疗的晚期黑色素瘤患者的疗效和毒性结果的生物标志物。在治疗前的肿瘤标本中,NaroNet 确定了两个肿瘤微环境邻域,它们均与 3-4 级免疫相关不良事件(均 p=0.008)和疾病进展(均 p=0.009)显著相关。研究作者提出,这些社区有可能作为治疗前的生物标志物,以识别可能受益于替代治疗方案的患者。 在第二项研究中,对接受检查点抑制剂和化疗的转移性结直肠癌 (CRC) 患者的全切片图像中的肿瘤浸润淋巴细胞 (TIL) 进行了人工智能分析,以预测对免疫肿瘤药物的反应。在此分析中,Lunit SCOPE IO 工具有效地表征了肿瘤微环境,并揭示了几种免疫相关生物标志物和结果之间的关联。研究人员得出结论,基于人工智能的肿瘤微环境评估,特别是肿瘤内 TIL 密度,与复发性晚期头颈鳞状细胞癌 ICI 的良好治疗结果相关。该研究已经发布在《临床肿瘤学杂志》(JCO) 上。 专家 指出:“正如这两项研究所示,将人工智能模型应用于数字化(H&E) 染色样本,强调了它们提取具有生物学和临床意义的见解的潜力。”“这可能具有深远的影响,特别是在癌症免疫治疗领域,因为它能够预测治疗反应、进展风险和免疫治疗相关副作用的风险。” 新的黄金 尽管人工智能和数据科学在ESMO上不算主角,大家更关心的是药物的临床阶段数据,尤其是ADC药物。但仍需承认的是,AI已经成为不可忽视的力量,正在改变癌症研究的某些领域。当下,已经有基于人工智能的平台帮助药物的更快地进行临床前研究,影像和病理诊断,以及分析电子健康记录和医学成像设备中常规收集的数据。例如,在癌症遗传学领域,出具患者与靶向治疗的基因组报告很多都是通过人工智能识别的。在本届大会中,发布了《ESMO 肿瘤学真实世界证据报告指南(GROW)》旨在指导该领域的科学报告,也涵盖了基于人工智能的技术主题,这并非巧合。 作为临床试验的补充,由先进数据分析支持的现实世界研究变得越来越普遍,并且也开始在药物研发阶段,被监管机构使用。为了训练算法,公司需要大量数据,因此获取数据已成为一种商业模式。包括私人生活、实验室测试、生物样本和诊断数据。在AI赋能肿瘤学的当下,医院生成的数据可以被视为新的黄金。 未来,这些由算法构建的模型会帮助患者带来更多的疗法,减轻医生的负担,以及更好的患者护理和监管。