《从一次脑部扫描,到医学人工智能的更多信息》

  • 来源专题:生物安全网络监测与评估
  • 编译者: yanyf@mail.las.ac.cn
  • 发布时间:2019-06-21
  • 麻省理工学院的研究人员设计了一种新方法,用于从用于训练机器学习模型的图像中收集更多信息,包括那些可以分析医学扫描以帮助诊断和治疗大脑状况的模型。

    医学领域一个活跃的新领域涉及培训深度学习模型,以检测与神经系统疾病和疾病相关的脑部扫描结构模式,如阿尔茨海默病和多发性硬化症。但是收集训练数据是费力的:每次扫描中的所有解剖结构必须单独概述或由神经学专家手工标记。并且,在某些情况下,例如儿童罕见的大脑状况,首先只能进行少量扫描。

    在最近的计算机视觉和模式识别会议上发表的一篇论文中,麻省理工学院的研究人员描述了一个系统,该系统使用单个标记扫描以及未标记的扫描,自动合成不同训练样例的大量数据集。数据集可用于更好地训练机器学习模型以在新扫描中找到解剖结构 - 训练数据越多,预测越好。

    这项工作的关键是自动生成“图像分割”过程的数据,该过程将图像划分为更有意义且更易于分析的像素区域。为此,该系统使用卷积神经网络(CNN),这是一种机器学习模型,它已成为图像处理任务的动力。该网络分析来自不同患者和不同设备的大量未标记扫描,以“学习”解剖学,亮度和对比度变化。然后,它将这些学习变化的随机组合应用于单个标记扫描,以合成既逼真又准确标记的新扫描。然后将这些新合成的扫描输入到不同的CNN中,该CNN学习如何分割新图像。

    “我们希望在没有大量训练数据的现实情况下,这将使图像分割更容易获得,”第一作者Amy Zhao说,他是电气工程和计算机科学系(EECS)的研究生,计算机科学与人工智能实验室(CSAIL)。 “在我们的方法中,您可以学习模仿未标记扫描的变化,以智能地合成大型数据集来训练您的网络。”

    例如,有兴趣使用该系统帮助在马萨诸塞州综合医院培训预测分析模型,赵说,在儿童患者中,只有一两个标记的扫描可能存在特别罕见的大脑状况。

    在报纸上加入赵是:EECS和CSAIL的博士后Guha Balakrishnan; EECS教授Fredo Durand和John Guttag,以及资深作家Adrian Dalca,他也是哈佛医学院放射学的教员。

    系统背后的“魔术”

    虽然现在已经应用于医学成像,但该系统实际上已经开始作为综合智能手机应用程序的训练数据的手段,该应用程序可以从流行的可收集纸牌游戏“魔术:聚会”中识别和检索关于卡的信息。在20世纪90年代早期发布的“Magic”拥有超过20,000张独特的卡片 - 每隔几个月发布更多 - 玩家可以使用它们来制作定制游戏牌。

    赵,一个狂热的“魔术”玩家,想要开发一个CNN驱动的应用程序,用智能手机相机拍摄任何卡的照片,并自动从在线卡数据库中提取价格和评级等信息。 “当我从游戏商店挑选卡片时,我厌倦了将所有名字输入我的手机并查看评级和组合,”赵说。 “如果我能用手机扫描它们并提取这些信息,那会不会很棒?”

    但她意识到这是一项非常艰难的计算机视觉训练任务。 “你需要在所有不同的照明条件和角度下拍摄所有20,000张卡片的照片。没有人会收集该数据集,”赵说。

    相反,赵在CNN上训练了大约200张卡片的小型数据集,每张卡片有10张不同的照片,以学习如何将卡片变成不同的位置。它计算了不同的光照,角度和反射 - 当卡片被放置在塑料套管中时 - 计算出数据集中任何卡片的真实扭曲版本。这是一个激动人心的激情项目,赵说:“但我们意识到这种方法非常适合医学图像,因为这种类型的翘曲非常适合MRI。”

    心灵扭曲

    磁共振图像(MRI)由称为体素的三维像素组成。在分割MRI时,专家根据包含它们的解剖结构分离和标记体素区域。由个体大脑和所用设备的变化引起的扫描的多样性对使用机器学习来自动化该过程提出了挑战。

    一些现有方法可以使用“数据增强”来合成来自标记扫描的训练样例,其将标记的体素扭曲到不同的位置。但是这些方法需要专家手写各种增强指南,而一些合成扫描看起来不像现实的人脑,这可能对学习过程有害。

    相反,研究人员的系统会自动学习如何合成逼真的扫描。研究人员对来自真实患者的100个未标记扫描进行了系统训练,以计算空间变换 - 从扫描到扫描的解剖学对应关系。这产生了许多“流场”,其模拟体素如何从一次扫描移动到另一次扫描。同时,它计算强度变换,捕捉由图像对比度,噪声和其他因素引起的外观变化。

    在生成新扫描时,系统将随机流场应用于原始标记扫描,其在体素周围移动,直到其在结构上匹配真实的未标记扫描。然后,它覆盖随机强度变换。最后,系统通过遵循体素在流场中的移动方式,将标签映射到新结构。最后,合成扫描非常类似于真实的,未标记的扫描 - 但具有准确的标签。

    为了测试他们的自动分割准确度,研究人员使用Dice分数,以0到1的比例测量一个三维形状与另一个三维形状的拟合程度。他们将他们的系统与传统的分割方法(手动和自动)进行比较。在100次保持测试扫描中有30种不同的脑结构。在所有方法中,大型结构相对准确。但研究人员的系统在较小的结构上表现优于所有其他方法,例如海马体,其体积仅占大脑的约0.6%。

    “这表明我们的方法比其他方法有所改进,特别是当你进入较小的结构时,这对理解疾病非常重要,”赵说。 “我们这样做只需要一次手动标记扫描。”

    为了对作品的“魔术”根源进行点头,该代码在Github上以游戏卡片“Brainstorm”的名义公开发布。

    ——文章发布于2019年6月19日

相关报告
  • 《Nature | 医学人工智能的未来》

    • 来源专题:战略生物资源
    • 编译者:李康音
    • 发布时间:2023-10-29
    • 本文内容转载自“ChemBioAI”微信公众号。原文链接: https://mp.weixin.qq.com/s/hlwb9sc0rugxZ_ThiOy7gQ 2023年10月24日,《自然》新闻(Nature News)在线发表了一篇题为An AI revolution is brewing in medicine. What will it look like?的特别报道。 Jordan Perchik于2018年开始在亚拉巴马大学伯明翰分校进行放射科住院医生培训,那时正值他所谓的放射科学领域的“AI恐慌”高峰期。在计算机科学家Geoffrey Hinton宣称人们应停止培训成为放射科医生的仅仅两年后,这一时期开始。Hinton被称为人工智能之父,他预测这些系统很快将能够比人类更好地阅读和解释医学扫描图像和X光片。此后,放射科医学项目的申请数量大幅下降。 基于人工智能的工具越来越多地成为医疗保健的一部分,美国食品和药品监督管理局(FDA)已经授权使用超过500种这类工具。其中大多数与医学影像有关,用于改进图像质量、测量异常或标记检测结果以供后续跟踪。 调查显示,虽然许多医生知道临床AI工具的存在,但实际上只有很小一部分 (大约在10%到30%之间) 使用过它们,他们的态度从谨慎乐观到彻底不信任不等。荷兰乌得勒支大学医疗中心的医学创新实施专家Charisma Hehakaya说:“一些放射科医生对AI应用的质量和安全性存在疑虑。”即使AI工具能够完成它们的目标任务,仍不清楚这是否会转化为患者更好的医疗护理。但有一种被称为综合医学AI的方法似乎正在兴起。这些模型受到庞大数据集的训练,就像驱动ChatGPT和其他AI聊天机器人的模型一样。在吸收大量医学图像和文本数据后,这些模型可以适用于许多任务。尽管目前获得批准的工具执行特定功能,比如在计算机断层扫描(CT)中检测肺结节,但这些综合模型将更像医生,评估扫描中的每一种异常情况,并将其整合为一种诊断。 尽管现在的AI爱好者趋向避免大胆宣称机器将取代医生,但许多人认为,这些模型可以克服目前医学AI的某些限制,有朝一日可能在某些情况下超越医生。然而,这些新工具能够在实际临床护理中使用之前,还有漫长的道路需要走。 目前存在的限制 医学领域的人工智能工具充当从业者的辅助角色,例如通过快速浏览扫描图像并标记医生可能立即查看的潜在问题,这些工具有时表现很出色。Jordan Perchik记得有一次,在他值夜班的时候,一种AI分诊工具在凌晨3点为一名出现呼吸急促症状的患者标记了一张胸部CT扫描。他将这张扫描图像提上优先级,并同意AI的评估结果,该结果显示患者存在肺栓塞,这是一种可能致命且需要立即治疗的情况。如果没有被标记出来,这张扫描图像可能要等到当天晚些时候才会被评估。 但如果AI犯了错误,它也会产生相反的效果。Jordan Perchik说,最近他发现了一例AI没有标记出来的肺栓塞病例,他决定采取额外的审查步骤,最终证实了他的评估,但这减缓了他的工作进度。如果他决定相信AI并继续前进,那么这种情况可能会被漏诊。”许多已获批准的设备并不一定符合医生的需求,早期的AI医学工具是根据影像数据的可用性来开发的,因此一些应用程序是为常见且容易识别的疾病而建立的。 另一个问题是,这些AI工具倾向专注于特定任务,而不是全面解释医学检查——观察图像中可能相关的一切,考虑以前的结果和患者的临床病史。尽管专注于检测一些疾病具有一定价值,但它并不反映放射科医生真正的认知工作。 解决方案通常是增加更多基于AI的工具,但这也对医疗护理构成挑战,伦敦Google Health的临床研究科学家Alan Karthikesalingam表示。假如一个人接受常规乳腺X光检查,技术员可能会采用一种用于乳腺癌筛查的AI工具的辅助。如果发现异常,同一患者可能需要进行磁共振成像(MRI)扫描以确认诊断,而这可能需要另一个AI设备。如果诊断结果得到确认,那么病变将会通过手术移除,可能需要另一种AI系统来协助进行病理学分析。 许多医院并不了解监测AI性能和安全性所涉及的挑战,英国伯明翰大学研究医疗AI负责创新的临床研究员Xiaoxuan Liu表示。她和她的同事们确定了数千份医学成像研究,比较了深度学习模型的诊断性能与医疗保健专业人员的性能。对于该团队评估的69项诊断准确性研究,一个主要发现是,大多数模型未经真正独立于用于训练模型的信息的数据集进行测试。这意味着这些研究可能高估了模型的性能。 坚实的基础 为了解决医学领域AI工具的一些限制,研究人员一直在探索具备更广泛能力的医学人工智能。他们受到了像ChatGPT这样的革命性大型语言模型的启发。这个术语是由斯坦福大学的科学家们在2021年创造的,它描述了在广泛的数据集上进行训练的模型,这些数据集可以包括图像、文本和其他数据,使用一种称为自监督学习的方法。这些基础模型,也被称为基本模型或预训练模型,构成了后续可以适应执行不同任务的基础。 目前大多数医学AI设备是通过监督学习方法开发的。例如,使用这种方法训练一个模型来识别肺炎,需要专家分析大量的胸部X光片并将它们标记为“肺炎”或“非肺炎”,以教导系统识别与该疾病相关的模式。在基础模型中不需要大量图像的注释。例如,对于ChatGPT,使用大量文本进行训练,以训练一个通过预测句子中的下一个单词来学习的语言模型。同样,伦敦摩尔菲尔德眼科医院的眼科医生Pearse Keane及其同事开发的医学基础模型使用了160万张视网膜照片和扫描图像,以学习如何预测这些图像缺失部分应该是什么样子。在进行了这一预训练后,研究人员引入了几百张标记图像,使其能够学习特定的与视觉相关的疾病,如糖尿病性视网膜病变和青光眼。该系统在检测这些眼部疾病以及通过眼底血管微小变化检测出的心脏病和帕金森病等系统性疾病方面优于以前的模型,但该模型尚未在临床环境中进行测试。 Keane表示,基础模型对眼科学领域特别合适,因为几乎可以对眼部的每个部位进行高分辨率成像。而且有大量的这些图像数据可用于训练这种模型。人工智能将彻底改变医疗保健,而眼科学可以成为其他医学专业的示范。大型科技公司已经在投资使用多种图像类型的医学成像基础模型,包括皮肤照片、视网膜扫描、X光片和病理学切片,并整合电子健康记录和基因组数据。 今年6月,Google Research科学家们发表了一篇论文,介绍了他们称之为REMEDIS(具有自监督的强大和高效医学成像)的方法,与使用监督学习训练的AI工具相比,该方法能够将诊断准确性提高高达11.5%。研究发现,在对未标记图像的大型数据集进行预训练后,只需要少量标记图像就能达到这些结果。这项研究的共同作者之一,Karthikesalingam说:“我们的主要发现是,REMEDIS能够以非常高效的方式,只需很少的示例,学会如何在许多不同的医学图像中对许多不同的事物进行分类,包括胸部X光片、数字病理学扫描和乳腺X光检查。”次月,Google的研究人员在一篇预印本中描述了他们如何将这一方法与该公司的医学大型语言模型Med-PaLM相结合,该模型几乎可以像医生一样回答一些开放性的医学问题。结果表明,Med-PaLM Multimodal不仅可以解释胸部X光图像,还可以以自然语言起草医疗报告。 微软也在努力将语言和视觉整合到一个单一的医学AI工具中。今年6月,公司的科学家们推出了LLaVA-Med(生物医学大型语言和视觉助手),该模型在与从PubMed Central(一个公开可访问的生物医学文章数据库)提取的文本配对的图像上进行训练。微软Health Futures的生物医学AI研究负责人Hoifung Poon表示:“一旦你这样做,你就可以开始与图像进行对话,就像你在与ChatGPT交谈一样。” 这种方法的一个挑战是它需要大量的文本-图像对。 随着这些模型在越来越多的数据上进行训练,一些科学家乐观地认为它们可能能够识别人类无法识别的模式。AI工具可能在某些领域超越人类能力,比如使用数字病理学来预测免疫疗法对肿瘤的反应。 Karthikesalingam还指出,即使Google的医学成像AI取得了最佳结果,它仍然无法与人类相媲美。人类放射科医生的X光报告仍然被认为明显优于最先进的多模式综合医学系统。尽管基础模型似乎特别适合扩大医学AI工具的应用,但要展示它们可以安全用于临床护理还有很长的路要走。 毫无疑问,AI在放射科领域的作用将继续增长,与其说取代放射科医生,不如培训他们如何使用AI。
  • 《医学人工智能报告指南:系统评价和荟萃分析》

    • 来源专题:重大疾病防治
    • 编译者:蒋君
    • 发布时间:2024-04-24
    • 背景 人工智能 (AI) 领域在医学领域具有变革性潜力。然而,由于缺乏通用的报告指南,在确保该领域已发表研究的有效性和可重复性方面带来了挑战。 方法 基于对国际财团和监管利益相关者以及医学和医学信息学领域领先期刊要求的学术出版物和报告标准的系统审查,本分析纳入了 2009 年至 2023 年间发布的 26 份报告指南。指南按广度(一般或特定于医学领域)、潜在共识质量和目标研究阶段(临床前、转化、临床)进行分层,随后分析指南项目的重叠和变化。 结果 医学研究的人工智能报告指南在基础共识过程的质量、广度和目标研究阶段方面各不相同。一些指南项目(例如研究设计和模型性能报告)在指南中反复出现,而其他项目则特定于特定领域和研究阶段。 结论 我们的分析强调了报告指南在临床人工智能研究中的重要性,并强调了需要制定通用标准来解决当前指南中已确定的变化和差距。总体而言,这一全面的概述可以帮助研究人员和公共利益相关者加强质量标准,以提高医疗保健领域人工智能研究的可靠性、可重复性、临床有效性和公众信任度。这可以促进人工智能方法安全、有效和合乎道德地转化为临床应用,最终改善患者的治疗效果。