《COVID-19的机器学习需要全球协作和数据共享》

  • 来源专题:生物安全知识资源中心 | 领域情报网
  • 编译者: hujm
  • 发布时间:2020-06-02
  • Nature Machine Intelligence 期刊于5月22日发表了法国巴黎第七大学UDR医学院等机构的评论文章“Machine Learning for COVID-19 needs global collaboration and data-sharing”。文章称,COVID-19大流行给社会带来了历史性挑战。大量的数据需要机器学习(ML)来改善和加速COVID-19的诊断、预后和治疗。但是,必须采用全局和开放的方法来避免这些应用程序中的陷阱。
    文章表示,尽管COVID-19的空前传播速度在一定程度上源于日益全球化的社会,但全球科学数据共享也为抗击这种疾病提供了有希望的工具。在过去的四个月中,已经发表了超过12,400篇COVID-19相关的文章,这些研究大多数遵循标准的科学方法,即一次在受控样本上研究一些假设。尽管这种方法无可否认是成功的,但它却面临着两个众所周知的挑战,即它需要大量的专业知识和人力投入以及一次只考虑少数几个假设。本文中研究人员描述了ML可以补充COVID-19大流行中的标准统计方法的两个领域,讨论了这种ML方法所带来的实际挑战,并倡导全球协作和数据共享。
    文章表示,ML可以减轻医学专家的工作量。ML技术可以减少进行自动化分析所需的时间,并允许人工智能从业人员为临床医生提供支持。但是,目前仅限于相对较小的队列使用ML医学图像来诊断或预后COVID-19。因此,这些研究无法很好地控制算法可能从胸部图像中检测到的许多混杂因素(例如年龄、肥胖)。一种有前途的策略是从相似图像的更大数据集中预训练ML模型,从而学习要计算的通用特征,然后可以使用这些特征来促进从COVID-19图像进行训练。此外,ML可以加快治疗筛选。文章指出,标准方法一次只考虑少数假设。例如,在已注册的用于识别COVID-19的治疗方法的1200多个临床试验中,大多数集中于一种或多种药物的独特选择,这些药物是根据相关性的不同而手工选择的。ML可以通过同时考虑几种潜在的抗病毒药物,依靠DNA序列和/或蛋白质结构(包括SARS-CoV-2的潜在药物结合位点)来预测药物与病毒之间的相互作用,从而拓宽此类筛选和选择过程。文章表示,尽管如此,不应忽略基于ML的治疗研究的挑战。首先,ML无法加速基础生物学,甚至蛋白质折叠的预测仍然是一个非常困难的问题。对于疫苗,有一个必要的等待期。其次,一个主要的伦理问题是绕过适当的临床试验的诱惑,机器学习算法可能会大大增加这种风险。
    文章表示,总的来说,机器学习有望补充而不是取代用于诊断、预后和治疗的标准方法。目前有两个主要挑战限制了机器学习的潜在影响。首先,医疗保健专业人员必须意识到,像人类一样,机器学习很容易受到系统性偏差的影响(例如,扫描设备、患者年龄等)。其次,缺乏大型医疗、临床、影像和基因公共资源库,导致每个机构都在自己的小型数据集上本地开发自己的分析管道,这极大地限制了结果的可推广性。文章指出,国际严重急性呼吸系统和新兴感染联合会(ISARIC)计划旨在提供有关COVID-19患者的大型共享临床数据库。其他机构也签署了数据共享协议,以确保广泛,快速地共享数据,并且可以为新的假设提供依据,但是这仍然是零碎的,因此难以充分利用数据共享大流行期间每天产生的数据。标准和ML模型的质量不仅直接取决于此类数据库的大小、质量和代表性,而且对于支持跨不同国家和医疗机构类型进行有效干预至关重要。

  • 原文来源:https://www.nature.com/articles/s42256-020-0181-6
相关报告
  • 《5月22日_COVID-19的机器学习需要全球协作和数据共享》

    • 来源专题:COVID-19科研动态监测
    • 编译者:zhangmin
    • 发布时间:2020-05-24
    • 1.时间:2020年5月22日 2.机构或团队:巴黎第七大学UDR医学院、法国巴黎皮蒂埃-萨尔佩特里埃尔医院、法国Bichat-Claude-Bernard医院、法国卫生和医学研究所、加拿大麦吉尔大学、加拿大Facebook AI 实验室等 3.事件概要: Nature Machine Intelligence 期刊于5月22日发表了法国巴黎第七大学UDR医学院等机构的评论文章“Machine Learning for COVID-19 needs global collaboration and data-sharing”。文章称,COVID-19大流行给社会带来了历史性挑战。大量的数据需要机器学习(ML)来改善和加速COVID-19的诊断、预后和治疗。但是,必须采用全局和开放的方法来避免这些应用程序中的陷阱。 文章表示,尽管COVID-19的空前传播速度在一定程度上源于日益全球化的社会,但全球科学数据共享也为抗击这种疾病提供了有希望的工具。在过去的四个月中,已经发表了超过12,400篇COVID-19相关的文章,这些研究大多数遵循标准的科学方法,即一次在受控样本上研究一些假设。尽管这种方法无可否认是成功的,但它却面临着两个众所周知的挑战,即它需要大量的专业知识和人力投入以及一次只考虑少数几个假设。本文中研究人员描述了ML可以补充COVID-19大流行中的标准统计方法的两个领域,讨论了这种ML方法所带来的实际挑战,并倡导全球协作和数据共享。 文章表示,ML可以减轻医学专家的工作量。ML技术可以减少进行自动化分析所需的时间,并允许人工智能从业人员为临床医生提供支持。但是,目前仅限于相对较小的队列使用ML医学图像来诊断或预后COVID-19。因此,这些研究无法很好地控制算法可能从胸部图像中检测到的许多混杂因素(例如年龄、肥胖)。一种有前途的策略是从相似图像的更大数据集中预训练ML模型,从而学习要计算的通用特征,然后可以使用这些特征来促进从COVID-19图像进行训练。此外,ML可以加快治疗筛选。文章指出,标准方法一次只考虑少数假设。例如,在已注册的用于识别COVID-19的治疗方法的1200多个临床试验中,大多数集中于一种或多种药物的独特选择,这些药物是根据相关性的不同而手工选择的。ML可以通过同时考虑几种潜在的抗病毒药物,依靠DNA序列和/或蛋白质结构(包括SARS-CoV-2的潜在药物结合位点)来预测药物与病毒之间的相互作用,从而拓宽此类筛选和选择过程。文章表示,尽管如此,不应忽略基于ML的治疗研究的挑战。首先,ML无法加速基础生物学,甚至蛋白质折叠的预测仍然是一个非常困难的问题。对于疫苗,有一个必要的等待期。其次,一个主要的伦理问题是绕过适当的临床试验的诱惑,机器学习算法可能会大大增加这种风险。 文章表示,总的来说,机器学习有望补充而不是取代用于诊断、预后和治疗的标准方法。目前有两个主要挑战限制了机器学习的潜在影响。首先,医疗保健专业人员必须意识到,像人类一样,机器学习很容易受到系统性偏差的影响(例如,扫描设备、患者年龄等)。其次,缺乏大型医疗、临床、影像和基因公共资源库,导致每个机构都在自己的小型数据集上本地开发自己的分析管道,这极大地限制了结果的可推广性。文章指出,国际严重急性呼吸系统和新兴感染联合会(ISARIC)计划旨在提供有关COVID-19患者的大型共享临床数据库。其他机构也签署了数据共享协议,以确保广泛,快速地共享数据,并且可以为新的假设提供依据,但是这仍然是零碎的,因此难以充分利用数据共享大流行期间每天产生的数据。标准和ML模型的质量不仅直接取决于此类数据库的大小、质量和代表性,而且对于支持跨不同国家和医疗机构类型进行有效干预至关重要。 4.附件: 原文链接:https://www.nature.com/articles/s42256-020-0181-6
  • 《COVID-19住院时间:系统评价和数据综合》

    • 来源专题:新发突发疾病(新型冠状病毒肺炎)
    • 编译者:蒋君
    • 发布时间:2020-09-28
    • 背景 随着全球医院和重症监护病房(ICU)对医疗保健需求的迅速增长,COVID-19大流行给卫生系统带来了前所未有的压力。随着大流行的升级,确定对医疗资源(床,人员,设备)的最终需求已成为许多国家的重要优先事项。预测未来需求需要估算COVID-19患者需要不同水平的医院护理的时间。 方法 我们对医院和ICU中COVID-19患者的住院时间(LoS)的早期证据进行了系统的回顾。随后,我们开发了一种生成LoS分布的方法,该方法结合了多个研究中报告的汇总统计数据,并考虑了样本大小的差异。应用这种方法,我们提供了来自中国和其他地区研究的全部医院和ICU LoS分布,供社区使用。 结果 我们确定了52项研究,其中大部分来自中国(46/52)。在45项研究中,中国医院的LoS中位数为4至53天,中国以外为4至21天。8项研究报告了ICU LoS,中国境内外各有4项研究,中位数分别为6到12天和4到19天。我们的汇总分布图显示,中国的医院平均住院时间为14(IQR 10–19)天,而中国以外地区为5(IQR 3–9)天。对于ICU,汇总分布更相似(中国的中位数(IQR)为8(5-13)天,中国以外为7(4-11)天)。出院状态存在明显的差异,活着的患者的LoS比入院期间死亡的患者更长,但与研究日期没有趋势。 结论 在中国,COVID-19患者的住院时间似乎比其他地方更长。可以通过国家之间的入院和出院标准差异以及大流行期间的不同时间来解释。在没有本地数据的情况下,此处提供的合并的总体LoS分布可用于对床需求进行建模,以进行应急计划,然后使用此处介绍的新方法进行更新,这是因为在中国以外出现了更多有关汇总统计的研究。