《递归发布第一个开源的SARS-CoV-2病毒形态成像数据集》

  • 来源专题:生物安全网络监测与评估
  • 编译者: yanyf@mail.las.ac.cn
  • 发布时间:2020-04-27
  • 盐湖城——(商业新闻)——Recursion,一家致力于药物发现工业化的数字生物公司,发布了它的开源RxRx19数据集,这是第一个SARS-CoV-2 (covid19)的人类细胞形态数据集。发布RxRx19的目的是迅速向世界各地的研究人员提供人类细胞形态数据和1600多个小分子,这些研究人员正在努力在抗击covid19大流行的斗争中取得进展。

    数据集来自实验,递归,与犹他州立大学合作,调查一个图书馆的治疗潜力1672年食品和药物管理局和欧洲药品单位或临床分期SARS-CoV-2化合物的调制效应在人类肾皮质细胞上皮(HRCE)。使用递归的专有深度学习神经网络处理图像,生成每个图像的高维特征,以识别不同的表型,这些表型也被公开共享。

    通过RxRx19,科学界的研究人员将获得305,520张5通道荧光显微镜图像和相应的深度学习嵌入,以分析或应用于他们自己的实验。从体外实验和有针对性的假设驱动的研究中得出的任何结果和结论都将有助于COVID-19科学数据的增长。

    “在‘递归’项目中,我们已经多次看到,人工智能与与目标无关的药物发现相结合,可以迅速揭示出那些通过传统方法难以发现的问题,”‘递归’项目的首席技术官本·马比(Ben Mabey)说。“RxRx19的发布为机器学习社区提供了一个前所未有的机会,让他们能够发现那些隐藏的洞见,而这些洞见在抗击全球流行病的战斗中是最有价值的。”除了当前的目的外,这个开源数据集还将帮助研究人员提高使用高含量成像技术进行复合疗效筛选的能力,这将产生积极的影响,远远超出当前危机的解决。”

    这些实验历时四周,从开始到结束,在USU生物安全等级3的设施中进行,然后由Recursion公司的数据科学家、工程师和机器学习科学家组成的团队进行分析,这些科学家目前正在远程工作。这一努力及时证明了递归灵活的、不确定目标的方法可以重点解决最紧迫的公共卫生问题。

    Recursion公司的联合创始人兼首席执行官克里斯·吉布森博士说:“我为我们团队的工作感到谦卑和自豪,他们在当前流感大流行的危机最严重的时候,连续几周每天都要花60英里的路程将设备和试剂运送到我们的合作伙伴那里。”“在这种情况下,在短短四周的时间里,就产生了超过30万张5频道的图片、一份初步的预印本手稿以及更多的东西,令人难以置信。”这既体现了递归团队的好斗性,也体现了我们平台的灵活性,可以快速适应探索生物学的广泛领域。这仅仅是个开始,未来还会有更多。”

    与去年发布的Recursion公司的RxRx1数据集相结合,RxRx19使得机器学习研究人员能够利用现代深度学习技术来连接两个相关的数据集,这两个数据集展示了完全不同的生物现象,但共享了一致的基于图像的方法。两个数据集发布都是RxRx的一部分。ai计划为机器学习社区发布一系列开源生物和化学数据。

相关报告
  • 《国际gnomAD联盟发布了它的第一个主要研究》

    • 来源专题:人类遗传资源和特殊生物资源流失
    • 编译者:yanyf@mail.las.ac.cn
    • 发布时间:2020-06-01
    • 在过去的8年里,基因组聚合数据库联盟(gnomAD)(以及它的前身外显子组聚合联盟,简称ExAC)一直在与世界各地的遗传学家合作,汇编和研究来自世界各地人群的超过12.5万个外显子和1.5万个全基因组。 现在,在《自然》、《自然通讯》和《自然医学》杂志上发表的七篇论文中,gnomAD联盟的科学家描述了他们从数据库中获得的第一组发现,展示了这个庞大数据集的威力。一起研究: 提供一个更完整的目录和对一类被称为功能损失(LoF)变异的罕见遗传变异的理解,这被认为是破坏基因编码的蛋白质; 介绍一种尚未被充分研究但很重要的遗传变异——结构变异——的最大综合参考图; 展示工具如何解释独特的变异形式和变异的生物背景,可以帮助临床遗传学家试图诊断病人罕见的遗传疾病;和 说明像gnomAD这样的人口规模数据集如何帮助评估药物靶点。 麻省理工学院布罗德研究所(Broad Institute of MIT)和哈佛大学及麻省总医院(Harvard and Massachusetts General Hospital, MGH)的研究人员与来自英国帝国理工学院(Imperial College London)、直接面向消费者的遗传学公司23andMe以及其他机构的科学家共同撰写了所有这些研究的第一作者或共同高级作者。国际上有100多名科学家和团体向该联盟提供了数据和/或分析工作。 “这些研究发现的第一个有效波的gnomAD财团,”丹尼尔。麦克阿瑟说科学gnomAD项目的领导,六个研究的高级作者,一个研究所成员计划在广泛的医疗和种群遗传学研究所,现在人口基因组学中心主任Garvan医学研究所的,在澳大利亚默多克儿童研究所的。“这个数据库的强大之处在于其庞大的规模和人口的多样性,而我们能够做到这一点,要感谢为其提供数据的研究人员,以及那些提供研究的研究参与者的慷慨解囊。” ”在某种意义上,gnomAD是财团,财团的产物在底层数据代表的工作和贡献许多组织已经收集外显子组和基因组序列的理解人类生物学,”康拉德•Karczewski说,《自然》杂志的论文第一作者收集的旗舰和广泛,MGH的分析和计算生物学家平移遗传单位。“每一篇论文都代表着一个人给数据集带来了一个新的角度,他说,‘我有一个想法,我们如何能把所有这些工作,’并为遗传学社区创造了一个新的资源。”看着它展开真是太棒了。” GNOMAD LOOKBACK 麦克阿瑟和他在Broad和MGH的同事们先后建立了ExAC和gnomAD,以扩展1000个基因组项目(1000 genome Project)和其他项目的工作。1000个基因组项目是首个为人类基因变异分类的大规模国际项目。 麦克阿瑟回忆道:“2012年,我的实验室对罕见疾病患者的基因组进行测序,发现现有的正常变异目录不够大或不够多样化,不足以帮助我们解释我们所看到的基因变化。”“与此同时,我们在世界各地的同事对成千上万的人进行了测序,以研究常见的、复杂的疾病。所以我们着手把这些数据集放在一起,为罕见疾病研究创建一个参考数据集。” ExAC于2014年10月发布了首个完整的exome数据集。然后,它开始收集整个基因组数据,演变成gnomAD联盟,并在2017年2月发布了gnomAD v1.0。 随后发布的gnomAD着重于增加外泌体和基因组的数量、数据中突出显示的变异的数量以及数据集的多样性。 新发表的论文基于gnomAD v2.1.1数据集,该数据集包括来自超过2.5万人的东亚和南亚血统、近1.8万名拉美血统和1.2万名非洲或非洲裔美国人血统的基因组和外显子。 综合目录 七篇论文中有两篇展示了大量的基因组数据集如何帮助研究人员更多地了解罕见或未研究的遗传变异类型。 这项由卡尔切夫斯基和麦克阿瑟领导的旗舰研究发表在《自然》杂志上,描述了gnomAD和地图的功能缺失(LoF)变异:基因变化被认为是完全扰乱蛋白质编码基因的功能。作者在gnomAD数据集中识别了超过443,000个LoF变体,大大超过了以前的所有目录。通过比较这些罕见变异的数量在每一个基因与新模式的预测人类基因的突变率,作者也能够分类所有蛋白质编码基因据他们是多么宽容的颠覆性突变,基因是如何可能导致重大疾病时基因变化而中断。这个新的分类系统精确地定位了那些更可能与严重疾病有关的基因,比如智力残疾。 “gnomAD目录为我们提供了迄今为止最好的基因对变异的敏感性图谱,并提供了支持常见和罕见疾病基因发现的资源,”Karczewski解释说。 当Karczewski和MacArthur的研究集中于小的变异(点突变、小的插入或删除等)时,研究生Ryan Collins、Broad联合科学家Harrison Brand、研究所成员Michael Talkowski和同事使用gnomAD探索结构变异。这类基因组变异包括复制、删除、逆转录和涉及较大DNA片段的其他变化(通常大于50-100个碱基长)。他们的研究也发表在《自然》杂志上,介绍了gnomAD- sv,这是一个在近15000个gnomAD基因组中发现的超过43.3万个结构变异的目录。gnomAD-SV中的变体代表了大多数已知的主要结构变体类别,并共同形成了迄今为止最大的结构变体图。 塔尔科夫斯基说:“众所周知,在全基因组数据中识别结构变异非常困难,而且以前从未进行过这种规模的研究。”塔尔科夫斯基也是麻省总医院基因组医学中心的教员。“但它们改变的基因组个体碱基比任何其他形式的变异都多,是人类进化和疾病的既定驱动因素。” 他们的调查得出了几个令人惊讶的结果。例如,作者发现,在平均个体基因组中,至少有25%的罕见LoF变异实际上是结构变异,许多人携带的是应该是有害或有害的结构改变,但没有预期的表型或临床结果。 他们还指出,许多基因对复制和删除同样敏感;也就是说,从进化的角度来看,获得一个或多个基因拷贝可能和失去一个一样不受欢迎。 塔尔科夫斯基说:“通过在gnomAD中建立这个目录,我们学到了很多东西,但我们显然只了解了基因组结构对生物学和疾病的影响的皮毛。” 更好的诊断工具 其中三篇论文揭示了gnomAD对不同类型的遗传变异和变异发生的细胞环境的深入分类,可以帮助临床遗传学家更准确地确定给定的变异是否可能对患者具有保护作用、中性作用或有害作用。 在《自然》杂志的一篇论文中,Beryl Cummings,一个前Broad/MGH研究生,现在在Maze Therapeutics, MacArthur,和他的同事发现,基于组织的基因片段表达的差异可以改变这些基因片段中变异对生物和疾病风险的下游影响。该团队结合了gnomAD和基因型组织表达(GTEx)项目的数据,开发了一种利用这些差异来评估变异的临床意义的方法。 在《自然通讯》杂志上,麦克阿瑟、研究生王清波和合作者调查了多核核苷酸变异——由两个或两个以上的邻近碱基对变化共同遗传而成的变异。这些变异可能会产生复杂的影响,而这项研究首次尝试系统地对这些变异进行分类,检查它们在整个基因组中的分布,并预测它们对基因结构和功能的影响。 自然通信和在一个单独的研究中,麦克阿瑟,尼古拉Whiffin和伦敦帝国学院的James制品,和同事的影响进行了探讨DNA基因的5 '未翻译区域中发生变异,这是位于细胞的转录机制之前,开始阅读一个基因的蛋白质编码的基因。这些区域的变异可以欺骗细胞开始在错误的位置读取基因,但这在以前还没有得到很好的证明。 “临床实验室每天都在使用gnomAD,”临床遗传学家海蒂·雷姆(Heidi Rehm)说;博德公司MPG研究所成员,博德公司临床研究测序平台医学主任;MGH医学部首席基因组学官;与布罗德研究所gnomAD指导委员会成员Mark Daly共同担任主席。“这些研究中的方法已经帮助我们更好地解释病人的基因测试结果。” 指导药物开发 剩下的两项gnomAD研究描述了多样性、人群规模的遗传数据如何帮助研究人员评估和选择最佳药物靶点。 2018年,布罗德联合研究所的科学家埃里克·米尼克尔(Eric Minikel)在他的研究博客上沉思了一下,关于具有自然发生的预测LoF变异的基因是否可以用来评估药物靶向这些基因的安全性。他写道,如果自然灭活的基因似乎没有有害影响,或许可以用药物安全地抑制该基因。这篇博文成为了《自然》杂志的一篇论文的基础,米尼克尔、麦克阿瑟和他的同事利用gnomAD数据集来探究这个问题。他们提出了在药物开发过程中结合LoF变异的方法。 利用专业知识广泛,迈克尔·j·福克斯基金会发起的Whiffin帝国理工学院之间的合作,麦克阿瑟,广大博士后Irina Armean, 23 andme的亚伦Kleinman和保罗炮,和其他人使用LoF变体在gnomAD编目,英国生物库,和23 andme研究的潜在安全负债减少LRRK2基因的表达,这与帕金森病的风险。在《自然医学》杂志上,他们利用这些数据预测,降低LRRK2蛋白水平或部分阻断该基因活性的药物不太可能产生严重的副作用。 “我们已经在gnomAD中记录了大量的基因干扰变异,”麦克阿瑟说。“通过这两项研究,我们已经展示了如何利用这些变异来阐明和评估潜在的药物靶点。” 日益增长的影响 从一开始,所有数据的公共共享就是gnomAD项目的核心原则。这七篇论文背后的数据在2016年通过gnomAD浏览器公开发布,没有使用或出版限制。 “这一资源已经对医学研究和临床实践产生了广泛的影响,证明了基因组数据共享和聚合的不可思议的价值,”麦克阿瑟说。“自从我们提供数据以来,已经有超过350个独立的研究使用gnomAD来研究癌症易感性、心血管疾病、罕见的遗传疾病,以及更多其他方面。 “但我们离饱和的发现或解决不同的解释还很远,”他补充说。“该联盟的下一步工作将集中于增加这些资源的规模和种群多样性,并将由此产生的大规模遗传数据集与临床信息联系起来。” 国家普通医学科学研究所为gnomAD的开发提供了支持;国家糖尿病、消化和肾脏疾病研究所;国家人类基因组研究所;国家精神卫生研究所;国家心肺血液研究所;维康信托基金、生物素制药公司和赛诺菲-健赞公司。提供的额外支持gnomAD研究是国家研究资源中心国家医学转化中心,尤尼斯•肯尼迪•施莱佛国立儿童健康和人类发展研究所,英国医学研究理事会,Rosetree信托,迈克尔·j·福克斯帕金森氏症研究基金会,和其他来源。
  • 《SARS-CoV-2在第一次大流行期间是如何在大波士顿地区传播的》

    • 来源专题:人类遗传资源和特殊生物资源流失
    • 编译者:yanyf@mail.las.ac.cn
    • 发布时间:2020-09-09
    • 来自麻省理工学院和哈佛大学的布罗德研究所、马萨诸塞州总医院、马萨诸塞州公共卫生部和波士顿无家可归者医疗保健项目的新数据描述了SARS-CoV-2病毒是如何进入波士顿地区的,以及某些事件是如何塑造了该地区的流行轨迹。这些数据在medRxiv的手稿中有描述,在Nextstrain.org的视觉叙述概述中也有描述。 今天,我们发布了441个高质量的SARS-CoV-2基因组,加上我们在6月份首次发布的基因组,从1月底到5月初,从波士顿地区到目前为止,我们总共发布了772个基因组。我们的数据集包括了疫情早期的几乎所有病例,以及马萨诸塞州第一波疫情的密集采样,为美国疫情最严重的地区之一SARS-CoV-2的出现和扩大提供了一个深入的视角。 这些数据的两个特点尤其引人注目。首先是病毒在2020年2月初到5月初这三个月的时间里进入马萨诸塞州的绝对次数。我们估计有80种不同的引种,大多来自美国其他地方和欧洲,但包括来自四大洲的来源。引入的确切数量和来源尚不确定(我们缺乏关于在世界许多地方存在何种病毒变异的良好遗传数据),但引入的数量显然很多。3月份,由于旅行减少和各种控制措施的实施,新引进的数量有所下降。 第二个引人注目的特征是,单一感染的影响在流行病的轨迹上是多么多变。人们广泛报道了COVID-19中“过度传播事件”的重要性,即一个人感染过多的其他人。这项研究详细描述了马萨诸塞州发生的两起超级传播事件,强调了这一点,但也显示了影响的多样性。 其中一个扩散性事件发生在一个熟练的护理设施内。作为预防措施,所有的居民和大部分工作人员在计划搬迁之前都接受了测试。最终,85%的居民和37%的工作人员检测结果呈阳性。对这些感染的基因组分析显示,尽管没有怀疑COVID-19,但该病毒曾三次进入该社区——但其中只有一次导致了90%以上的感染。这些病例中有限的遗传多样性表明,在该设施中传播非常迅速。 另一场超级传播事件与2月份的一次国际商务会议有关。在这种情况下,有基因证据表明,是一个人将病毒(可能是最近从欧洲传入的)带入了事件。 在这两种超级传播事件中,一个人可能在几天内感染了几十个人。 但这两件事的后果却截然不同。 护理设施内的疫情对患者来说是毁灭性的,但大约在4月初发生在一个相当孤立的人群中,当时对COVID-19的了解程度很高,并采取了预防措施。结果,它几乎没有在设施外引起传播。相比之下,会议期间的疫情爆发发生在2月底的高度流动人口中,并蔓延到更大的社区,在我们数据集中的后期病例中,至少占20%,高达40%。利用其他研究人员的遗传数据,我们还可以追踪病毒随后在美国其他几个州以及斯洛伐克、瑞典、新加坡和澳大利亚等地的传播情况。 在研究的其他地方,我们发现SARS-CoV-2——包括来自会议爆发的病毒——多次进入波士顿地区的无家可归人群,在避难所内迅速广泛传播。我们还调查了两个假定的医院集群,并证明了近实时测序如何为感染控制实践提供信息。 我们的发现提供了具体的例子,说明传播如何能够超越最初受影响的个人,并感染明显没有联系的地点、人口和事件。除了深入了解波士顿地区正在发生的紧急情况外,它还展示了基因组数据在帮助理解和追踪SARS-CoV-2的演变和传播方面的力量,这在我们重新开放学校和社区的进程中尤为重要。Broad团队一直在与我们的临床和公共卫生伙伴实时分享序列数据和见解。 我们还在Broad Institute的Terra平台上公开了数据和分析工作流,这是一个安全、开源的云环境,用于存储、分析和共享基因组和其他生物医学数据(在严格的许可控制下)。我们正与布罗德数据科学平台合作,将Terra用于病毒基因组数据和基因组监测应用,支持和加快世界各地公共卫生研究人员和从业者使用这一方法,帮助他们应对COVID-19和未来突发公共卫生事件。这里使用的数据集和分析工作流可以在这里找到。基因组数据也在NCBI GenBank上公开分享。