随着SARS-CoV-2病毒的新变种不断出现并在世界各地传播,公共卫生和研究界都强调有必要及时跟踪新的病毒突变。观察变异在哪里出现以及它们的流行程度,将有助于研究人员监测病毒是如何演变的,并设计实验来测试目前的疫苗、治疗方法和诊断方法针对新出现的变异的效果如何。
麻省理工学院和哈佛大学布罗德研究所的一个团队已经建立了一个强大的新工具来实现这一目标。这款名为COVID CG的浏览器基因组追踪器允许科学家在任何给定的时间点调查SARS-CoV-2病毒的全球遗传状况。它汇集了上传到GISAID数据库的所有已测序的SARS-CoV-2基因组,科学家们长期以来一直使用该数据库共享病毒遗传信息。通过COVID CG的交互式图形,用户可以检测正在出现的基因突变和病毒变种,监测在世界特定地区存在哪些突变和病毒基因组,以及它们的流行率随时间如何变化,并确定科学家应该针对哪些变异进行疫苗和治疗试验。
“我们需要数据从世界各地得到更好地理解这次大流行是如何发展的,以及疫苗、治疗,随着时间的推移和诊断需要调整以满足这些新兴变异,”艾琳娜Chan表示向量的博士后在广泛的工程集团,对一篇文章的第二作者在eLife描述COVID CG。
“我们正在提供一种工具,允许用户以一种相当直观和交互式的方式回答他们在跟踪SARS-CoV-2突变方面的问题,”Vector Engineering group主任、该论文的共同高级作者Ben Deverman说。
自该网站于2020年8月推出以来,已经有来自100多个国家的用户在使用该网站。德弗曼的团队与阿斯利康(AstraZeneca)合作,后者已与牛津大学(Oxford University)合作开发了COVID-19疫苗,这将使该团队能够为该工具添加更先进的功能,并提高其处理大量数据的能力。
GISAID增长
GISAID数据库包含40多万个已测序的SARS-CoV-2基因组。在COVID CG出现之前,想要监测病毒突变的科学家可以从GISAID下载数据,或者使用基于浏览器的工具来充分探索基因数据。
Deverman和他的团队为任何研究人员设计COVID CG,甚至是没有任何生物信息学专业知识的人。这项工作始于2020年5月,当时GISAID只有不到3.5万个SARS-CoV-2基因组。自那以后,该团队改进了COVID CG,使其能够处理现在GISAID中13到14g的数据。
COVID CG具有多种搜索功能和众多图表。例如,用户可以搜索像N501Y这样的突变,这种突变是在英国和南非首次检测到的变异中发现的,并在新闻中被广泛讨论。然后,用户可以根据突变在世界上出现的位置筛选数据,找出它在某个特定国家首次测序的时间,它同时发生的突变是什么,等等。这些图表是交互式的,允许深入研究数据。
“我们设计了这个网站,让它很容易浏览,”Albert Chen说,他是这项研究的第一作者,也是Deverman小组的计算助理。“这个网站的很多用途都来自于能够实时可视化海量数据。”
数据延迟
COVID CG从GISAID数据库中获取数据。然而,世界各地的实验室报告称,将数据存入GISAID的平均延迟时间为20至80天。
作者表示,即使在上传数据时,这些数据也可能存在偏差,可能会略微扭曲SARS-CoV-2的情况。例如,一些实验室专注于测序样品最有可能有感兴趣的突变。有些人可能会优先选择来自已检测到新变异并日益流行的地区(如英国)的旅行者的样本。
研究人员表示,了解SARS-CoV-2突变真实情况的最佳方式是政府资助的工作,以公正的方式支持对许多样本进行快速测序,并及时和公开地分享数据。他们补充说,GISAID的数据越最新、越有代表性,从COVID - CG收集到的答案就越有价值。
“这是病毒基因组数据的民主化。COVID CG是一种资源,每个人都可以自由、快速地使用。”“这只是大图景中的一小部分,全世界的科学家都在竭尽全力抗击这种流行病。”
支持这项研究的部分机构是国家神经疾病和中风研究所、国家精神健康研究所、布罗德研究所的斯坦利精神病学研究中心、麻省理工学院和哈佛大学布罗德研究所。