2月4日_加拿大团队基于机器学习的基因组分析,表明2019-nCoV与蝙蝠冠状病毒之间的联系
1.时间:2020年2月4日
2.机构或团队:加拿大西安大略大学、滑铁卢大学
3.事件概要:
截至2020年2月3日,2019年新型冠状病毒(2019- nCoV)已传播至27个国家,死亡362人,确诊病例超过17000例。很多研究将2019-nCoV与之前的SARS冠状病毒相比。2002年11月至2003年7月,全球确诊SARS病例8098例,死亡率为9.6%,死亡774例。仅中国大陆就有349人死亡,5327人确诊。尽管截至2月3日,此次2019-nCoV疫情的死亡率为2.2%,但仅仅几周内(2019年12月8日至2020年2月3日)确诊17000例病例令人震惊。考虑到相对较长的潜伏期,病例报告可能仍不准确。此次疫情暴发需要对病毒基因组序列进行快速阐明和分析,以便及时制定治疗计划。
文章中使用ML DSP和MLDSP-GUI对2019-nCoV进行分类,是一种使用机器学习(ML)和数字信号处理(DSP)进行基因组分析的无比对方法。利用二维数字表示(混沌博弈表示)将基因组序列映射到各自的基因组信号(离散数字序列)中。应用离散傅里叶变换对基因组信号进行幅度谱计算。利用皮尔森相关系数计算对距离矩阵。从距离矩阵构造特征向量,作为有监督机器学习算法的输入。采用10倍交叉检验法计算平均分类准确率得分。利用训练的分类器模型预测了29个2019-nCoV序列标签。该分类策略使用了5000多个基因组数据,并在领域到物种分类层次上测试了关联性。文中使用MLDSP-GUI进行的基于机器学习的无比对分析结果中,证实了之前蝙蝠起源的假设,并将2019-nCoV归类为Betacoronavirus内的Sarbecovirus。
*注,本文为预印本论文手稿,是未经同行评审的初步报告,其观点仅供科研同行交流,并不是结论性内容,请使用者谨慎使用。
4.附件:原文链接
https://www.biorxiv.org/content/10.1101/2020.02.03.932350v1