3月2日,bioRxiv预印本平台发表了来自MRIGlobal研究团队的题为“Vorpal: A Novel RNA Virus Feature-Extraction Algorithm Demonstrated Through Interpretable Genotype-to-Phenotype Linear Models”的文章。
文章指出,在基因组序列分析中通常选择无比对方法,因为它相比于基于比对的方法具有更快的分析速度,并在距离比较和分类学中应用广泛。这些方法通常依赖于切除输入序列的K长度子串(K-mers)。在机器学习中,基于K-mer的特征向量已成功应用于从扩增子测序分类到抗菌素耐药基因预测模型中。可以将其类比为自然语言处理和计算机视觉中用于文档和图像分类的词袋模型。自然语言处理中的特征提取技术早先已应用于基因组数据。但是,由于高序列间差异和K-mers的精确匹配要求,“词袋”方法在RNA病毒空间数据上的应用并不可靠。
为了使词袋法的简便性与RNA病毒空间变异伴随的复杂性协调一致,本文设计了一种以客观反映潜在生物学现象的方式并解决K-mers不可靠问题的方法。该研究算法Vorpal允许构建以聚类K-mers为输入向量,并通过正则化将二进制表型的稀疏预测因子作为输出的可解释线性模型。在本文中,通过拟合三个单独的RNA病毒进化枝中二元表型的核苷酸水平的基因组基序预测因子来证明Vorpal的有效性;人类病原体与在甲型流感病毒中引起原发性非人类病原体,在埃博拉病毒中引起出血热与非出血性发热以及在甲型流感中人类宿主与非人类宿主的关系。该代码可从https://github.com/mriglobal/vorpal下载。
*注,本文为预印本论文手稿,是未经同行评审的初步报告,其观点仅供科研同行交流,并不是结论性内容,请使用者谨慎使用。