《3月2日_MRIGlobal公司通过基因型表型模型展示一种RNA病毒特征抽取算法》

  • 来源专题:COVID-19科研动态监测
  • 编译者: xuwenwhlib
  • 发布时间:2020-03-04
  • 3月2日_MRIGlobal公司通过基因型表型模型展示一种RNA病毒特征抽取算法

    1.时间:2020年3月2日

    2.机构或团队:美国MRIGlobal

    3.事件概要:

    3月2日,bioRxiv预印本平台发表了来自MRIGlobal研究团队的题为“Vorpal: A Novel RNA Virus Feature-Extraction Algorithm Demonstrated Through Interpretable Genotype-to-Phenotype Linear Models”的文章。

    文章指出,在基因组序列分析中通常选择无比对方法,因为它相比于基于比对的方法具有更快的分析速度,并在距离比较和分类学中应用广泛。这些方法通常依赖于切除输入序列的K长度子串(K-mers)。在机器学习中,基于K-mer的特征向量已成功应用于从扩增子测序分类到抗菌素耐药基因预测模型中。可以将其类比为自然语言处理和计算机视觉中用于文档和图像分类的词袋模型。自然语言处理中的特征提取技术早先已应用于基因组数据。但是,由于高序列间差异和K-mers的精确匹配要求,“词袋”方法在RNA病毒空间数据上的应用并不可靠。

    为了使词袋法的简便性与RNA病毒空间变异伴随的复杂性协调一致,本文设计了一种以客观反映潜在生物学现象的方式并解决K-mers不可靠问题的方法。该研究算法Vorpal允许构建以聚类K-mers为输入向量,并通过正则化将二进制表型的稀疏预测因子作为输出的可解释线性模型。在本文中,通过拟合三个单独的RNA病毒进化枝中二元表型的核苷酸水平的基因组基序预测因子来证明Vorpal的有效性;人类病原体与在甲型流感病毒中引起原发性非人类病原体,在埃博拉病毒中引起出血热与非出血性发热以及在甲型流感中人类宿主与非人类宿主的关系。该代码可从https://github.com/mriglobal/vorpal下载。

    *注,本文为预印本论文手稿,是未经同行评审的初步报告,其观点仅供科研同行交流,并不是结论性内容,请使用者谨慎使用。

    4.附件:

    原文链接https://www.biorxiv.org/content/10.1101/2020.02.28.969782v1

  • 原文来源:原文链接https://www.biorxiv.org/content/10.1101/2020.02.28.969782v1
相关报告
  • 《MRIGlobal公司通过基因型表型模型展示一种RNA病毒特征抽取算法》

    • 来源专题:生物安全知识资源中心 | 领域情报网
    • 编译者:hujm
    • 发布时间:2020-03-09
    • 3月2日,bioRxiv预印本平台发表了来自MRIGlobal研究团队的题为“Vorpal: A Novel RNA Virus Feature-Extraction Algorithm Demonstrated Through Interpretable Genotype-to-Phenotype Linear Models”的文章。 文章指出,在基因组序列分析中通常选择无比对方法,因为它相比于基于比对的方法具有更快的分析速度,并在距离比较和分类学中应用广泛。这些方法通常依赖于切除输入序列的K长度子串(K-mers)。在机器学习中,基于K-mer的特征向量已成功应用于从扩增子测序分类到抗菌素耐药基因预测模型中。可以将其类比为自然语言处理和计算机视觉中用于文档和图像分类的词袋模型。自然语言处理中的特征提取技术早先已应用于基因组数据。但是,由于高序列间差异和K-mers的精确匹配要求,“词袋”方法在RNA病毒空间数据上的应用并不可靠。 为了使词袋法的简便性与RNA病毒空间变异伴随的复杂性协调一致,本文设计了一种以客观反映潜在生物学现象的方式并解决K-mers不可靠问题的方法。该研究算法Vorpal允许构建以聚类K-mers为输入向量,并通过正则化将二进制表型的稀疏预测因子作为输出的可解释线性模型。在本文中,通过拟合三个单独的RNA病毒进化枝中二元表型的核苷酸水平的基因组基序预测因子来证明Vorpal的有效性;人类病原体与在甲型流感病毒中引起原发性非人类病原体,在埃博拉病毒中引起出血热与非出血性发热以及在甲型流感中人类宿主与非人类宿主的关系。该代码可从https://github.com/mriglobal/vorpal下载。 *注,本文为预印本论文手稿,是未经同行评审的初步报告,其观点仅供科研同行交流,并不是结论性内容,请使用者谨慎使用。
  • 《2月25日_首个完整的冠状病毒模型展示》

    • 来源专题:COVID-19科研动态监测
    • 编译者:zhangmin
    • 发布时间:2021-03-01
    • 据EurekAlert!网站2月25日消息,芝加哥大学的研究人员利用超级计算机首次开发出了一个完整的SARS-CoV-2病毒体的新的多尺度粗粒度模型,包括其核心遗传物质和病毒外壳。该模型为科学家提供了利用该病毒“漏洞”的新方法的可能性。相关研究于2020年11月发表在Biophysical Journal上。 该项研究的早期结果显示了病毒表面的刺突蛋白是相互连接的,当一种蛋白质移动时,另一种蛋白质也会相应移动。刺突蛋白的这种协同运动有助于了解冠状病毒如何探索和检测潜在宿主细胞的ACE2受体。 该团队开发的整体模型首先建立了SARS-CoV-2病毒的四个主要结构元素的原子模型:刺突、膜、核衣壳和包膜蛋白。然后对这些原子模型进行模拟和简化,以生成完整的粗粒度模型。 该团队利用了德克萨斯大学奥斯汀分校的学高级计算中心(TACC)运营的Frontera超级计算机上生成的刺突蛋白的开态和闭态的全原子动力学信息,以及其他数据。Frontera系统由美国国家科学基金会(NSF)资助。 Frontera提供给研究人员的这类信息有助于理解病毒感染的基本机制,还有助于设计更安全、更好的药物来治疗和预防这种疾病。 原文链接:https://www.eurekalert.org/pub_releases/2021-02/uota-fcc022521.php