背景:冠状病毒可以越过物种屏障并感染患有严重呼吸道综合症的人类。具有蝙蝠潜在起源的SARS-CoV-2在中国仍在流行。在这项研究中,提出了一种预测模型,以评估非人源冠状病毒的感染风险,以进行预警。方法:于2020年1月29日从中国国家基因组学数据中心的2019年新型冠状病毒资源(2019nCoVR)数据库中收集了2666种冠状病毒的刺突蛋白序列。总共507例人源病毒被视为阳性样本,而2159例非人源病毒被视为阳性样本。人源病毒被视为阴性。为了捕获刺突蛋白的关键信息,使用了三种特征编码算法(氨基酸组成,AAC;基于并行相关的伪氨基酸组成,PC-PseAAC和G间隙二肽组成,GGAP)来训练41个随机森林模型。通过多维缩放方法确定了具有最佳性能的最佳功能,该方法用于探索人类冠状病毒的模式。结果:10倍交叉验证结果表明,使用GGAP(g = 3)功能可达到良好的性能。该预测模型的最大ACC为98.18%,而Matthews相关系数(MCC)为0.9638。发现了七个人类冠状病毒簇(229E,NL63,OC43,HKU1,MERS-CoV,SARS-CoV和SARS-CoV-2)。 SARS-CoV-2的簇与SARS-CoV的簇非常接近,这表明这两种病毒具有相同的人类受体(血管紧张素转换酶II)。距离曲线上的大缺口表明,SARS-CoV-2的起源尚不清楚,应该在野外连续进行进一步的监视。 SARS-CoV的平滑距离曲线表明,它的近亲在自然界中仍然存在,公共健康仍然像往常一样受到挑战。结论:最佳特征(GGAP,g = 3)在预测感染风险方面表现良好,可用于以简单,快速和大规模的方式探索进化动态。该研究对于现场监测冠状病毒的基因组突变可能是有益的。