该研究为完善HIV聚类分析方法,阐明了可能影响HIV聚类分析聚类结局的相关变量。在401个HIV-1C接近完整的基因组序列和从LANL HIV数据库中获得的亚基因组区域来比较HIV的聚集程度。滑动窗口分析是基于99个1000bp的窗口和45个2000bp的窗口。研究对HIV聚类程度和病毒序列长度、变异信息点数量间的潜在关系进行了分析。接近完整长度的HIV基因序列,HIV聚集程度最大。在最大似然分析引导阈值为0.80时,58.9%的接近完整长度HIV-1C基因序列,和仅15.5%的部分波尔序列(ViroSeq)存在于集群中。HIV聚集程度在2000bp的滑动窗口显著高于在1000bp的滑动窗口中。研究发现,序列长度与集群中HIV序列的比例十分相关,变异信息点的数量与集群中HIV序列的比例也存在相关。接近完整长度基因序列能够为HIV聚类分析提供最完备的信息。此外,具有高HIV聚集程度的亚基因区域也是HIV聚类分析的一个不错的选择。