尽管中国的乙肝流行率有所下降,但疾病负担仍然很高。不了解感染风险的大量人群通常无法达到理想的治疗范围,从而导致预后不良。这项研究的目的是开发和评估可识别应进行乙肝表面抗原检测的高危人群的模型。数据来自基于社区的大型健康检查,其中包括97,173个人,平均年龄为54.94。总共收集了33个指标作为模型预测指标,包括人口统计学特征,常规血液指标和肝功能。进行了边界线合成少数过采样技术(SMOTE)来预处理数据,然后使用四个预测模型,即极端梯度增强(XGBoost),随机森林(RF),决策树(DT)和逻辑回归(LR)算法,被开发出来。乙型肝炎表面抗原(HBsAg)的阳性率为8.27%。 XGBoost,RF,DT和LR模型的接收机工作特性曲线下的面积分别为0.779、0.752、0.619和0.742。 Borderline-SMOTE XGBoost组合模型优于其他模型,该模型可以正确预测13,637 / 19,435例病例(敏感性70.8%,特异性70.1%),并且XGBoost模型的可变重要性图表明年龄具有高度重要性。该预测模型可用于准确识别应及时采取适当医疗措施的乙肝感染高危人群