《通过将不同的机器学习模型与矢量指数和气象数据进行比较来预测登革热传播率》

  • 来源专题:新发突发传染病
  • 编译者: 张玢
  • 发布时间:2023-11-11
  • 在开发登革热传播率监测预测模型的过程中,机器学习算法(ML)受到了广泛关注。以往的工作只关注特定的气象变量和算法,因此仍然需要一种使用更多变量和算法且性能更高的模型。研究人员使用矢量指数和气象数据作为预测因子来开发 ML 模型。训练并验证了七种 ML 算法,包括一种集合 ML 方法,并使用曲线下面积(AUC)、准确率和 F1 分数的接收器操作特征(ROC)比较了它们的性能。结果表明,XG Boost、AdaBoost 和随机森林等集合 ML 的性能优于物流回归、奈夫贝恩斯、决策树和支持向量机(SVM),其中 XGBoost 的 AUC、准确率和 F1 分数最高。对变量重要性的分析表明,集装箱指数的重要性最低。去掉这个变量后,ML 模型的 AUC 和 F1 分数至少提高了 6%。该研究结果为今后使用预测模型开发预警系统提供了一个研究框架。
  • 原文来源:https://www.nature.com/articles/s41598-023-46342-2
相关报告
  • 《采用机器学习优化PROSAIL模型的青贮玉米叶面积指数反演》

    • 来源专题:农机装备
    • 编译者:袁雪
    • 发布时间:2025-04-28
    • 摘要:<;br>;<;span style=“ height:6px;display:block;”>;<;/span>;叶面积指数(Lai)是衡量作物生长的重要指标之一。准确高效的反演对于农作物监测和产量预测具有重要意义。然而,传统的经验模型往往局限于对Lai的估计,具有计算量大、泛化能力差等缺点。本研究旨在利用机器学习优化的PROSAIL模型从遥感图像中反演青贮玉米叶面积指数。以甘肃省民乐县大田青贮玉米叶面积指数为研究对象。在同一时期,在野外采集多时间序列的Landsat-8多光谱图像和Lai数据。利用全局扩展傅里叶振幅敏感性测试(EFAST),提出了4种机器学习混合反演模型,包括MLP-PROSAIL、SVR-PROSAIL、RF-PROSAIL和GBM-PROSAIL。确定了重要参数的灵敏度和分布范围,实现了反演运算。使用一阶EFAST和全阶全局灵敏度分析来确定不同参数对模型输出的贡献率。对PROSAIL模型的灵敏度输入参数进行了精确模拟,以输出冠层反射光谱。此外,对Landsat-8多光谱数据进行了预处理,包括辐射定标、FLAASH大气校正、几何校正和配准以及研究区域的剪裁。然后,使用Landsat-8光谱响应函数进行波段转换。将模拟输出的连续光谱反射率转换为与卫星传感器相匹配的光谱波段。考虑到Lai对不同波段的敏感性差异,选择了5个敏感性较高的波段进行模型训练。将地理配准工具与反距离加权插值策略相结合。然后缩小比例差异。贝叶斯超参数优化和正则化用于优化模型的不同参数类型和激活函数。得到了四个用于训练Lai和光谱数据的改进模型。通过5折交叉验证和Leave-One验证,包括对波段输入进行必要的重要性分析,验证了四种模型的反演性能。优化后,四个模型的性能均有显著提高。决定系数<;br>;<;span style=“ height:6px;display:block;”>;<;/span>;R<;br>;<;span style=“ height:6px;display:block;”>;<;/span>;2<;br>;<;span style=“ height:6px;display:block;”>;<;/span>;均大于0.85,均方根误差(RMSE)控制在0.8以内。其中,GBM-PROSAIL具有最高的反演精度和最佳的拟合性能。<;br>;<;span style=“ height:6px;display:block;”>;<;/span>;R<;br>;<;span style=“ height:6px;display:block;”>;<;/span>;2<;br>;<;span style=" height:6px;display:block;>;<;/span>;约为0.93,RMSE约为0.42,大多数LAI值在95%的置信区间内,几乎所有LAI值都包含在95%的预测区间内。RF-PROSAIL模型之后是带有<;br>;<;span style=“ height:6px;display:block;”>;<;/span>;R<;br>;<;span style=“ height:6px;display:block;”>;<;/span>;2<;br>;的RF-PROSAIL模型amp;lt;span style=“ height:6px;display:block;” amp;gt;amp;lt;/span amp;gt;大约为0.90,RMSE大约为0.51。在95%置信区间内也有大量的LAI值,只有少数LAI值超过了95%的预测区间边界。其余两个混合模型的拟合精度<;br>;<;span style=“ height:6px;display:block;”>;<;/span>;R<;br>;<;span style=“ height:6px;display:block;”>;<;/span>;2分别为0.85和0.88。RMSE分别为0.80和0.69。利用GBM-PROSAIL模型反演了研究区多时间序列Lai的空间分布。青贮玉米节位叶面积指数主要分布在2~4之间,略大于实测值。这与Lai对植被的影响有关。青贮玉米抽雄期叶面积指数主要分布在5~7之间,与实测值基本一致。青贮玉米不同生育期的LAI值存在显著差异,表明其生长过程。混合反演模型具有较高的性能和较强的鲁棒性。研究结果可为精准农业中的多时间序列、大尺度作物监测和产量预测提供有力参考。
  • 《Plos One:预测全球登革热传播的新方法》

    • 来源专题:生物安全知识资源中心 | 领域情报网
    • 编译者:hujm
    • 发布时间:2019-12-09
    • 近日,来自澳大利亚的研究人员开发了一种新工具来预测登革热等人类传染病的全球蔓延并追踪其来源,该工具利用了国际航空运输协会的旅行数据全球卫生数据交换所提供的登革热发病率,以得出有关登革热传播动态的新见解。 CSIRO数据科学部门的博士后研究员Jess Liebig博士说,国际旅行为登革热从流行国家到非流行国家的迅速传播产生了重要的影响。 Liebig博士说:“根据世界卫生组织报告,全世界约有一半的人口有登革热的风险。”通过了解被感染者的旅行行为,我们可以估计每月输入不同国家的感染数量。该工具还可以确定感染的来源国,并能够发现登革热最有可能传播的途径。” 在澳大利亚等非流行国家中,当地暴发是由在国外获得该病并将该病毒传播给当地蚊子的个人触发的。昆士兰州立大学的Raja Jurdak教授说,在许多地方,没有诊断出感染者,登革热可能无法向卫生当局报告,这使得监测风险和防止感染扩散变得颇具挑战性。 Jurdak教授说:“根据最近的研究,大约92%的症状性感染没有报告给卫生当局,主要是由于意识水平低和误诊。我们的工具是第一个能够在全球范围内预测登革热进口绝对数量而不是相对风险的工具之一。” 该工具将从波多黎各到佛罗里达的旅行路线确定为到达非流行地区的登革热感染旅客的最高预测量。 昆士兰州卫生局研究员Cassie Jansen博士说:“这为协助公共卫生当局做好登革热提供了有用的工具。它还可以帮助当局确定被感染乘客抵达后可能发生新的登革热暴发的地点。” 该工具可应用于其他全球关注的媒介传播疾病,例如疟疾,寨卡病毒和基孔肯雅热。