《日本科学家利用人工智能帮助探测热带气旋前兆》

  • 来源专题:中国科学院文献情报系统—海洋科技情报网
  • 编译者: mall
  • 发布时间:2019-01-04
  • 日本国立海洋研究开发机构(JAMSTEC)地球信息科学与技术中心的Daisuke Matsuoka博士和九州大学的Seiichi Uchida教授领导的一个研究小组成功地提出了一种识别热带气旋及其前体的深度学习方法。

    在传统方法中,台风和飓风等热带气旋的预测通常采用基于观测数据的气候模型和从卫星数据监测云发展的模型驱动方法进行。在这项研究中,研究小组应用了数据驱动方法,使用深度学习的方法得到大量的模拟数据,从而检测正在发展的热带气旋的前兆,并检验检测结果的准确性。

    为了确保在深度学习中准确识别,需要大量的数据,每个类别需要超过几千个例子。因此,科学家首先将热带气旋跟踪算法应用于NICAM(非流体静力学二十面体大气模型)生成的20年气候模拟数据,并创建了5万张热带气旋和发展中的热带气旋前兆云图。他们还根据上述50000张云图结合100万张没有发展成热带气旋的云图创建了10组训练数据集,总共制作了1,050,000张图像。使用深度卷积神经网络算法,通过机器学习形成了10种不同特征的分类器。通过对10种不同类型的分类器结果进行综合评价,建立了一个整体分类器进行最终判断,发现利用NICAM的气候模拟数据可以更准确地检测出热带气旋的前兆。

    然而,要在热带气旋实际发生之前对其进行预测,仍需进一步改进训练方法和数据集,确保卫星观测云图和数据同化实时模拟数据的探测能力达到相同水平。通过在这一领域采用人工智能技术进行深度学习,有望在数据驱动和模型驱动相结合的基础上,为海洋和地球科学大数据分析带来新的发展。

    相关研究结果已于2018年12月19日发表在《地球与行星科学进展》期刊上。

    (王琳 编译)

相关报告
  • 《利用人工智能追踪冰山》

    • 来源专题:新一代信息技术
    • 编译者:袁晨
    • 发布时间:2023-11-29
    • 研究人员正在使用一种新的人工智能工具来探测南大洋的冰山。这是能够通过卫星数据追踪南极洲大多数冰山完整生命周期的第一步。这项名为“从双极化SAR图像中检测海冰内冰山数量的无监督机器学习”的研究发表在《环境遥感》杂志上。 冰山在海洋动力学中起着关键作用。例如,当冰山融化时,它们向海洋释放淡水和营养物质,影响初级生产力、海洋环流以及海冰的形成和破裂。冰山也会给船只带来危险,所以关于冰山位置和大小的准确、最新的知识是至关重要的。 这种新方法可以在有很多海冰的环境中识别冰山,这在以前是不可能的。利用这一工具,科学家们将能够在冰山崩解时发现它们,并在它们的整个生命周期中追踪它们,直到它们消亡,从而更全面地了解南大洋冰山的动态。至关重要的是,研究人员将能够监测海冰丰富的地方的冰山,以及靠近冰山密集聚集的产冰地点的冰山。 为了探测冰山,该工具使用了合成孔径雷达(SAR)的数据,这是一种安装在哨兵1号卫星上的仪器,它从太空传输微波信号并测量反射辐射的强度。由于冰山表面冰雪的结晶结构,冰山是很好的微波反射体,所以它们在卫星图像中显示出强烈明亮的信号。使用微波也意味着这些图像可以在白天或晚上通过云层收集,这在南大洋上很常见。 在这项研究中,研究人员在2019年10月至2020年9月的12个月期间拍摄的不同卫星图像上展示了人工智能算法的性能。该工具确定了近3万座冰山;其中大多数相对较小,面积为1平方公里或更小。 研究人员选择了位于南极洲西部的Amundsen 海海湾作为他们的研究地点,这里靠近斯韦茨冰川的产冰前沿。该地区混合了开放水域、海冰和不同大小的高密度冰山,使其成为测试人工智能工具的理想场所。了解南极西部冰盖,特别是这一地区将如何变化,是研究未来海平面上升的研究人员的首要任务。 Ben Evans是英国南极调查局(BAS)人工智能实验室的一员,也是该论文的主要作者,他说:“我们用来开发这种工具的技术已经被广泛用于医学成像,所以我们很高兴将同样的技术应用于极地海洋SAR卫星图像中看到的复杂特征。” “我们使用的方法与其他替代的冰山检测方法一样准确,并且在不需要人工输入的情况下优于大多数方法。这意味着它可以很容易地扩展到我们的研究区域之外,甚至可以提供近乎实时的监测。” 冰盖上的冰山崩解进入南大洋是南极冰盖冰流失的主要方式之一。因此,不断增加的冰裂可能标志着对海平面上升的贡献越来越大。研究人员希望利用这种人工智能方法来识别冰山数量、大小和路径的任何变化,这些都是气候变化的预期后果。该团队目前正在分析自2014年哨兵1号任务开始以来所有可用的数据。 Scott Hosking是阿兰·图灵研究所人工智能实验室的负责人,也是图灵研究与创新集群的联合主任,他说:“由于复杂的物理学以及海洋、冰和大气之间的相互作用,监测和预测有多少数十亿吨的冰融化到世界海洋中是一项重大挑战。我们正在开发南极的数字孪生体,以帮助整合和共享我们的极地基础设施和工具(从自动水下航行器到人工智能模型)的数据,以支持决策,并使英国保持在极地科学的前沿。”
  • 《人工智能开发人员为科学家面对大量文献提供支持》

    • 来源专题:科技期刊发展智库
    • 编译者:郭林林
    • 发布时间:2024-02-22
    •   有报道称人工智能(AI)提供的新工具可以帮助科研人员处理文献,这让在KTH皇家理工工学院学习的Iosif Gidiotis非常感兴趣。随着论文数量的迅速增长,去年所有科学领域共发表了近300万篇论文,人工智能研究助理“听起来很棒”。 Gidiotis希望人工智能能找到比其他搜索工具更多的相关论文,并总结它们的亮点。   但结果令他有点失望。当他尝试使用像Elicit这样的人工智能工具时,他发现返回的论文只有一部分是相关的,而Elicit的摘要不足以准确到令他满意。“你本能地会去阅读实际的论文以验证总结是否正确,因而并不会节省时间。”Elicit表示正在为其25万名普通用户继续改进算法,在一项调查中,Elicit的用户认为它平均每周为他们节省了90分钟的阅读和搜索时间。   Elicit由一家非营利研究组织于2021年创建,是一款日益稳定的人工智能工具,旨在帮助科学家浏览文献。Andrea Chiarelli说:“这些平台正在爆炸式增长。此类工具提供内容的生成系统容易因为虚假内容“产生幻觉”,而且搜索到的许多论文都在付费墙后面。开发商也在寻找可持续的商业模式。目前,许多网站提供入门级的免费服务。很难预测哪些人工智能工具会占上风,虽然有一定程度的炒作,但它们显示出了巨大的前景。”   与ChatGPT和其他大型语言模型(LLM)一样,新工具在大量文本样本上进行“训练”,学习识别单词关系。这些关联使算法能够对搜索结果进行总结。它们还根据论文中的上下文识别相关内容,产生比仅使用关键词查询更广泛的结果。世界上最大的开放获取论文库CORE的主管Petr Knoth表示,除了最富有的组织之外,从头开始建立和培训LLM的成本太高。因此,Elicit使用现有的开源LLM,这些LLM经过了广泛的文本培训,其中许多文本是非科学的。   另一个名为Scim的工具有助于吸引读者关注论文中最相关的部分。非营利组织艾伦人工智能研究所创建的语义阅读器工具具有的一个功能,其工作原理就像一个自动墨水荧光笔,用户可以自定义它,将不同的颜色应用于关于新颖性、目标和其他主题的陈述。密歇根大学的信息科学家Eytan Adar表示,它提供了“一种关于(论文)是否值得参与的快速诊断和分诊”,这“非常有价值”,他在上个月推出扩展版之前尝试了早期版本。一些工具还用摘要所依据的论文摘录来注释摘要,允许用户自己判断其准确性。   为了避免产生错误的回答,艾伦研究所使用一套LLM来操作语义阅读器,其中包括经过科学论文培训的LLM。但这种方法的有效性很难衡量。麻省理工学院的计算机科学家Michael Carbin说:“这些都是我们理解的核心技术难题。”他帮助开发了一种总结医学文献的算法。艾伦研究所语义学者论文库的首席科学家Dan Weld表示,“当前我们最佳的标准是让受过良好教育的人进行检查(人工智能的输出)并仔细分析。”该研究所已经收集了300多名付费研究生和数千名志愿测试人员的反馈。质量检查显示,将Scim应用于非计算机科学论文会出现差错,因此该研究所目前仅为约55万篇计算机科学论文提供Scim。   其他研究人员强调,只有在开发者和用户能够基于访问论文全文来为搜索结果和内容分析提供信息的情况下,人工智能工具才能发挥其潜力。皇家墨尔本理工大学的计算语言学家Karin Verspoor说:“如果我们不能访问文本,那么我们对这些文本中所包含的知识的看法是有限的。”   即使是世界上最大的科学出版商爱思唯尔,也将其人工智能工具限制在论文摘要上。2023年8月,这家商业公司在其Scopus数据库中首次推出了人工智能辅助搜索功能,该数据库列出了9300万份研究出版物,使其成为科学家中最大的数据库之一。作为对查询的响应,其算法识别最相关的摘要,并使用ChatGPT的一个版本来提供总体摘要。Scopus AI还按概念对摘要进行分组。爱思唯尔负责分析产品和数据平台的高级副总裁Maxim Khan表示,仅使用摘要的方法与爱思唯尔与其他出版商的许可协议条款一致,这些协议允许他们的论文摘要在Scopus中列出。这种方法足以帮助跨学科领域的研究人员快速了解特定主题。   艾伦研究所采取了不同的方法:它与50多家出版商谈判达成协议,允许其开发者对付费论文的全文进行数据挖掘。Weld表示,几乎所有的出版商都提供免费访问服务,因为人工智能为他们带来了流量。即便如此,许可限制限制了Semantic Reader用户只能访问Semantic Scholar 6000万篇全文论文中的800万篇全文。Knoth表示这样的谈判对他的组织来说非常耗时。Knoth说:“这很难被视为一个公平、公平的竞争环境。”他的大学资助知识库致力于开发工具,帮助科学家探索其内容。   实现大规模的数据挖掘还需要让更多的作者和出版商采用非PDF格式,帮助机器有效地消化论文内容。美国白宫2022年的一项指令要求,由联邦资金资助撰写的论文必须是机器可读的,但各机构尚未提出细节。   尽管面临挑战,计算机科学家已经在寻求开发更复杂的人工智能,能够从文献中收集更丰富的信息。他们希望获得线索以加强药物发现并不断更新系统综述。美国国防部高级研究计划局支持的研究探索了能够通过识别已发表论文中揭示的现有知识空白来自动生成科学假设的系统。   但马萨诸塞大学阿默斯特分校研究交互式信息访问系统的Hamed Zamani表示,目前,使用人工智能工具的科学家需要保持适当的怀疑态度。LLM肯定会变得更好。但现在,它们有很多局限性。它们会提供错误的信息。因此科学家应该非常清楚这一点,并仔细检查它们的输出结果。”