华盛顿州里奇兰—运行在普通台式计算机上的深度神经网络正在解释与国家安全有关的高度技术数据,并且有时甚至优于当今最好的自动化方法甚至人类专家。
解决一些最复杂的环境问题,宇宙和国家安全的进展来自能源部太平洋西北国家实验室的科学家,他们在4月的第11届MARC会议(放射分析化学的方法和应用)上介绍了他们的工作。夏威夷他们的工作采用深度学习,其中无需对所有条件进行明确编程就可以使机器学习和决策。
该研究从实验室的浅层地下实验室探究了难以置信的复杂数据集,科学家们在那里探测到了行星活动中嗡嗡作响的微弱信号。在埋在混凝土,岩石和泥土下方81英尺的实验室中,厚厚的屏蔽层可抑制来自宇宙射线,电子设备和其他来源的信号。这使PNNL科学家能够隔离和解密从地球上任何地方收集到的感兴趣信号。
当诸如电子的粒子从原子发射时,这些信号表示称为放射性衰变的事件。这个过程通过自然和人类活动不断发生。科学家可以监测可能指示先前的核试验活动的氩37含量的变化,以及可以监测科学家确定地下水年龄并了解有关该星球的更多信息的氩39含量的变化。
自2010年开放以来,该实验室已经积累了数百万次放射性衰变事件的数据。但这是一个嘈杂的世界,尤其是对于那些正在聆听非常稀有信号的科学家而言,这些信号很容易与不同且经常是常规来源的信号相混淆,例如,拨动电灯开关或通过手机接听电话的人。
在MARC上演讲的PNNL科学家艾米丽·梅斯(Emily Mace)是解释此类信号特征的专家-例如,某个事件可能表明进行了地下核试验或含水层正在迅速耗尽时。就像医生细读X射线来寻找疾病的暗示一样,梅斯和她的同事们定期检查放射性衰变事件数据,以解释信号-能量,时间,峰值,斜率,持续时间和其他特征。
梅斯说:“有些脉冲形状很难解释。” “区分好数据和坏数据可能具有挑战性。”
最近,梅斯(Mace)和同事向他们的同事求助,他们是深度学习方面的专家,这是一个令人兴奋且活跃的人工智能子领域。杰西·沃德(Jesse Ward)是实验室的数十位深度学习专家之一,他们正在通过PNNL的“科学发现敏捷投资深度学习”探索多种应用。自2010年以来,梅斯向沃德发送了有关在浅层地下实验室中检测到的近200万个能量脉冲的信息。
沃德使用32,000个脉冲的干净样本集来训练网络,输入每个脉冲的许多功能并向网络展示如何解释数据。然后,他向网络提供了成千上万的信号,因为它可以自学,以区分显示出令人感兴趣的“好”信号和构成有害噪声的“坏”信号。最后,他测试了网络,向其提供了越来越复杂的数据集,即使专家也难以解释。
他创建的网络能够以有时甚至超过Mace等专家的专业知识来解释脉冲形状事件。利用简单明了的数据,该程序可以正确分类99.9%以上的脉冲。
当数据嘈杂并且包含大量虚假信号时,结果将更加令人印象深刻:
在涉及50,000个脉冲的分析中,神经网络在100%的时间内与人类专家达成了共识,击败了最佳的传统计算机技术,在99.8%的时间内与专家达成了共识。
在对10,000个脉冲进行的另一项分析中,神经网络正确识别了99.9%的脉冲,而传统技术为96.1%。该分析中包括最难解释的脉冲。使用该子集,神经网络的性能要好25倍以上,正确分类了400个脉冲中的386个,而传统技术是400个中的14个。
沃德说:“这是一个相对简单的神经网络,但结果令人印象深刻。” “您可以使用相当原始的机器对重要的科学问题进行富有成果的工作。考虑其他可行的方法令人兴奋。”
但是,该项目提出了一个意想不到的挑战:浅层地下实验室是如此原始,在大多数杂散噪声信号进入数据流之前,它们已经被减弱,以至于沃德发现自己向梅斯提出了更多不良数据的要求。
沃德说:“信号可以表现良好,也可以表现不佳。” “为了让网络了解好的信号,需要大量的坏信号进行比较。”
通过海量数据寻找有意义的信号进行剔除的问题具有广泛的意义,并扩展到许多科学领域。在PNNL,一个领域是寻找暗物质产生的信号,暗物质是我们宇宙中绝大部分物质的起源和下落不明。另一个是自动检测乳腺癌和其他组织异常。
PNNL实验室的核物理学家Craig Aalseth说:“深度学习使我们更容易过滤出一些表明感兴趣的活动的好事件。” “很高兴看到深度学习技术比我们以前最好的检测技术做得更好。”
——文章发布于2018年6月21日