《 Nature | 通过元学习神经网络实现类人系统化概括》

  • 来源专题:战略生物资源
  • 编译者: 李康音
  • 发布时间:2023-10-30
  • 本文内容转载自“生物世界”微信公众号。原文链接:https://mp.weixin.qq.com/s/rCq0VCwwya6fqaUOylvGOw

    2023年10月25日,纽约大学的 Brenden Lake 和西班牙加泰罗尼亚研究所的 Marco Baroni 在国际顶尖学术期刊 Nature 上发表了题为Human-like systematic generalization through a meta-learning neural network 的研究论文。

    该研究创造了一个神经网络,该人工智能(AI)系统在将新学到的单词添加到现有的词汇表中并在新的上下文中使用它们的能力,超越了ChatGPT,表现与人类相当,而这一能力正是人类认知能力的关键——系统泛化。

    这项研究研究结果挑战了一个已经存在35年的经典观点,还可能实现比当今最好的AI系统更自然的人机对话。尽管ChatGPT等基于大语言模型的AI系在许多情况下都擅长对话,但在其他情况下却表现出明显的差距和不一致性。 该研究开发的神经网络具有类似人类的表现,表明了人类在训练网络系统化的能力方面取得了突破性进展。

相关报告
  • 《Nature Communications | 利用双神经元光学人工学习训练大规模光电神经网络》

    • 来源专题:战略生物资源
    • 编译者:李康音
    • 发布时间:2023-12-04
    • 本文内容转载自“ AI Energy”微信公众号。原文链接: https://mp.weixin.qq.com/s/A8t1cJLwc4WsqD8Fz-cSSQ 2023年11月4日,北京国家信息科学与技术研究中心,清华大学和清华大学深圳国际研究生院的研究人员在Nature Communications杂志发表了一篇题为Training large-scale optoelectronic neural networks with dual-neuron optical-artificial learning的论文。 光电神经网络(Optoelectronic neural networks,ONN)在并行化、功率效率和速度方面具有潜力,是人工智能计算领域的一个前景广阔的途径。衍射神经网络通过训练有素的光学元件传播编码光来处理信息,因而备受关注。然而,由于光学衍射建模的计算和内存成本,大规模衍射网络的训练面临挑战。 该研究提出了双神经元光学人工学习架构 DANTE。光学神经元为光学衍射建模,而人工神经元则用轻量级函数来近似密集的光学衍射计算。DANTE 还通过迭代全局人工学习步骤和局部光学学习步骤来提高收敛性。在模拟实验中,DANTE 成功地在 ImageNet 上训练了 1.5 亿个神经元的大规模 ONNs,这在以前是无法实现的,与单神经元学习相比,DANTE 在 CIFAR-10 基准上显著加快了训练速度。在物理实验中,本该研究开发了基于DANTE的双层ONN系统,它能有效地提取特征,提高自然图像的分类能力。
  • 《让AI个性化而且功耗更低 IBM研发新型神经网络芯片》

    • 来源专题:集成电路设计
    • 编译者:shenxiang
    • 发布时间:2018-06-21
    • 在GPU上运行的神经网络已经在人工智能领域取得了一些惊人的进步,但这两者的合作还并不完美。IBM的研究人员希望能设计出一种专门用于运行神经网络的新的芯片,从而提供更快、更有效的替代方案。 直到本世纪初,研究人员才意识到,为视频游戏设计的GPU(图形处理单元)可以被用作硬件加速器,以运行比以前更大的神经网络。 这要归功于这些芯片能够并行进行大量计算,而不是像传统CPU那样按顺序处理它们。这对于同时计算构成深度学习神经网络的数百个神经元的权重特别有用。 GPU的引入使这一领域得到了发展,但这些芯片仍然需要将处理和存储分开,这意味着大量的时间和精力都花在了两者之间的数据传输上。这促使人们开始研究新的存储技术,这些技术能够存储和处理同一位置的权重数据,从而提高速度和能源效率。 这种新的存储设备通过调整它们的电阻水平,以模拟的形式存储数据——也就是说,数据被存储在一个连续的范围内,而不是数字存储器的二进制1和0。因为信息存储在存储单元的电导中,所以可以简单地在存储单元间传递电压并让系统通过物理方法来进行计算。 但是这些设备固有的物理缺陷意味着它们的行为并不一致,这导致了目前使用它们来训练神经网络的分类精度明显低于使用GPU。 “我们可以在一个比GPU更快的系统上进行训练,但如果训练操作不那么准确,那是没有用的,”领导该项目的IBM Research博士后研究员Stefano Ambrogio在接受Singularity Hub采访时说,“到目前为止,还没有证据表明使用这些新设备能像使用GPU一样精确。” 但研究又有了新的进展。在上周发表在《自然》杂志上的一篇论文中,Ambrogio和他的同事们描述了他们是如何利用新兴的模拟记忆和更传统的电子元件组合来创造出一种芯片,这种芯片可以与GPU的精度相匹配,同时运行速度更快,能耗更少。 这些新的存储技术难以训练深层神经网络的原因是,这个过程需要将每个神经元的权重进行上下数千次的刺激,直到网络完全对齐。改变这些设备的电阻需要重新配置它们的原子结构,而且每次的操作过程都不一样,Ambrogio说。这些刺激并不总是完全相同,这导致了对神经元权重的不精确的调整。 研究人员通过创造“突触单元”来解决这个问题,这些“突触单元”每一个都对应于网络中的单个神经元,同时具有长期和短期记忆。每个单元格由一对相变存储器(PCM)单元和三个晶体管以及一个电容的组合构成,PCM在电阻中存储权重数据,电容将权重数据存储为电荷。 PCM是一种“非易失性存储器”,这意味着即使没有外部电源,它也能保留存储的信息,而电容器是“易失性的”,所以只能在几毫秒内保持它的电荷。但是电容器没有PCM设备的可变性,因此可以快速而准确地编程。 当神经网络对图像进行训练以完成分类任务时,只有电容器的权重会被更新。在浏览到几千张图片后,权重数据会被转移到PCM单元进行长期存储。PCM的可变性意味着,权重数据的转移仍然有可能包含错误,但是由于该单元只是偶尔更新,所以可以在不增加系统复杂性的情况下再次检查电导。Ambrogio说,如果直接在PCM单元上进行训练,这就不可行了。 为了测试他们的设备,研究人员对他们的网络进行了一系列流行图像识别的基准测试,结果达到了与谷歌领先的神经网络软件TensorFlow相当的精确度。但重要的是,他们预测,最终构建出的芯片将比GPU的能效高280倍,而且在每平方毫米面积上实现的算力将达到CPU的100倍。值得注意的是,研究人员还没有完全构建出这一芯片。 虽然在测试中使用了真正的PCM单元,但其它组件是在计算机上模拟的。Ambrogio表示,他们希望在投入时间和精力打造完整的芯片之前,先检查一下这种方法是否可行。他说,他们决定使用真正的PCM设备,因为对这些设备的模拟还不太可靠,但其它组件的模拟技术已经很成熟了,他们有信心基于这个设计建立一个完整的芯片。 它目前也只能在全连接神经网络上与GPU竞争,在这个神经网络中,每个神经元都与上一层的神经元相连接,Ambrogio说。但实际上许多神经网络并没有完全连接,或者只有某些层完全连接在一起。 但Ambrogio说,最终的芯片将被设计成可以与GPU合作的形式,从而在处理其它连接时也能够处理全连接层的计算。他还认为,这种处理全连接层的更有效的方法可以被更广泛地应用。 这样的专用芯片能够使哪些事情成为可能? Ambrogio说,有两个主要的应用:一是将人工智能应用到个人设备上,二是使数据中心更加高效。后者是大型科技公司的一大担忧,因为它们的服务器消耗了大量的电费。 如果直接在个人设备上应用人工智能,用户就可以不必在云端分享他们的数据,从而增加隐私性,但Ambrogio说,更令人兴奋的前景是人工智能的个性化。 他说:“在你的汽车或智能手机上应用这个神经网络,它们就能够不断地从你的经验中学习。” “你的手机会专门针对你的声音进行个性化,你的汽车也会根据你的习惯形成独特的驾驶方式。”