《变分自回归神经网络求解统计力学研究取得进展》

  • 来源专题:中国科学院亮点监测
  • 编译者: yanyf@mail.las.ac.cn
  • 发布时间:2019-03-30
  • 如何准确地计算多粒子系统的自由能、热力学量,以及给出系统的无偏采样,是统计物理的核心问题之一。自上世纪初以来,统计物理学家建立了各种各样的理论和方法来处理此类问题,其中包括马尔科夫链蒙特卡洛、张量网络、重整化群、平均场近似及消息传递算法等。在实际应用中,这些方法各有其优劣:MCMC擅长采样玻尔兹曼分布,然而很难计算系统的熵和自由能;张量网络方法和重整化群被广泛用于计算配分函数和自由能,但是一般只适用于格点系统;平均场近似及相关的消息传递算法可以高效地给出系统的变分自由能,然而需要在较高的温度下,或者系统拓扑结构满足平均场近似的要求。

      从更广角度看,统计物理的基本问题和机器学习中的非监督学习具有天然的联系:统计物理中的玻尔兹曼分布对应于贝叶斯推断的后验概率;最小化自由能原理等价于变分推断;寻找统计物理系统的基态等价于最大似然学习等。那么一个自然的想法是,可不可以用近年来快速发展的深度学习方法来推动统计物理的核心问题的进展?

      近年来,中国科学院理论物理研究所研究员张潘课题组致力于探索统计物理与机器学习的交叉领域,并在近期取得新进展。张潘与合作者中国科学院物理研究所研究员王磊以及北京大学本科生吴典,合作提出了一个应用于统计力学问题的计算方法——变分自回归神经网络(Variational Autoregressive Networks)。这个框架拓展了传统意义上的平均场方法,用自回归神经网络构建变分的概率分布,并通过强化学习的方法训练网络,进而可以同时计算系统的自由能上界,测量系统的能量、熵及各种热力学量,并直接无偏地对系统采样。张潘和合作者们将此方法成功地应用于伊辛模型、自旋玻璃以及统计物理反问题中。相关论文发表于《物理评论快报》(Phys. Rev. Lett. 122, 080602),并被选为编辑推荐文章。

      此工作得到中国科学院前沿重点项目“统计物理平均场理论在统计推断与机器学习中的应用”(项目编号:QYZDB-SSW-SYS032)以及国家自然科学基金委理论物理专款“彭桓武理论物理创新研究中心”的支持。

相关报告
  • 《 Nature | 通过元学习神经网络实现类人系统化概括》

    • 来源专题:战略生物资源
    • 编译者:李康音
    • 发布时间:2023-10-30
    • 本文内容转载自“生物世界”微信公众号。原文链接:https://mp.weixin.qq.com/s/rCq0VCwwya6fqaUOylvGOw 2023年10月25日,纽约大学的 Brenden Lake 和西班牙加泰罗尼亚研究所的 Marco Baroni 在国际顶尖学术期刊 Nature 上发表了题为Human-like systematic generalization through a meta-learning neural network 的研究论文。 该研究创造了一个神经网络,该人工智能(AI)系统在将新学到的单词添加到现有的词汇表中并在新的上下文中使用它们的能力,超越了ChatGPT,表现与人类相当,而这一能力正是人类认知能力的关键——系统泛化。 这项研究研究结果挑战了一个已经存在35年的经典观点,还可能实现比当今最好的AI系统更自然的人机对话。尽管ChatGPT等基于大语言模型的AI系在许多情况下都擅长对话,但在其他情况下却表现出明显的差距和不一致性。 该研究开发的神经网络具有类似人类的表现,表明了人类在训练网络系统化的能力方面取得了突破性进展。
  • 《让AI个性化而且功耗更低 IBM研发新型神经网络芯片》

    • 来源专题:半导体工艺技术
    • 编译者:shenxiang
    • 发布时间:2018-06-27
    • 在GPU上运行的神经网络已经在人工智能领域取得了一些惊人的进步,但这两者的合作还并不完美。IBM的研究人员希望能设计出一种专门用于运行神经网络的新的芯片,从而提供更快、更有效的替代方案。 直到本世纪初,研究人员才意识到,为视频游戏设计的GPU(图形处理单元)可以被用作硬件加速器,以运行比以前更大的神经网络。 这要归功于这些芯片能够并行进行大量计算,而不是像传统CPU那样按顺序处理它们。这对于同时计算构成深度学习神经网络的数百个神经元的权重特别有用。 GPU的引入使这一领域得到了发展,但这些芯片仍然需要将处理和存储分开,这意味着大量的时间和精力都花在了两者之间的数据传输上。这促使人们开始研究新的存储技术,这些技术能够存储和处理同一位置的权重数据,从而提高速度和能源效率。 这种新的存储设备通过调整它们的电阻水平,以模拟的形式存储数据——也就是说,数据被存储在一个连续的范围内,而不是数字存储器的二进制1和0。因为信息存储在存储单元的电导中,所以可以简单地在存储单元间传递电压并让系统通过物理方法来进行计算。 但是这些设备固有的物理缺陷意味着它们的行为并不一致,这导致了目前使用它们来训练神经网络的分类精度明显低于使用GPU。 “我们可以在一个比GPU更快的系统上进行训练,但如果训练操作不那么准确,那是没有用的,”领导该项目的IBM Research博士后研究员Stefano Ambrogio在接受Singularity Hub采访时说,“到目前为止,还没有证据表明使用这些新设备能像使用GPU一样精确。” 但研究又有了新的进展。在上周发表在《自然》杂志上的一篇论文中,Ambrogio和他的同事们描述了他们是如何利用新兴的模拟记忆和更传统的电子元件组合来创造出一种芯片,这种芯片可以与GPU的精度相匹配,同时运行速度更快,能耗更少。 这些新的存储技术难以训练深层神经网络的原因是,这个过程需要将每个神经元的权重进行上下数千次的刺激,直到网络完全对齐。改变这些设备的电阻需要重新配置它们的原子结构,而且每次的操作过程都不一样,Ambrogio说。这些刺激并不总是完全相同,这导致了对神经元权重的不精确的调整。 研究人员通过创造“突触单元”来解决这个问题,这些“突触单元”每一个都对应于网络中的单个神经元,同时具有长期和短期记忆。每个单元格由一对相变存储器(PCM)单元和三个晶体管以及一个电容的组合构成,PCM在电阻中存储权重数据,电容将权重数据存储为电荷。 PCM是一种“非易失性存储器”,这意味着即使没有外部电源,它也能保留存储的信息,而电容器是“易失性的”,所以只能在几毫秒内保持它的电荷。但是电容器没有PCM设备的可变性,因此可以快速而准确地编程。 当神经网络对图像进行训练以完成分类任务时,只有电容器的权重会被更新。在浏览到几千张图片后,权重数据会被转移到PCM单元进行长期存储。PCM的可变性意味着,权重数据的转移仍然有可能包含错误,但是由于该单元只是偶尔更新,所以可以在不增加系统复杂性的情况下再次检查电导。Ambrogio说,如果直接在PCM单元上进行训练,这就不可行了。 为了测试他们的设备,研究人员对他们的网络进行了一系列流行图像识别的基准测试,结果达到了与谷歌领先的神经网络软件TensorFlow相当的精确度。但重要的是,他们预测,最终构建出的芯片将比GPU的能效高280倍,而且在每平方毫米面积上实现的算力将达到CPU的100倍。值得注意的是,研究人员还没有完全构建出这一芯片。 虽然在测试中使用了真正的PCM单元,但其它组件是在计算机上模拟的。Ambrogio表示,他们希望在投入时间和精力打造完整的芯片之前,先检查一下这种方法是否可行。他说,他们决定使用真正的PCM设备,因为对这些设备的模拟还不太可靠,但其它组件的模拟技术已经很成熟了,他们有信心基于这个设计建立一个完整的芯片。 它目前也只能在全连接神经网络上与GPU竞争,在这个神经网络中,每个神经元都与上一层的神经元相连接,Ambrogio说。但实际上许多神经网络并没有完全连接,或者只有某些层完全连接在一起。 但Ambrogio说,最终的芯片将被设计成可以与GPU合作的形式,从而在处理其它连接时也能够处理全连接层的计算。他还认为,这种处理全连接层的更有效的方法可以被更广泛地应用。 Ambrogio说,这样的专用芯片有两个主要的应用:一是将人工智能应用到个人设备上,二是使数据中心更加高效。后者是大型科技公司的一大担忧,因为它们的服务器消耗了大量的电费。 如果直接在个人设备上应用人工智能,用户就可以不必在云端分享他们的数据,从而增加隐私性,但Ambrogio说,更令人兴奋的前景是人工智能的个性化。 他说:“在你的汽车或智能手机上应用这个神经网络,它们就能够不断地从你的经验中学习。” “你的手机会专门针对你的声音进行个性化,你的汽车也会根据你的习惯形成独特的驾驶方式。”