《苏州纳米所刘欣研究员、周扬帆博士等在非凸优化算法研究方面取得进展》

  • 来源专题:生物安全知识资源中心—领域情报网
  • 编译者: hujm
  • 发布时间:2023-02-24
  •   近年来,深度学习在材料科学领域中的原子模拟、材料成像、光谱分析等方向取得快速发展。与此同时,在芯片设计领域,为了满足边缘计算场景的算力需求,人工智能芯片也正在逐步完成与深度神经网络的高度适配。目前,由OpenAI公司推出的ChatGPT模型正在引领一次新的技术变革,该模型的本质就是一个超大规模的深度神经网络,属于深度学习框架。根据实践目标可以将深度学习划分为两个阶段:训练阶段和推理阶段。训练阶段是指通过一定的训练算法得到深度模型的参数;推理阶段就是将深度模型应用到实际场景中进行预测和分析,比如目前的ChatGPT模型就已经处于推理阶段。

      由于深度模型具有庞大的特征参数和高维的数据,比如ChatGPT模型包含1750亿个参数、BERT模型含有1亿个以上的参数,因此深度模型训练越来越成为一项极具挑战性的任务。通常来说,为了训练深度模型,可以通过最小化损失函数的值,将其转化为一个典型的非凸优化问题。然而,非凸优化问题中优化算法的收敛性往往是一个难以解决的问题。另外,因高维征向量带来的高昂计算成本问题也是制约深度模型训练任务顺利进行的另一个难题。

      中国科学院苏州纳米技术与纳米仿生研究所刘欣研究员、周扬帆等针对非凸优化问题中自适应优化算法的高维向量运算问题,提出了一种基于块坐标下降的自适应优化算法,简称为RAda(伪代码如图1所示)。该算法利用块坐标下降优化技术,在每轮迭代时随机的选取特征向量的一块坐标完成梯度计算及其他向量运算,从而大大减少每轮迭代的计算成本,减轻了深度模型训练对硬件设备的严重依赖。

      其中T表示迭代次数,p、η、σ均为参数,f表示损失函数。从上述结论可推论出RAda在非凸条件下可以收敛到一个具有δ精度的近似解。

      RAda算法的一个重要优势是每轮迭代的计算成本很低,不仅耗时少,而且对硬件算力的要求也很低。为此,实验部分对RAda算法的计算成本进行了对比验证。图2展示了RAda和其他对比算法在CIFAR-10和CIFAR-100数据集上训练损失随运行时间的变化情况。RAda达到最好精度的运行时间最少,说明其计算成本最低。

      综上,该研究工作从理论上证明了RAda在非凸情况下具有理论保证的收敛性,并且通过实验验证了该算法的计算成本比其他主流算法更低,这可以帮助完成很多场景下的深度模型训练任务,尤其是在边缘计算中端侧算力严重受限的情况下。因此,在边缘端人工智能芯片研发领域具有很大的应用前景。

      相关工作以Randomized block-coordinate adaptive algorithms for nonconvex optimization problems为题发表在人工智能顶级期刊Engineering Applications of Artificial Intelligence上。文章第一作者为中国科学院苏州纳米技术与纳米仿生研究所博士研究生周扬帆,通讯作者为刘欣研究员。该工作得到了苏州市外国专家计划等项目的资助。

  • 原文来源:http://www.sinano.cas.cn/news/kyjz/202302/t20230221_6681174.html;https://linkinghub.elsevier.com/retrieve/pii/S0952197623001525
相关报告
  • 《苏州纳米所康黎星等在碳纳米管限域合成一维磁性原子链研究方面取得新进展》

    • 来源专题:生物安全知识资源中心—领域情报网
    • 编译者:hujm
    • 发布时间:2023-10-12
    •   低维磁性材料由于其特殊的磁学性质,在基础理论发展和自旋电子器件应用均有重要研究价值,因而引起了研究人员的广泛兴趣。二维磁性材料研究在过去的十多年里取得了长足进展,如铬基卤化物范德瓦尔斯磁体 CrX3(X=I、Br、Cl)具有高度可调的磁性能,表现出明显的层数依赖。然而,这些奇妙的特性能否从二维延续到一维是一个极具吸引力和挑战性的问题。合成高质量一维磁性原子链是研究其物理特性的重要前提。然而,将二维宏观尺寸缩小到一维原子链,必然会导致卷曲和不稳定,这使得合成和表征非常具有挑战性。   针对上述问题,中国科学院苏州纳米所康黎星研究员等人采用碘辅助真空化学气相传输(I-VCVT)方法,以碳纳米管为模板,在其空腔内部高效率地制备了高质量一维CrCl3原子链,并在光谱研究中发现了一维原子链结构与碳纳米管之间的电荷转移。对该体系动态磁性的全面研究发现,一维CrCl3原子链在3 K左右存在自旋玻璃态冻结。该工作为控制合成一维磁性原子链提供了一个有效的策略,其丰富的磁学性质提供了物质基础充分研究其内在物理机制,也为未来开发基于一维磁性的自旋电子器件提供了基础。   使用化学气相传输中常用的碘作为气相传输剂,增强了前驱体从碳纳米管表面向内部的扩散行为,从而获得了结晶质量优异的高连续性一维CrCl3原子链。  大范围的STEM以及EDX元素图谱的扫描表明一维 CrCl3 原子链被高效及均匀地封装在 SWCNT 的空腔内,原子分辨的低压TEM以及模拟图揭示了被封装的一维CrCl3原子链的结构。   Raman表征发现了碳纳米管与封装物之间的主客体电荷转移,以及由此产生的G模式蓝移和RBM模式的抑制,XPS的C 1s峰向低能量移动佐证了主客体电荷转移。  相关工作以Efficient Synthesis of Highly Crystalline One-Dimensional CrCl3 Atomic Chains with a Spin Glass State为题发表于ACS Nano,中国科学院苏州纳米所博士生李云飞和博士后李阿蕾、李晶为论文共同第一作者。上海科技大学曹克诚研究员和中国科学院苏州纳米所康黎星研究员、李清文研究员为共同通讯作者。该研究获得了国家自然科学基金、江苏省青年基金和中国科学技术大学“雏鹰基金”等项目的支持。   
  • 《清华大学曹化强《自然·通讯》:在黑磷烯纳米带研究方面取得重要进展》

    • 来源专题:光电情报网信息监测服务平台
    • 编译者:husisi
    • 发布时间:2020-08-18
    • 8月6日,清华大学化学系曹化强教授课题组及其合作者在《自然·通讯》(Nature Communications)在线发表了题为“将块体黑磷以‘拉开拉链’方式制备成锯齿取向黑磷烯纳米带”(Unzipping of black phosphorus to form zigzag-phosphorene nanobelts)的研究论文。研究团队利用电化学手段控制氧分子浓度,制备出沿锯齿型(zigzag)取向的纳米带;同时,通过调节电流密度可实现黑磷烯纳米片、纳米带和量子点的可控制备;通过理论计算揭示了氧分子对黑磷烯实现定向切割的机理;利用所制备的黑磷烯纳米带构建场效应晶体管器件并对其载流子输运特性进行了深入研究。 黑磷烯二维纳米结构,包括单原子层黑磷烯和少层黑磷烯(<10层)。与石墨烯不同,黑磷烯本身具有带隙以及独特的各向异性。理论计算预测,黑磷烯在zigzag方向具有比摇椅型(armchair)方向具有更加优异的热学、力学以及半导体性质,因此zigzag取向黑磷烯纳米带在热电、柔性电子和量子信息技术等领域的应用引起了研究者的广泛兴趣。然而,受限于黑磷烯的稳定性以及现有的合成技术,黑磷烯纳米带有效制备成为其研究及应用的关键瓶颈。 受启发于黑磷在空气环境中可被氧化分解,团队设计了一种通过电化学方法,通过改变电流密度有效调节离子插层速率和黑磷烯周边的氧分子浓度,从而可控制备黑磷烯纳米结构的维度和尺寸,获得一系列黑磷烯纳米结构,包括纳米片、纳米带和量子点(图1)。结构表征证明了所制备的黑磷烯纳米带具有很好的结晶性和柔韧性。 图1 锯齿取向黑磷烯纳米带(z-PNB)的结构表征 图2 电化学解离黑磷晶体形成锯齿取向黑磷烯纳米带(z-PNB)的机理 该电化学解离机制认为制备过程分为两步,即离子插层和氧驱动解离过程(图2)。在电化学过程中,BF4-离子沿黑磷a轴方向(即[100]方向,沿zigzag方向)插入黑磷晶体层间,同时,氧分子被化学吸附、解离在黑磷表面上形成悬键氧,通过悬键氧与水分子形成氢键及P-O-P水解,导致P-P键断开,沿着zigzag方向以“拉开拉链”的方式持续进行,被解离成纳米带。理论计算分析、比较了各种氧分子在黑磷烯上的吸附和解离路径(图3)。结果表明,形成间隙氧对是解离黑磷晶体P-P键并最终形成zigzag取向黑磷烯纳米带的关键步骤。 图3 氧驱动解离块体黑磷反应机理的理论计算 研究团队采用铜网掩膜法设计制备了基于黑磷烯纳米带的场效应晶体管器件并探究了其载流子输运特性,可实现器件p-n型之间的转化,为黑磷烯纳米带在主动式矩阵显示技术、射频器件及互补型金属氧化物半导体器件技术中的应用提供了关键材料和开辟新的研究方向。 图4 黑磷烯纳米带(z-PNB)的电子性能 清华大学化学系教授曹化强、清华大学微纳电子系副研究员谢丹和英国剑桥大学材料科学与冶金系教授Anthony K. Cheetham为本文共同通讯作者,化学系博士生刘志方、微纳电子系博士生孙翊淋为共同第一作者。南开大学材料科学与工程学院、稀土与无机功能材料研究中心李伟教授,中国科学院高能物理研究所王嘉鸥副研究员参与了该项研究。本工作获得了国家重点研发计划和国家自然科学基金的支持。