《ISSCC 2025:英特尔Navid Shahriari:AI时代创新矩阵》

  • 来源专题:集成电路与量子信息
  • 发布时间:2025-02-18
  • 据芯思想(Chipinsights)微信公众号2月18日报道,英特尔新上任的代工技术开发高级副总裁Navid Shahriari日前出席ISSCC2025并发表主题为“AI时代创新矩阵”全体会议演讲。

    Navid Shahriari在演讲中描述了一系列技术,这些技术使该行业能够在从芯片到系统的各个层面取得显著进步。

    人工智能浪潮袭来

    人工智能为人类带来了变革潜力,增强了人类解决复杂问题的能力、速度和准确性的问题,以及解锁创新和理解。人工智能的闪电般快速发展是历史上前所未有的,这需要从低功耗和边缘AI设备到基于云的系统级快速发展并且在连接它们的通信网络中。对快速AI的需求系统扩展正在推动硅、封装、架构和软件。本演示文稿描述了赋予行业权力的技术矩阵从芯片到系统,在各个层面都取得了显著进展。

    人工智能为人类带来了变革潜力,增强了我们快速准确地解决复杂问题的能力,并开启了创新和理解的新领域。人工智能的闪电般快速发展是历史上前所未有的,需要在系统层面迅速发展,从低功耗和边缘人工智能设备到基于云的计算,以及连接它们的通信网络。这种对快速AI系统扩展的需求正在推动硅、封装、架构和软件的创新前沿。

    人工智能(AI)的快速发展正在推动传统计算技术的发展到其极限,需要可持续和节能的解决方案,以指数级扩展并行计算系统。计算行业必须满足日益增长的需求计算能力、内存带宽、连接性、高性能基础设施,以及所有领域的人工智能。

    如图所示的技术矩阵,从软件和系统架构到硅和封装,每个领域的进展都是必要的,但整个系统必须共同优化,以最大限度地提高性能、功率和成本。强大的生态系统合作伙伴关系和新颖的设计方法论对于有效的协同优化和更快的上市时间至关重要人工智能变革潜力的舞台。

    硅的发展

    硅缩放(Silicon scaling)一直是半导体产业进步的根本驱动力,也是创新矩阵的基石。硅路线图得益于非增量晶体管和互连架构的进步、高NA EUV光刻机以及相关的掩模和建模解决方案。每一代技术的功能扩展和改进都以设计技术协同优化(DTCO)过程为指导,该过程设定并推动逻辑、存储器和模拟/混合信号功率、性能、面积(PPA)和成本扩展的整体目标。设计和工艺技术之间的这种迭代循环对于实现持续的硅缩放效益至关重要。

    Ribbon-FET是一种全栅极晶体管,超越了FinFET架构,提供了性能扩展和工作负载灵活性。变化的Ribbon宽度在同一技术基础上为不同性能和效率需求提供了定制解决方案。

    Power Via是一种高产量的背面电源传输技术,将电源传输集成到晶体管中,将IR压降减少5倍,并为信号路由提供额外的正面布线。它满足所有JEDEC热机械应力要求,零故障,在硅中显示出超过5%的频率效益。英特尔18A是英特尔领先的工艺节点,将提供业界首个RibbonFET和PowerVia技术的组合。

    High NA EUV实现了灵活的设计规则,减少了寄生电容并提高了性能。它通过降低设计规则的复杂性和对多模式的需求,简化了电子设计自动化(EDA)的各个方面。Intel 14A正面互连针对高NA单次曝光图案化进行了优化,提高了产量和可靠性。

    赋能AI构建全场大型应用高NA EUV工具的成像场尺寸较小,但英特尔已经开发出跨边界电缝合芯片的解决方案。EDA生态系统正在创建支持这一点的工具,掩模生态系统正在努力实现无需十字线拼接的全场尺寸能力,将生产率提高23-50%。

    高NA EUV光刻需要先进的建模和掩模解决方法。英特尔使用人工智能和机器学习来实现准确性,同时管理计算成本。曲线掩模提高了图案空间利用率、工艺窗口,并显著降低了可变性。

    封装

    随着数据处理需求的增长,在更小的区域内以更低的能耗实现更高的计算能力至关重要。3DIC技术通过异构集成降低了成本和占地面积,通过更高的带宽提高了性能,并通过垂直堆叠降低了功耗。高级节点上的基片对于实现硅通孔(TSV)和高级接口、无缝集成3D元件至关重要。

    封装上的垂直和横向互连必须继续扩展,为带宽增长和提高能效提供更高的互连密度。具有成本效益的互连扩展,结合使用基于标准化的链接,如UCIe,对于创建一个即插即用的小芯片生态系统至关重要,该生态系统将实现产品多样性和定制。成熟使用玻璃来缩放封装基板互连几何形状、尺寸和信号特征是一个重要的技术载体。

    必须通过提高系统级功率传输效率和通过组件和系统级创新扩大热包络来解决人工智能应用对不断增长的功率需求。

    随着特征尺寸和制造工艺的重叠,先进的封装技术正在以一种封装和硅后端互连之间的边界越来越模糊的方式发展。此外,该包变成了一个复杂的异构结构。制造和测试过程必须不断发展,以确保产量保持较高水平。

    一个模块化设计环境,允许直接组装多硅共封装系统,优化成本、性能和带宽,这一点至关重要。需要全面的EDA工具和流程功能来跨管芯进行设计划分,实现成功的协同设计以及管芯和封装的优化。目前的3DIC设计流程缺乏热应力和机械应力建模,导致潜在的故障和影响上市时间的重新设计工作。3DIC设计工具必须涵盖实施、提取、可靠性和验证,以确保无缝集成。

    互连

    并行AI工作负载的指数级扩展给互连带宽密度、延迟和功耗带来了压力。通过将组件与密集的2.5D和3D装配技术更紧密地集成,所有这三个指标都得到了改善。新的封装技术通过最大限度地减少GPU之间非常昂贵的(在成本和功耗方面)互连,提供了更好的总体拥有成本(TCO)。传输每个数据比特的能量随信道损耗而变化。这种权衡推动了低功耗、高密度封装内通信的UCIe等行业规范的定义。UCIe在<1pJ/bit的情况下,每毫米管芯周长可达1.35TB/s。

    主板和机架内的较长互连构成了扩展网络拓扑中的高带宽域,需要增加数据序列化以考虑实际的连接器信号密度,从而扩展聚合带宽。串行全通道数据速率每3-4年扩展2倍,包括以太网、PCIe和OIF-CEI等行业规范。最新生产的有线SerDes已达到212Gb/s PAM4,支持4-6pJ/bit的机架内(约1米范围)通信。模拟电路和数字均衡的每比特能量都继续受益于工艺技术的扩展。

    随着有线互连数据速率的不断扩大,由于更高符号率下的信道损耗更高,SerDes重定时器之间可以桥接的距离减小。添加更多的重定时器可以扩展覆盖范围,但会增加功耗、延迟和成本。这种经验权衡导致了从海底电缆到机架到机架网络的一系列应用中采用了光互连。此外,使用光学器件将高带宽域的范围扩展到机架之外与人工智能的扩展网络战略相一致。因此,光学互连需要移动到机架中以扩展带宽,并达到可接受的功率包络。

    正在开发诸如共封装光学器件(CPO)和直接驱动线性光学器件等技术来实现这一转变。英特尔最近展示了一个基于英特尔内部硅光子学技术和224Gb/s PAM4的4Tb/s(每个方向8根光纤×8个波长/光纤×2Gbps/波长)双向全集成光计算互连(OCI)小芯片,该芯片在23km光纤上具有直接驱动线性光学元件。全行业正在努力加快这一机架内光互连生态系统的发展,开发高产量的制造工艺、材料和设备,同时提高带宽密度、总功率、可靠性和成本。

    电力输送

    像AI这样的并行工作负载的每包功耗正在迅速扩大。为封装供电的一种常见方法是主板电压调节器(MBVR)。这些调节器将板级电源(例如12V)降压至封装上的管芯所使用的电压(VOUT)。无论是位于封装旁边(横向MBVR)还是封装下方(垂直MBVR),MBVR提供的电流密度都无法跟上未来高性能芯片的步伐。此外,调节器效率随着功率和电流的增加而降低(I2R损耗),从而降低了系统性能。需要解决方案,使电压转换更接近具有高电流密度、转换效率和调节带宽的管芯。

    一种解决方案是使用完全集成的电压调节器(FIVR),将功率转换的最后一步带到封装上。在封装上进行最终电压降压可以通过降低给定功率的电流来减少将电源轨布线到封装上时的能量损失。十多年前,英特尔首次在Haswell产品中引入FIVR,使用密集的片上电容器和空心封装电感器。

    第一代FIVR将1.8V输入电源轨转换为多个管芯上电压域。在过去的十年中,这种架构已被用于许多产品中,并不断改进,如更密集的封装内磁电感器和片上电容器。除了集成到SoC中的FIVR外,英特尔还开发了一种基于CMOS的独立2.4V IVR小芯片,该芯片使用英特尔的高密度电容器(HDMIM)技术开发了一个具有连续可扩展电压转换比的开关电容电压调节器(SCVR)。

    使用现有的MBVR架构,封装功率容量进一步扩大到1-2kW以上,将导致稳压器效率出现不可接受的下降。通过将高压(12V)电源转换集成到封装上,可以缓解这个问题。12V稳压器集成将减少输送到封装中的电流,从而降低I2R损耗。一种有前景的方法是将封装上的高压(12V)开关电容电压调节器(SCVR)与较低电压(1.8-2.4V)IVR配对,进行两步转换。这种两步架构的功率密度和效率依赖于密集的封装无源器件,如嵌入式深沟槽电容器(eDTC)和磁电感器,以及密集的管芯上电容器。

    使用氮化镓(GaN)等宽带隙工艺技术可以使高压转换器比硅基解决方案具有更高的效率和密度。然而,功率转换器的封装实现需要更高的开关频率和集成驱动器,这在纯GaN工艺上是不支持的。用硅CMOS制造GaN器件可以为高压功率转换器的封装集成开辟更多机会,因为它可以在同一芯片上设计CMOS驱动器和GaN功率FET。为此,英特尔最近展示了一种将硅基氮化镓技术结合在同一个300mm晶片上的技术。该技术可以支持输入电压高达12V的高压IVR选项,使功率扩展超过1-2kW。

    架构和软件

    下一代计算架构必须推动系统性能指标(如每瓦性能)的指数级改进,同时解决热和电源完整性挑战。创新应通过先进的封装和硅工艺堆叠和互连晶圆和小芯片,实现有凝聚力的系统。此外,它们必须支持各种工作负载的自定义加速器的无缝集成。

    软件是创新矩阵的重要组成部分,必须通过开源生态系统中的协作、标准化和互操作性来推进。自动化应增强安全性并简化流程,而高度优化的软件对于高效利用硅资源至关重要。在数千个GPU上分发软件会带来巨大的带宽和延迟挑战,比如高性能计算。人工智能软件将是微调系统元素、确保无缝集成和实现显著进步的关键。

    超越传统计算

    神经形态和量子计算等技术对于扩大人工智能所需的效率和速度的突破至关重要。自2018年以来,全球250多个实验室使用的英特尔Loihi研究芯片表明,采用CMOS工艺技术制造的神经形态芯片可以为广泛的示例算法和应用带来数量级的收益。虽然其中许多例子涉及目前与当今软件和人工智能方法不兼容的新型大脑启发算法,但一类新兴技术表明,在不久的将来,目前广泛使用的深度学习和变换器方法将实现1000倍的增益。这些神经形态创新对于将先进的人工智能功能扩展到实时环境中运行的功率、延迟和数据受限的智能设备至关重要。

    量子计算代表了一种新的范式,它利用量子物理学的力量以比传统计算快得多的速度解决复杂问题。它有望彻底改变行业,解决包括气候变化在内的关键问题;化学工程;药物设计和发现;金融;以及航空航天设计。在将这项变革性技术从实验室过渡到工程领域方面取得稳步进展,为有用的、短期的应用提供客户解决方案,这一点至关重要。英特尔独特的量子研究方法涵盖了整个计算栈,包括量子比特制造、用于量子比特控制的低温CMOS技术、软件、编译器、算法和应用程序。凭借50多年的大规模晶体管制造经验,英特尔正在利用其成熟的技术开发硅自旋量子比特,作为量子计算可扩展性的最佳途径。英特尔还投资于定制设计的低温探测器等功能,这些功能大大加快了英特尔的量子测试和验证工作流程。

    量子计算硬件的当前状态还不具备对当今人工智能产生直接影响的鲁棒性和规模。人工智能与量子计算机的另一个挑战是如何将大量数据输入这些复杂的机器。然而,一旦我们有了可扩展的容错量子计算机,就会有明显的好处。量子计算机可以比经典计算机更快地执行复杂的计算,这可以更快地训练和分析人工智能模型。量子计算的两个关键原理是叠加和纠缠,这使得可以同时探索多个解决方案,这可以直接有利于人工智能模型的训练和优化。并行分析大量数据的可能性也可以提高人工智能识别模式的能力,例如在图像或语音中。可以开发直接优化以利用量子特性的新AI算法,而不是使用经典的AI算法。最后,量子计算机不应被视为经典计算机的替代品,而应被视作为特殊应用的计算加速器。因此,未来人工智能的系统解决方案可能会利用经典计算和量子计算的混合实现。

    生态系统协作

    快速开发下一代高级计算系统将需要整个行业生态系统在这一创新矩阵上进行协作。从制造到设计工具,从知识产权到系统设计再到软件,与整个技术栈的最终用户和合作伙伴互动,确保开发过程符合市场需求和时间表,环境可持续,并利用整个生态系统的关键学习和发展。系统级协同优化需要密切协作才能实现快速进展。跨学科的专业知识和跨战略伙伴关系的知识共享对于有效解决问题和加快发展周期至关重要。利用跨行业优势并避免重复工作将使团队能够更有效地工作。

    行业挑战与机遇

    近二十年前,CPU时钟频率缩放面临着一个困境——对指数级性能改进的持续追求在功率密度方面遇到了障碍。其结果是一套新的并行处理器架构,以及一系列支持硅、封装和散热、互连、电源传输和核心架构的技术。今天,我们处于类似的情况,指数级性能扩展(这次是为了支持人工智能)在功率、连接性和成本方面遇到了根本性的挑战。再一次,我们系统的增量扩展是不够的,我们将需要新的方法来解决这个问题——人工智能创新矩阵。从工艺技术扩展到3DIC系统设计,再到电源传输、互连和核心架构,都不乏工程挑战。我们需要这些领域创新的综合效益,以可制造、可持续和经济高效的方式满足行业对计算能力的需求。

  • 原文来源:https://mp.weixin.qq.com/s/1kcjxLhj06KEClZDocbG-g
相关报告
  • 《英特尔推出全球首个面向AI时代的系统级代工》

    • 来源专题:集成电路
    • 编译者:李衍
    • 发布时间:2024-02-23
    • 据官网2月21日报道,英特尔宣布推出为AI时代打造、更具可持续性的系统级代工——英特尔代工(Intel Foundry),并拓展其路线图,以在接下来的几年内确立并巩固制程技术领先性。英特尔还强调了其代工客户的增长势头及生态系统合作伙伴的更多支持。Synopsys、Cadence、Siemens和Ansys等生态系统合作伙伴,均确认其工具、设计流程和IP组合已完成针对英特尔先进封装和Intel 18A制程技术的验证,将加速英特尔代工客户的芯片设计。 英特尔公司首席执行官帕特·基辛格表示:“AI正在深刻地改变世界以及我们思考技术及其‘芯’动力的方式。这为世界各地富于创新力的芯片设计公司和面向AI时代、业界领先的系统级代工服务——英特尔代工——带来了前所未有的机遇。英特尔代工可以与客户携手开拓全新的市场,改变人们使用技术的方式,让他们的生活变得更美好。” “四年五个节点”之后的制程路线图 英特尔拓展了制程技术路线图,新增了Intel 14A和数个专业节点的演化版本。英特尔还证实,其“四年五个制程节点”路线图仍在稳步推进,并将在业内率先提供背面供电解决方案。英特尔预计将于2025年通过Intel 18A制程节点重获制程领先性。 英特尔全新的制程路线图包括了Intel 3、Intel 18A和Intel 14A技术的演化版本,如Intel 3-T就通过硅通孔技术针对3D先进封装设计进行了优化,很快将生产准备就绪。英特尔还重点介绍了其在成熟制程节点上的进展,如今年1月份宣布与UMC联合开发的全新12纳米节点。英特尔代工计划每两年推出一个新节点,并一路推出节点的演化版本,通过英特尔领先的制程技术帮助客户不断改进产品。 此外,英特尔代工还宣布将FCBGA 2D+ 纳入英特尔代工先进系统封装及测试(Intel Foundry ASAT)的技术组合之中。这一组合将包括FCBGA 2D、FCBGA 2D+、EMIB、Foveros和Foveros Direct技术。 客户里程碑:微软成为Intel 18A新客户 英特尔的客户表示了对英特尔系统级代工的支持。微软董事长兼首席执行官Satya Nadella在Intel Foundry Direct Connect大会发言中宣布,微软计划采用Intel 18A制程节点生产其设计的一款芯片。 Satya Nadella表示:“我们正处在一个非常激动人心的平台转换过程中,这将从根本上改变每个企业和整个行业的生产力。为了实现这一愿景,我们需要先进、高性能和高质量半导体的可靠供应。这就是为什么微软对和英特尔代工合作感到兴奋,计划采用Intel 18A制程节点生产一款我们设计的芯片。” 英特尔代工在各代制程节点(包括Intel 18A、Intel 16和Intel 3)及Intel Foundry ASAT(包括先进封装)上均已拥有大量客户设计案例。 总体而言,在晶圆制造和先进封装领域,英特尔代工的预期交易价值(lifetime deal value)超过150亿美元。 IP和EDA供应商:为基于英特尔制程和封装技术的芯片设计做好准备 IP(知识产权)和EDA(电子设计自动化)合作伙伴Synopsys、Cadence、Siemens、Ansys、Lorentz和Keysight表示,工具和IP已准备就绪,可帮助代工客户加速基于业界首推背面供电方案的Intel 18A制程节点的先进芯片设计。此外,这些合作伙伴还确认,其EDA和IP已在英特尔各制程节点上启用。 同时,针对英特尔EMIB 2.5D封装技术,几家供应商还宣布计划合作开发组装技术和设计流程。这些EDA解决方案将确保英特尔能够更快地为客户开发、交付先进封装解决方案。 英特尔还公布了“新兴企业支持计划”(Emerging Business Initiative),将与Arm合作,为基于Arm架构的系统级芯片(SoCs)提供先进的代工服务。这一计划支持初创企业开发基于Arm架构的技术,并提供必要IP、制造支持和资金援助,为Arm和英特尔提供了促进创新和发展的重要机会。 系统级代工:英特尔代工在AI时代的差异化优势 英特尔的系统级代工模式提供了从工厂网络到软件的全栈式优化。英特尔及其生态系统提供不断改进的技术、参考设计和新标准,让客户能够在整个系统层面进行创新。 全球化、有韧性、更可持续和值得信任的系统级代工 在可持续性方面,英特尔的目标同样是成为代工业界佼佼者。2023年,据初步估算,英特尔全球各地的工厂的可再生电力使用率达到了99%。在Intel Foundry Direct Connect大会上,英特尔重申了其承诺,即在2030年达成100%使用可再生电力,水资源正效益和零垃圾填埋。此外,英特尔还再次强调了其在2040年实现范围1和范围2温室气体(GHG)净零排放,2050年实现范围3温室气体净零上游排放的承诺。 原文链接:https://www.intel.com/content/www/us/en/newsroom/news/foundry-news-roadmaps-updates.html
  • 《AI持续升温 英特尔/英伟达/谷歌谁会是最终赢家?》

    • 来源专题:中国科学院文献情报制造与材料知识资源中心 | 领域情报网
    • 编译者:姜山
    • 发布时间:2017-07-25
    • 人工智能(AI)市场持续升温,但产业对于这些系统应如何建构仍十分分歧,大型科技公司动辄投入数十亿美元购并新创公司或支持研发,各国政府也提供大学和研究机构大笔研究经费,希望在这波AI竞赛中脱颖而出。 据Semiconductor Engineering报导,研究机构Tractica的数据显示,全球AI市场规模将在2025年成长至368亿美元,只不过目前对于AI的定义或是需要分析的数据类型都还没有共识,OneSpin Solutions总裁暨执行长Raik Brinkmann指出,眼下有三个问题需要解决,第一是大量待处理的数据,其次是并行处理和互连技术,第三则是移动大量数据导致的耗能问题。 目前市场首批AI芯片几乎都是以现成的CPU、GPU、FPGA和DSP加以组合而成,尽管英特尔(Intel)、Google、NVIDIA、高通(Qualcomm)和IBM等公司正研发新的设计,最后谁能胜出仍不明朗。无论如何,这些系统仍需有至少一个CPU负责控制,但可能需要不同类型的协同处理器。 AI处理多牵涉到矩阵乘法和加法,使用并行运作的GPU成本较低,但缺点是耗能较高。内建DSP区块和本地存储器的FPGA可获得较佳的能源效率,但价格比较昂贵。Mentor Graphics董事长暨执行长Wally Rhines表示,有些人使用标准GPU执行深度学习,同时也有许多人采用CPU,为了达到使类神经网路行为更像人脑的目标,刺激了新的一波设计浪潮。 视觉处理是目前最受关注的AI区块,目前大部分的AI研究与自动驾驶使用的视觉处理有关,这项技术在无人机和机器人方面的应用也与日俱增。Achronix公司总裁暨执行长Robert Blake指出,影像处理的运算复杂度很高,市场需要5~10年时间沉淀,不过因为变数精度(variable precision arithmetic)运算需要,可程式逻辑元件的角色会更吃重。 FPGA非常适合矩阵乘法,可程式化特性增加了设计上的弹性,用来做决策的数据部分会在本地处理,部分则由数据中心进行,但两者的比例会因应用的不同而改变,并影响AI芯片和软件设计。 目前汽车使用的AI技术主要是侦测和避免物体,这和真正的人工智能还有段差距。真正的AI应该具有一定程度的推理,例如判断如何闪避正在穿越马路的人群。前者的推论为根据传感器输入的大量数据处理和预编程行为得来,后者则能够作出价值判断,思考各种可能后果以找出最佳选择。 这样的系统需要极高的频宽并内建安全机制,此外还必须能保护数据安全,许多根据现成零件开发的设计很难兼顾运算和编程效率。Google试图以专为机器学习开发的TPU特殊应用芯片改变这样的方程式,并开放TensorFlow平台以加快AI发展速度。 第一代AI芯片将重点放在运算能力和异质性,但这就像早期的IoT装置,在不确定市场如何演变的情况下,业者只好把所有东西都加进去,之后再找出瓶颈,针对特定功能设计,取得功率和性能上的平衡。 随着自驾车使用案例的增加,AI应用范围也会逐渐扩大,这也是为何英特尔在2016年8月收购Nervana的原因。Nervana开发的2.5D深度学习芯片利用高性能处理器核心将数据从载板移到高频宽存储器,希望比GPU解决方案缩短100倍的深度学习模型训练时间。 量子运算则是AI系统的另一个选择。IBM研究部门副总裁Dario Gil解释,如果4张卡片中有3张蓝卡1张红卡,使用传统运算猜中红卡的机率为4分之1,使用量子电脑及叠加量子位元的纠缠(entanglement),系统每次都可以提供正确答案。 AI并没有所谓最适合的单一系统,也没有一种应用可以吃遍各种市场,这些进一步的细分市场都需要再精致化、再扩大寻找可用工具,并需要生态系统来支持,但低功率、高吞吐量及低延迟则是AI系统的通用需求。半导体产业经过多年仰赖制程微缩元件以改善功率,性能和成本,如今则需要重新思考进入新市场的方法。