由于一种新的架构设计,正在努力解决部署人工智能模型的高昂成本的企业领导者可以找到一个喘息的机会。
虽然生成式人工智能的能力很有吸引力,但它们对训练和推理的巨大计算需求导致了高昂的费用和日益严重的环境问题。这种低效率的核心是模型的自回归过程的“基本瓶颈”,这种自回归过程一个接一个地顺序生成文本。
对于处理大量数据流的企业,从物联网网络对于金融市场来说,这种限制使得生成长期分析既缓慢又具有经济挑战性。然而,一篇来自腾讯AI和清华大学提出替代方案。
人工智能效率的新方法
该研究引入了连续自回归语言模型(CALM)。这种方法重新设计了生成过程,以预测连续的矢量而不是离散的令牌。
高保真自动编码器“将一大块K个标记压缩成一个连续的向量”,它拥有更高的语义带宽。
这个模型不是分三步处理像“the”、“cat”、“sat”这样的东西,而是把它们压缩成一步。这种设计直接“减少了生成步骤的数量”,降低了计算负荷。
实验结果显示了更好的性能-计算折衷。一个由四个令牌组成的冷静的人工智能模型为企业提供了“可与强大的离散基线相媲美的性能,但计算成本要低得多”。
例如,一个平静的模型比具有类似能力的基线转换器需要的训练错误少44 %,推理错误少34%。这意味着节省了培训的初始资本费用和推理的经常性操作费用。
为连续领域重建工具包
从有限的、离散的词汇转移到无限的、连续的向量空间打破了标准的LLM工具包。研究人员必须开发一个“全面的无可能性框架”来使新模型可行。
对于训练,模型不能使用标准的softmax层或最大似然估计。为了解决这个问题,该团队使用了一个带有能量转换器的“无可能性”目标,该目标在不计算显式概率的情况下奖励模型的准确预测。
这种新的培训方法也需要新的评估标准。像困惑这样的标准基准是不适用的,因为它们依赖于模型不再计算的相同可能性。
该团队提出了BrierLM,这是一种基于Brier分数的新度量,可以纯粹通过模型样本进行估计。验证证实了BrierLM是一个可靠的替代方案,显示了与传统损失指标的“Spearman等级相关性为-0.991”。
最后,框架恢复了受控生成,这是企业使用的一个关键特性。没有概率分布,标准温度采样是不可能的。该论文介绍了一种新的“无似然采样算法”,包括一种实用的批量近似方法,以管理输出精度和多样性之间的权衡。
降低企业人工智能成本
这项研究让我们看到了未来,生成式人工智能不再纯粹由越来越大的参数数来定义,而是由建筑效率来定义。
目前的模式扩展之路正在遭遇收益递减和成本上升的困境。CALM框架建立了一个“LLM扩展的新设计轴:增加每个生成步骤的语义带宽”。
虽然这是一个研究框架,而不是现成的产品,但它指出了一条通向超高效语言模型的强大且可扩展的途径。在评估供应商路线图时,技术领导者应该超越模型大小,开始询问架构效率。
减少每个生成令牌的FLOPs的能力将成为一个决定性的竞争优势,使人工智能能够在整个企业中更经济、更可持续地部署,以降低成本——从数据中心到数据密集型边缘应用。