(2024年9月13日)-众所周知,生成型人工智能(AI)在创建一致的图像方面一直很困难,经常出现手指和面部对称性等细节错误。此外,当提示生成不同图像大小和分辨率的图像时,这些模型可能会完全失败。
莱斯大学计算机专家利用预训练的扩散模型生成图像的新方法——这是一类生成性人工智能模型,通过在训练的图像上添加一层又一层随机噪声来“学习”,然后通过去除添加的噪声来生成新的图像——可以帮助纠正这些问题。莱斯大学计算机科学博士生Moayed Haji Ali在西雅图举行的电气和电子工程师协会(IEEE)2024年计算机视觉和模式识别会议(CVPR)上发表的一篇同行评审论文中描述了这种称为ElasticDiffusion的新方法。Ali说:“像Stable Diffusion、Midjourney和DALL-E这样的扩散模型创造了令人印象深刻的结果,生成了相当逼真和照片级的图像。”。“但它们有一个弱点:它们只能生成方形图像。因此,在显示器或智能手表等具有不同宽高比的情况下……这就是这些模型出现问题的地方。”
如果你告诉像Stable Diffusion这样的模型创建一个非方形图像,比如16:9的纵横比,用于构建生成图像的元素就会重复。这种重复在图像或图像对象中表现为奇怪的畸形,比如有六个手指的人或一辆奇怪的细长汽车。这些模型的训练方式也导致了这个问题。
计算机科学副教授Vicente Ordó?ez Román说:“如果你只在一定分辨率的图像上训练模型,它们只能生成具有该分辨率的图像。”他与电气和计算机工程助理教授Guha Balakrishnan一起为Ali的工作提供建议。Ordó?ez Román解释说,这是人工智能特有的一个问题,称为过拟合,即人工智能模型非常擅长生成与训练数据相似的数据,但不能偏离这些参数太远。你可以通过在更广泛的图像上训练模型来解决这个问题,但这很昂贵,需要大量的计算能力——数百甚至数千个图形处理单元,Ordó?ez-Roman说。
根据Haji Ali的说法,扩散模型使用的数字噪声可以转化为具有两种数据类型的信号:“局部和全局。局部信号包含像素级细节信息,如眼睛的形状或狗皮毛的纹理。全局信号包含更多的图像总体轮廓。扩散模型需要非平方纵横比帮助的一个原因是,它们通常将局部和全局信息打包在一起,他在加入Rice的Ordó?ez Román研究小组进行博士研究之前,曾在人工智能生成的视频中合成运动。当模型试图复制这些数据来解释非方形图像中的额外空间时,会导致视觉上的不完美。”
Haji Ali论文中的ElasticDiffusion方法采用了一种不同的方法来创建图像。ElasticDiffusion没有将两个信号打包在一起,而是将局部和全局信号分离为有条件和无条件的生成路径。它从无条件模型中减去条件模型,得到一个包含全局图像信息的分数。之后,将具有局部像素级细节的无条件路径应用于象限中的图像,一次填充一个方块的细节。全局信息——图像纵横比应该是什么,图像是什么(狗、跑步的人等)——仍然是分开的,因此人工智能不会混淆信号和重复数据。无论纵横比如何,结果都是一个更清晰的图像,不需要额外的训练。Ordó?ez-Roman说:“这种方法成功地利用了模型的中间表示来扩大它们,从而获得了全局一致性。”相对于其他扩散模型,ElasticDiffusion的唯一缺点是时间。目前,哈吉·阿里(Haji Ali)的方法制作图像所需的时间高达6-9倍。目标是将其减少到与稳定扩散或DALL-E等其他模型相同的推理时间。Haji Ali说:“我希望这项研究的目的是定义……为什么扩散模型会产生这些更重复的部分,而不能适应这些不断变化的纵横比,并提出一个框架,无论训练如何,都能同时适应任何纵横比。”