《莱斯大学利用预训练的扩散模型生成图像的新方法解决生成不同图像大小和分辨率的图像的问题》

  • 来源专题:新一代信息技术
  • 编译者: isticzz2022
  • 发布时间:2024-09-14
  •       (2024年9月13日)-众所周知,生成型人工智能(AI)在创建一致的图像方面一直很困难,经常出现手指和面部对称性等细节错误。此外,当提示生成不同图像大小和分辨率的图像时,这些模型可能会完全失败。

            莱斯大学计算机专家利用预训练的扩散模型生成图像的新方法——这是一类生成性人工智能模型,通过在训练的图像上添加一层又一层随机噪声来“学习”,然后通过去除添加的噪声来生成新的图像——可以帮助纠正这些问题。莱斯大学计算机科学博士生Moayed Haji Ali在西雅图举行的电气和电子工程师协会(IEEE)2024年计算机视觉和模式识别会议(CVPR)上发表的一篇同行评审论文中描述了这种称为ElasticDiffusion的新方法。Ali说:“像Stable Diffusion、Midjourney和DALL-E这样的扩散模型创造了令人印象深刻的结果,生成了相当逼真和照片级的图像。”。“但它们有一个弱点:它们只能生成方形图像。因此,在显示器或智能手表等具有不同宽高比的情况下……这就是这些模型出现问题的地方。”

            如果你告诉像Stable Diffusion这样的模型创建一个非方形图像,比如16:9的纵横比,用于构建生成图像的元素就会重复。这种重复在图像或图像对象中表现为奇怪的畸形,比如有六个手指的人或一辆奇怪的细长汽车。这些模型的训练方式也导致了这个问题。

            计算机科学副教授Vicente Ordó?ez Román说:“如果你只在一定分辨率的图像上训练模型,它们只能生成具有该分辨率的图像。”他与电气和计算机工程助理教授Guha Balakrishnan一起为Ali的工作提供建议。Ordó?ez Román解释说,这是人工智能特有的一个问题,称为过拟合,即人工智能模型非常擅长生成与训练数据相似的数据,但不能偏离这些参数太远。你可以通过在更广泛的图像上训练模型来解决这个问题,但这很昂贵,需要大量的计算能力——数百甚至数千个图形处理单元,Ordó?ez-Roman说。

            根据Haji Ali的说法,扩散模型使用的数字噪声可以转化为具有两种数据类型的信号:“局部和全局。局部信号包含像素级细节信息,如眼睛的形状或狗皮毛的纹理。全局信号包含更多的图像总体轮廓。扩散模型需要非平方纵横比帮助的一个原因是,它们通常将局部和全局信息打包在一起,他在加入Rice的Ordó?ez Román研究小组进行博士研究之前,曾在人工智能生成的视频中合成运动。当模型试图复制这些数据来解释非方形图像中的额外空间时,会导致视觉上的不完美。”

            Haji Ali论文中的ElasticDiffusion方法采用了一种不同的方法来创建图像。ElasticDiffusion没有将两个信号打包在一起,而是将局部和全局信号分离为有条件和无条件的生成路径。它从无条件模型中减去条件模型,得到一个包含全局图像信息的分数。之后,将具有局部像素级细节的无条件路径应用于象限中的图像,一次填充一个方块的细节。全局信息——图像纵横比应该是什么,图像是什么(狗、跑步的人等)——仍然是分开的,因此人工智能不会混淆信号和重复数据。无论纵横比如何,结果都是一个更清晰的图像,不需要额外的训练。Ordó?ez-Roman说:“这种方法成功地利用了模型的中间表示来扩大它们,从而获得了全局一致性。”相对于其他扩散模型,ElasticDiffusion的唯一缺点是时间。目前,哈吉·阿里(Haji Ali)的方法制作图像所需的时间高达6-9倍。目标是将其减少到与稳定扩散或DALL-E等其他模型相同的推理时间。Haji Ali说:“我希望这项研究的目的是定义……为什么扩散模型会产生这些更重复的部分,而不能适应这些不断变化的纵横比,并提出一个框架,无论训练如何,都能同时适应任何纵横比。”


  • 原文来源:https://www.eurekalert.org/news-releases/1058023
相关报告
  • 《山大科研团队利用潜在扩散模型生成新型高效抗菌肽》

    • 来源专题:先进材料
    • 编译者:李丹
    • 发布时间:2025-02-17
    • 转自全球技术地图 据ScienceAI公众号2月12日消息,山东大学药学院研究团队将潜在扩散模型与分子动力学模拟结合,开发出新型抗菌肽设计式新范式。实验显示,生成的肽序列相似度低至0.5686,其中AMP-29对耐药性白色念珠菌具有显著疗效。该方法有效解决了现有AI生成模型在抗菌肽设计中面临的序列多样性不足和抗真菌肽研究空白的瓶颈,为应对抗生素耐药性问题提供了新思路。相关科研成果发表于Science Advances期刊
  • 《深度学习方法高分辨率SAR图像船舶检测与方向提取》

    • 来源专题:中国科学院文献情报系统—海洋科技情报网
    • 编译者:liguiju
    • 发布时间:2024-02-22
    • 近日,自然资源部第二海洋研究所与浙江大学联合培养博士研究生李修楠以第一作者在期刊IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing (IF 5.5)上发表了题为“TKP-Net: A Three Keypoint Detection Network for Ships Using SAR Imagery”的研究论文,论文通讯作者为自然资源部第二海洋研究所陈鹏正高级工程师和杨劲松研究员,合作者包括国家卫星海洋应用中心安文韬研究员、自然资源部第二海洋研究所博士联陪生罗丹,郑罡研究员,硕士生陆霭莹,硕士生王梓沐。 遥感船舶监测在军事和民用领域都有重要的应用。从遥感数据,特别是从合成孔径雷达(SAR)图像中提取船舶长度、宽度和航向等信息至关重要。目前SAR图像船舶监测主要集中在船舶位置检测上。船舶方向的判别通常依赖于尾流特征的可观测性。然而,尾流特征的可观测性往往受到SAR系统参数、船舶属性、动态海洋环境等因素的影响。这使得准确的方向评估成为一项具有挑战性的任务。针对这些挑战,本研究提出了一种基于三个关键点的任意方向SAR船舶检测新方法。该方法从高分辨率SAR图像中学习船首和船尾的散射和形态信息,从而使用旋转边界框高精度确定船舶方向。该方法的第一步,将旋转框的角度预测问题转化为关键点位置的估计和匹配问题,以确定旋转框。在第二步中,使用放置在两个关键点的分类器进行船头判别,该算法在数据集上进行了测试,取得了90.8%的平均精度(AP)和92.5%的船头分类准确度,展示了其对于遥感船舶监测技术进步的潜在贡献。 本研究提出TKP-Net总体架构,分为三个主要部分,即特征提取和融合、目标检测头和预测模块。特征提取与融合模块用于提取多尺度船舶特征。目标检测头模块用于生成关键点热图、关键点偏移、旋转框的长度、宽度、方向向量和船头分类结果。预测模块结合来自检测头模块的信息形成旋转框和船头位置。 网络结构可分为三个部分,即特征提取与融合模块、检测头模块、预测模块。数据经过特征提取和融合模块后,得到热图、偏移量、尺寸参数、向量、船头分类层五个参数部分。 热图和偏移量结合起来生成关键点坐标。尺寸参数和向量来匹配关键点坐标以生成旋转边框,并使用船头分类层来确定船头位于哪个关键点。 TKP-Net算法和其他五种算法(gliding vertex、Oriented RCNN、R3Det、YOLOv5 + CSL和Faster R-CNN(OBB))的OBB检测性能进行了比较。使用的评估指标为精确率(Precision)、召回率(Recall)、F1分数(F1 Score)、每秒传输帧数(FPS)和平均准确率(AP)。TKP-Net方法在性能指标上表现出色。具体而言,Precision达到了98.2%,Recall达到了97.7%,F1分数为97.9%,AP50为90.8%,处理速度为每秒18.1帧。 全景SAR图像测试可用于验证和评估船舶检测算法在现实场景中的性能。 利用全景SAR图像进行测试可以更准确地评估算法在处理复杂背景、多目标、遮挡和其他挑战性情况时的性能。 本研究在全景SAR图像上进行了测试,船舶检测在陆地或岛屿上存在一些误检。在没有陆地或岛屿干扰的情况下,海面大型SAR舰艇的探测效果较好。我们选择图像上有尾流的船只来验证我们的船头分类的准确性。大部分船舶的航向与船舶尾流验证的方向一致。这可以在一定程度上证明我们的方法在从全景SAR图像中提取船舶方向具有良好的性能。 论文引用: Li X, Chen P*, Yang J*, et al. TKP-Net: A Three Keypoint Detection Network for Ships Using SAR Imagery[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, vol. 17, pp. 364-376, 2024, doi: 10.1109/JSTARS.2023.3329252.