《阿里巴巴发布开源视频生成新模型Wan2.2》

  • 来源专题:新一代信息技术
  • 编译者: 张嘉璐
  • 发布时间:2025-08-07
  •   阿里巴巴发布全球首个基于MoE(混合专家)架构的开源大视频生成模型Wan2.2系列。该系列将显著提升开发者利用AI制作电影级视频的能力,包含文生视频模型Wan2.2-T2V-A14B、图生视频模型Wan2.2-I2V-A14B,以及支持文图生视频统一框架的混合模型Wan2.2-TI2V-5B。

      基于MoE架构与美学数据训练,Wan2.2-T2V-A14B与Wan2.2-I2V-A14B可生成具有电影级质感的视频,支持对光影、昼夜、色调、镜头角度、画幅、构图及焦距的精准控制。这两个MoE模型在复杂动作生成上实现显著突破,包括生动面部表情、动态手势及复杂运动场景,同时能遵循物理规律实现真实效果呈现。

      针对长序列令牌导致的高计算消耗问题,模型在去噪阶段采用双专家设计:高噪专家负责整体场景布局,低噪专家优化细节纹理。尽管总参数量达270亿,但单步仅激活140亿参数,计算消耗降低达50%。

      Wan2.2通过电影级提示词系统实现美学微调,对光影、照明、构图、色调等维度进行分类标注,确保精准传达用户艺术意图。其训练数据量较Wan2.1大幅提升,其中图像数据增加65.6%,视频数据增加83.2%,在复杂场景与动作生成方面表现更优。

      混合模型Wan2.2-TI2V-5B采用高压缩3D VAE架构,时空压缩比达4x16x16,整体信息压缩率提升至64倍。仅需单个消费级GPU即可在数分钟内生成5秒720P视频,为开发者和内容创作者提供高效可扩展的解决方案。

      目前Wan2.2系列模型已在Hugging Face、GitHub及阿里云开源社区ModelScope开放下载。

  • 原文来源:https://www.newelectronics.co.uk/content/news/alibaba-releases-wan22-a-new-open-source-video-generation-model
相关报告
  • 《OpenAI首个视频生成模型Sora发布》

    • 来源专题:数智化图书情报
    • 编译者:程冰
    • 发布时间:2024-02-18
    • 2024年2月16日,OpenAI宣布推出全新的生成式人工智能模型“Sora”。Sora模型是一种先进的文本转视频生成模型,它代表了人工智能在视频内容创作领域的一次重大突破。Sora模型的核心能力在于,它能够根据用户输入的文本描述,生成长达一分钟的高质量视频,这些视频不仅视觉质量高,而且与用户的文本提示高度一致。这一技术的出现,预示着视频制作和内容创作方式的革命性变化。 Sora模型的工作原理: Sora模型基于扩散型变换器(diffusion transformer)架构,这是一种深度学习模型,能够将随机噪声逐渐转化为有意义的图像或视频内容。Sora通过训练,学会了理解和处理文本提示,将用户的描述转化为视频内容。它不仅能够生成具有连贯性的场景和运动的镜头,还能够模拟复杂的场景和角色表情,为视频增添更多细节和想象力。 Sora模型的应用场景: Sora模型的应用领域非常广泛,包括但不限于:视频制作: 制片人和视频创作者可以利用Sora快速生成视频,节省拍摄和后期制作的时间和成本。广告营销: 广告商可以快速创建多样化的广告视频,提高品牌形象和市场竞争力。教育培训: 教师和培训师可以制作生动有趣的教学视频,提高学生的学习兴趣和参与度。虚拟现实: 结合虚拟现实技术,Sora可以用于创造更加真实和沉浸式的虚拟体验。Sora模型的挑战与展望: 尽管Sora模型在视频生成方面展现出了巨大潜力,但它也存在一些挑战。例如,模型可能难以准确模拟复杂场景的物理原理,或者在理解因果关系方面存在局限。OpenAI正在积极解决这些问题,并计划将Sora模型作为理解和模拟现实世界的模型基础,作为实现通用人工智能(AGI)的重要里程碑。 随着技术的不断进步,Sora模型有望在未来实现更广泛的应用,为内容创作者、教育工作者、娱乐产业以及普通用户提供更多的可能性。 本文参考公众号Sora软件
  • 《阿里巴巴宣布研制出全球最强量子电路模拟器》

    • 来源专题:中国科学院文献情报制造与材料知识资源中心 | 领域情报网
    • 编译者:冯瑞华
    • 发布时间:2018-05-14
    • 阿里巴巴表示达摩院量子实验室近日研发出当前世界最强的量子电路模拟器“太章”,率先成功模拟了81比特40层作为基准的谷歌随机量子电路。此前,达到这个层数的模拟只能处理49比特。 作为颠覆性技术,量子计算一直是科学研究的前沿热点。但量子计算的实现十分困难,目前世界公开技术参数的量子计算机只有20几个比特。量子电路模拟器的存在,意义在于帮助理解、设计量子计算机硬件,探索量子算法和应用。 “太章”首次使得验证及测试50-200量子比特的“中等规模”量子算法成为可能, 从而为辅助设计中等规模量子算法、量子软件乃至量子计算机提供了一个有力的工具。 2018年3月,谷歌发布了研制全球首个高质量72比特量子计算机的计划,且于此前提出一套实现“量子霸权”的随机量子电路方案。阿里巴巴表示。“太章”的结果打破了谷歌要在这套方案上实现量子霸权的原计划。 “太章”的另一大亮点是通信开销极小,从而可以基于阿里巴巴集团计算平台在线集群的超强算力,完成目前世上最强的超级计算机都无法完成的模拟。在64(8x8)比特40层的模拟中,“太章”只需2分钟即可完成,且只动用阿里巴巴计算平台在线集群14%的计算资源。 阿里巴巴达摩院量子实验室由美国密西根大学终身教授、世界著名量子科学家施尧耘牵头组建。今年初,两次理论计算机最高奖哥德尔奖得主、匈牙利裔美国计算机科学家马里奥·塞格德(Mario Szegedy)加盟。目前,实验室正处于人才引进的高速增长时期。