阿里巴巴发布全球首个基于MoE(混合专家)架构的开源大视频生成模型Wan2.2系列。该系列将显著提升开发者利用AI制作电影级视频的能力,包含文生视频模型Wan2.2-T2V-A14B、图生视频模型Wan2.2-I2V-A14B,以及支持文图生视频统一框架的混合模型Wan2.2-TI2V-5B。
基于MoE架构与美学数据训练,Wan2.2-T2V-A14B与Wan2.2-I2V-A14B可生成具有电影级质感的视频,支持对光影、昼夜、色调、镜头角度、画幅、构图及焦距的精准控制。这两个MoE模型在复杂动作生成上实现显著突破,包括生动面部表情、动态手势及复杂运动场景,同时能遵循物理规律实现真实效果呈现。
针对长序列令牌导致的高计算消耗问题,模型在去噪阶段采用双专家设计:高噪专家负责整体场景布局,低噪专家优化细节纹理。尽管总参数量达270亿,但单步仅激活140亿参数,计算消耗降低达50%。
Wan2.2通过电影级提示词系统实现美学微调,对光影、照明、构图、色调等维度进行分类标注,确保精准传达用户艺术意图。其训练数据量较Wan2.1大幅提升,其中图像数据增加65.6%,视频数据增加83.2%,在复杂场景与动作生成方面表现更优。
混合模型Wan2.2-TI2V-5B采用高压缩3D VAE架构,时空压缩比达4x16x16,整体信息压缩率提升至64倍。仅需单个消费级GPU即可在数分钟内生成5秒720P视频,为开发者和内容创作者提供高效可扩展的解决方案。
目前Wan2.2系列模型已在Hugging Face、GitHub及阿里云开源社区ModelScope开放下载。