一张图加一段音频生成电影级视频,阿里开源视频生成模型Wan2.2-S2V(一张图加一段音乐叫什么)

潮新闻客户端 记者 张云山

8月26日晚,阿里开源全新多模态视频生成模型通义万相Wan2.2-S2V,仅需一张静态图片和一段音频,即可生成面部表情自然、口型一致、肢体动作丝滑的电影级数字人视频,该模型单次生成的视频时长可达业界领先的分钟级,大幅提升数字人直播、影视制作、AI教育等行业的视频创作效率。用户可在Hugging Face和魔搭社区下载模型,或在通义万相官网直接体验。

阿里开源全新多模态视频生成模型通义万相Wan2.2-S2V(受访者供图)

目前,Wan2.2-S2V可驱动真人、卡通、动物、数字人等类型图片,并支持肖像、半身以及全身等任意画幅,上传一段音频后,模型就能让图片中的主体形象完成说话、唱歌和表演等动作。Wan2.2-S2V还支持文本控制,输入Prompt后还可对视频画面进行控制,让视频主体的运动和背景的变化更丰富。例如,上传一张人物弹钢琴的照片、一段歌曲和一段文字,Wan2.2-S2V即可生成一段完整、声情并茂的钢琴演奏视频,不仅能保证人物形象和原图一致,其面部表情和嘴部动作还能与音频对齐,视频人物的手指手型、力度、速度也能完美匹配音频节奏。

输入一张图片、一段音频以及一段文字,可让图片人物和背景画面动起来(受访者供图)

据介绍,Wan2.2-S2V采用了多项创新技术:基于通义万相视频生成基础模型能力,融合了文本引导的全局运动控制和音频驱动的细粒度局部运动,实现了复杂场景的音频驱动视频生成;同时引入AdaIN和CrossAttention两种控制机制,实现了更准确更动态的音频控制效果;为保障长视频生成效果,Wan2.2-S2V通过层次化帧压缩技术,大幅降低了历史帧的Token数量,通过该方式将motion frames(历史参考帧)的长度从数帧拓展到73帧, 从而实现了稳定的长视频生成效果。

在模型训练上,团队构建了超60万个片段的音视频数据集,通过混合并行训练进行全参数化训练,充分挖掘了模型的性能。同时通过多分辨率训练、支持模型多分辨率的推理,可支持不同分辨率场景的视频生成需求, 如竖屏短视频、横屏影视剧。

实测数据显示,Wan2.2-S2V在FID(视频质量,越低越好)、EFID(表情真实度,越低越好)、CSIM(身份一致性,越高越好)等核心指标上取得了同类模型最好的成绩。

输入一张图片、一段音频以及一段文字,可让图片人物和背景画面动起来(受访者供图)

自今年2月以来,通义万相已连续开源文生视频、图生视频、首尾帧生视频、全能编辑、音频生视频等多款模型,在开源社区和三方平台的下载量已超2000万,是开源社区最受欢迎的视频生成模型之一。

开源地址:

特别声明:[一张图加一段音频生成电影级视频,阿里开源视频生成模型Wan2.2-S2V(一张图加一段音乐叫什么)] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

探索高能放电的秘密——电弧脉冲发生器点火套装解析(高能放电与低能放电的区别是什么)

从汽车引擎点火到工业焊接设备,这套4001000KV脉冲逆变式发生器为何成为『工程师』的新宠?其工作原理与应用场景究竟如何?本文带你全面了解这套高性能电气设备,揭示其在现代工业中的重要价值。

探索高能放电的秘密——电弧脉冲发生器点火套装解析(高能放电与低能放电的区别是什么)

张凌赫跨1400公里赶场,金靖蹦跳应援,『刘宇宁』演唱会成开团建现场(张凌赫出席活动视频)

作为综艺节目中的“革命友谊”,三人之间的互动充满了温暖与细腻:张凌赫送上的花篮上写着“为你摘星,为你疯,为宁点亮一盏灯”的浪漫祝福,金靖则巧妙地用节目中的热梗“花花世界迷人眼,宁哥宁哥最耀眼”来为『刘宇宁』打c…

张凌赫跨1400公里赶场,金靖蹦跳应援,『刘宇宁』演唱会成开团建现场(张凌赫出席活动视频)

你可能从未注意它,但电力防外破警示牌却在关键时刻,喊停了无数潜在危险(你从未留意)

精准雷达探测:内置毫米波雷达,有效探测距离5-8米(可选>4米或>8米),当行人或车辆进入感应范围,立即触发高亮LED爆闪警示智能光控感应:内置亮度传感器自动识别环境光线,白天自动进入节能模式,夜间或光线不…

你可能从未注意它,但电力防外破警示牌却在关键时刻,喊停了无数潜在危险(你从未留意)

神舟二十飞船遭撞击,罪魁祸首是谁?航天员如何平安回地球?(神舟二十飞船遭遇微小碎片撞击)

原因是飞船可能被太空里的小碎片碰了一下。日子一天天过去,转眼就到了11月,他们在太空已经连续生活了超过190天,创下了中国航天员单次驻留时间的新纪录。在空间站里,陈冬、陈中瑞和王杰三位航天员状态都很稳定,他们…

神舟二十飞船遭撞击,罪魁祸首是谁?航天员如何平安回地球?(神舟二十飞船遭遇微小碎片撞击)

为应对 RAM 价格上升,Galaxy S26 可能采取硬件不升级方式

Samsung 在 Galaxy S26 机型上便采用的是节省成本的方案,沿用 Galaxy S25 的相机📷️模组。 Samsung 为了维持Galaxy S26 的起售价,Samsung 不得不放弃镜头模…

为应对 RAM 价格上升,Galaxy S26 可能采取硬件不升级方式