腾讯混元视频生成再升级,发布图生视频、音频与动作驱动等能力

3月6日,腾讯混元发布图生视频模型并对外开源,同时上线对口型与动作驱动等玩法,并支持生成背景音效及2K高质量视频。

今日霍州(www.jrhz.info)©️

基于图生视频的能力,用户只需上传一张图片,并简短描述希望画面如何运动、镜头如何调度等,混元即可按照用户要求让图片动起来,变成5秒的短视频,还能自动配上合适的背景音效。此外,上传一张人物图片,并输入希望“对口型”的文字或音频,图片中的人物即可“说话”或“唱歌”;如果选择动作模版,还能一键生成同款跳舞视频。目前用户通过混元AI视频官网即可体验,企业和开发者可在腾讯云申请使用API接口使用。

此次开源的图生视频模型,是混元文生视频模型开源工作的延续,模型总参数量保持 130 亿,适用于多种类型的角色和场景,包括写实视频制作、动漫角色甚至CGI角色制作的生成。开源内容包含权重、推理代码和LoRA训练代码,支持开发者基于混元训练专属LoRA等衍生模型。目前在Github、HuggingFace等主流开发者社区均可下载体验。

据混元开源技术报告披露,混元视频生成模型具备灵活的扩展性,图生视频和文生视频在相同的数据集上开展预训练工作。在保持超写实画质、流畅演绎大幅度动作、原生镜头切换等特性的基础上,让模型能够捕捉到丰富的视觉和语义信息,并结合图像、文本、音频和姿态等多种输入条件,实现对生成视频的多维度控制。

混元视频生成模型开源以来,一直保持较高的热度,去年12 月登顶huggingface全站趋榜第一,目前Github平台上Star数超过8.9K。多位开发者自发制作基于社区Hunyuanvideo的插件与衍生模型,积累超过 900 个衍生版本。更早开源的混元DiT文生图模型,在国内外衍生模型数量多达1600多个。

目前,混元开源系列模型已经完整覆盖文本、图像、视频和3D生成等多个模态,在Github 累计获得超 2.3 万开发者关注和star。

特别声明:[腾讯混元视频生成再升级,发布图生视频、音频与动作驱动等能力] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

许绍雄离世敲响警钟,50岁佘诗曼立遗嘱、2亿资产定向分配,中年女性♀️的清醒选择(许绍雄的老婆个人简历)

很多人觉得谈“身后事”晦气,但香港法律很明确:遗嘱指定分配方式优先于法定继承,遗嘱信托还能把执行拉长,避免繁琐的认证程序,尤其适合资产复杂的家庭 佘诗曼这次把键盘侠的催促都关掉,按自己的意愿建了一套“人生方…

许绍雄离世敲响警钟,50岁佘诗曼立遗嘱、2亿资产定向分配,中年女性♀️的清醒选择(许绍雄的老婆个人简历)

NDP13B02QB 充电接口CC&CV转换器(bq321充电器)

它能够持续输出高达 8A 的负载电流,同时具备优异的线路与负载调节性能。该器件的工作输入电压范围为 7V 至 30V,并可提供从 3.3V 到25V 的可调输出电压。其内部软启动功能可避免启动过程中出现输入…

NDP13B02QB 充电接口CC&CV转换器(bq321充电器)

美资本无视禁令追捧中国AI 投资热潮再现(美国资本)

尽管中美在人工智能领域的竞争日益激烈,美国投资者仍在大量投资中国AI公司。《华尔街日报》报道指出,当前投资者正推高中国科技公司开发AI模型的股价,并向追踪中国科技板块的交易所交易基金(ETF)注资

美资本无视禁令追捧中国AI 投资热潮再现(美国资本)

荣耀WIN标准版来袭:10000mAh大电池配『骁龙』8至尊,两千档性能续航新标杆!(荣耀笔记本📓预装win10是什么版本)

在处理器方面,标准版也不再像荣耀500那样表现平平,而是直接搭载了『骁龙』8至尊处理器,性能表现十分出色。在价格定位方面,荣耀WIN标准版将与红米K90、iQOO Neo11、真我GT8、一加Ace66T等机…

荣耀WIN标准版来袭:10000mAh大电池配『骁龙』8至尊,两千档性能续航新标杆!(荣耀笔记本📓预装win10是什么版本)

注浆管哪家好(注浆管厂家联系方式)

· 是否能通过第三方检测报告(优质厂商合格率通常≥99.8%)值得注意的是,头部企业已开始提供"支护+加固"一体化解决方案,将注浆管与管棚支护系统结合,可缩短30%施工周期。 对于复杂地质项目,建议选择…

注浆管哪家好(注浆管厂家联系方式)