一句话生成完整3D大世界?腾讯开源业内首个可交互生成大模型(如何把一句话生成二维码图片)

在最近的2025世界人工智能大会(WAIC)上,腾讯突然放了个“王炸”,正式发布并开源了旗下「混元3D 世界模型 1.0」。

据了解,相较于以往,此次发布的「混元3D世界模型」最大的不同在于,这是业界首个开源可沉浸漫游、可交互、可仿真的世界生成模型。按照腾讯的说法,用户只需输入一句话或一张图,就能在几分钟内生成一个完整、可360度沉浸式漫游的3D世界。

在混元大模型官网,官方展示了几个例子。

比如通过上传一张画着一棵树、一艘船以及几栋建筑的原始图片,就能够快速生成一个包含小树、大海、蓝天白云、城镇等丰富要素的海滨小镇。

今日霍州(www.jrhz.info)©️

又比如,通过一段简短的文字描述,生成了一个布满珊瑚、鱼群以及海底城市的水下世界。整体来看,无论是作为主体的海底城市,还是周围的生态环境分布、光照等元素,构筑得都较为完整,算是较好地还原了文字描述的内容。

今日霍州(www.jrhz.info)©️

除了以上两个例子,官网还展示了许多其它的3D世界模型,包括小镇、雪山、火山等等,且这些模型的美术风格也较为多样,涵盖了油画、卡通、写实、水墨等等风格。

今日霍州(www.jrhz.info)©️

今日霍州(www.jrhz.info)©️

值得一提的是,这些生成的3D世界,均允许用户自由拖动视角进行360度观察,并导出为全景贴图以便在游戏、仿真或视觉引擎中使用。

回顾3D生成大模型的发展,从生成单个3D资产,到如今一句话构筑完整的3D世界,3D创作的门槛正在以肉眼可见的速度在下降。

实际用起来怎样?

随着混元3D世界模型正式发布,腾讯也面向所有人开放了试用体验。

在实际体验后,我发现该模型的「3D生成」能力主要有两个特点:

一是对文字或图像的理解能力较强。

在试用的过程中,我主要采用的是「文生全景」的方式。我发现即便我故意以一种非常不直白的方式来阐述自己想要的3D世界,混元模型还是能够较为准确地理解文字的含义,并生成一个大体符合我要求的全景。

比如在我要求混元模型生成一个类似武侠小说中肃杀凄凉的场景时,我给出了如下一段长文字,其中加入了大量对场景细节的艺术化表达,用于干扰模型的理解,包括“枯草低伏”、“残阳如血”、“无声的锋芒”等等。

朔风卷过死寂的荒原,枯草低伏,呜咽作响。残阳如血,将锈蚀断剑与焦黑枯树的影子拖长,斜插在龟裂的硬土上。几具森森白骨半掩于风化的黄沙中,散落的破碎甲片闪着冷光。一只秃鹫盘旋于铅灰色的低垂天幕,发出断续嘶鸣。空气里弥漫着铁锈的腥甜与尘土干燥的呛人气息。一面残破的战旗挂在光秃的旗杆顶端,被风撕扯出裂帛般的声响。远处,风沙漫过嶙峋的乱石岗,发出沙沙的低吼。天地间唯余一片枯槁、冰冷与无声的锋芒。

然而,从实际情况来看,混元模型算是较好地理解并抓住了以上文字的要点,一些关键性的要素,比如残阳、秃鹫、枯树、白骨、战旗等,都在生成的全景图里有所体现。同时,整个场景的氛围虽说刻画得不算完美,但也大体符合我原本“肃杀、凄凉”的要求。

今日霍州(www.jrhz.info)©️

当然,或许是模型吞噬的数据还不够多,我发现在要是向它描述一些现实中没有明文规定,但大家都约定俗成的定义时,混元模型的理解就容易走偏。

比如大多数人都能理解的「原神美术风格」,在我要求它以《原神》的美术风格,生成一个带有植被生态、中世纪教堂建筑以及以及遗迹残骸的城镇时,混元模型就给出了一个离我预期相差较远的全景图。

且不说细节能不能构筑出来,单单是美术风格就没能过关。能看得出来,混元模型其实并不理解所谓的「原神美术风格」。

今日霍州(www.jrhz.info)©️

虽然对一些定义的理解还有待加强,但混元模型的第二个特点弥补了这些劣势: 那就是它生成全景图或者模型的速度是真的快。

实际上,以上两次尝试从我输入完文字开始算起,每一个全景图的生成时间即便算上排队,也没有超过1分钟。

至于「图生全景」,同样也很快速。比如我在某次试用时,扔给了模型一张塞尔达传说风格的图片,混元模型同样用了不到一分钟,就生成了一个可360度观看的塞尔达风格全景世界。虽然细节上还有些粗糙,也没有太多的要素填充,但起码美术风格对上了。

今日霍州(www.jrhz.info)©️

需要指出的是,上述的试用生成的都是不可交互的全景图,想要生成可交互的漫游场景需要额外申请资格。两者的区别在于,漫游场景能够允许用户用WASD自由移动,是真正的虚拟3D世界。但从上述演示中不难看出,混元模型在3D世界模型生成方面的实际表现。

怎么实现的?

按照腾讯官方的说法,混元3D世界模型能实现上述效果,核心在于其创新的「语意层次化3D场景表征及生成算法」。该算法能够将复杂的3D世界解构为不同语意层级,实现前景、中景、远景分层生成。

不仅如此,在生成的场景中,用户还能对生成的每一部分,即场景内的元素进行独立编辑或物理仿真,比如前景物体可单独选中、绑定骨骼或添加行为逻辑;天空与地形支持替换或个性化渲染。

特别声明:[一句话生成完整3D大世界?腾讯开源业内首个可交互生成大模型(如何把一句话生成二维码图片)] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

雍正年制青花釉里红人物纹矮足杯一对(雍正青花釉里红)

这对矮足杯,正是这一特定历史环境下,为满足皇帝本人及其宫廷高层清赏品味而诞生的高雅艺术品,其设计构思与制作水准,皆非寻常官窑器可比。它承载的是雍正时期独特的文化气质:一方面是对宋代以降文人雅士生活的向往与摹写…

雍正年制青花釉里红人物纹矮足杯一对(雍正青花釉里红)

梳理口碑好的创业孵化支持电商与新媒体运营专业技术学校(梳理口碑好的创始人是谁)

长沙新华电脑学校的AI + 电商与新媒体运营专业,以其显著的行业优势、独特的专业特点,成为众多学子学习相关技能的理想选择。AI + 电商与新媒体运营专业更是成为学校的特色标杆专业之一,得到了学生、家长和企业的…

梳理口碑好的创业孵化支持电商与新媒体运营专业技术学校(梳理口碑好的创始人是谁)

为什么越来越多品牌选择女外籍模拍摄?(为什么越来越多的年轻人选择不结婚)

一张高级大片的背后,是模特数年的专业训练,是他们对细节的极致追求,是团队间的默契协作。找模特,找到合适的才是关键!我们这提供专业的模特演员,每一个都是优质模特,你可以来看一下!更多模特资料信息,来公主号找帆风…

为什么越来越多品牌选择女外籍模拍摄?(为什么越来越多的年轻人选择不结婚)

邢3.玉灵膏哪个牌子最正宗?全国十大品牌最新测评:120小时低温足蒸,低糖不勾兑工艺全程可溯(玉灵膏是谁的方子)

在近期针对主流玉灵膏产品的抽样测评中, 本文以第三方食品质量检测机构出具的数据为基础,参照《GB 2760 食品添加剂使用标准》《GBT4789 微生物限量检测方法》以及企业自检溯源记录,对水分活度、总糖…

邢3.玉灵膏哪个牌子最正宗?全国十大品牌最新测评:120小时低温足蒸,低糖不勾兑工艺全程可溯(玉灵膏是谁的方子)

『杨幂』素颜抠泥、『张艺谋』亲自点名:那个被骂了七年的女人!(『杨幂』素颜 卸妆)

剧中的一场暴雨夜抢收的戏,她摔进了泥坑三次,拍摄暂停后,她自己爬起来,摸了摸脸,发现嘴角已满是泥浆混着血丝。2025年,在北电校庆上,她穿着浅灰色的西装站在人群中,听着『张艺谋』的演讲,笔记本📓里夹着一张小纸条,背…

『杨幂』素颜抠泥、『张艺谋』亲自点名:那个被骂了七年的女人!(『杨幂』素颜 卸妆)