Lumina-mGPT 2.0:自回归模型华丽复兴,媲美顶尖扩散模型

上海人工智能实验室等团队提出Lumina-mGPT 2.0 —— 一款独立的、仅使用解码器的自回归模型,统一了包括文生图、图像对生成、主体驱动生成、多轮图像编辑、可控生成和密集预测在内的广泛任务。

本文第一作者辛毅为南京大学 & 上海创智学院博士生,现于上海人工智能实验室实习,研究方向为图像 / 视频生成、多模态生成与理解统一等。通讯作者为上海人工智能实验室青年科学家 — 高鹏。本文其他作者来自上海人工智能实验室、香港中文大学、上海交通大学、上海创智学院、浙江工业大学等。

  • 论文标题:Lumina-mGPT 2.0: Stand-Alone AutoRegressive Image Modeling
  • 论文链接:arxiv.org/pdf/2507.17801
  • GitHub 地址:Alpha-VLLM/Lumina-mGPT-2.0
  • 关键词:图像生成、自回归模型、基座模型。

核心技术与突破

完全独立的训练架构

不同于依赖预训练权重的传统方案,Lumina-mGPT 2.0 采用纯解码器 Transformer 架构,从参数初始化开始完全独立训练。这带来三大优势:架构设计不受限制(提供了 20 亿和 70 亿参数两个版本)、规避授权限制(如 Chameleon 的版权©️问题)、减少预训练模型带来的固有偏差。

图像分词器方面,通过对比 VQGAN、ViT-VQGAN 等多种方案,最终选择在 MS-COCO 数据集上重建质量最优的 SBER-MoVQGAN,为高质量生成奠定基础。

统一多任务处理框架

创新地采用统一的图像分词方案,将图生图任务通过上下拼接视为一张图像,并通过提示描述进行控制,实现多任务训练与文生图训练的一致性。使得单一模型能够无缝支持以下任务:

  • 文生图
  • 主体驱动生成
  • 图像编辑
  • 可控生成(如基于轮廓 / 深度的生成)
  • 密集预测

这种设计避免了传统模型需切换不同框架的繁琐,通过系统提示词即可灵活控制任务类型。

高效的推理策略

为了解决自回归模型生成速度慢的痛点,团队引入两种优化:

  • 模型量化:将模型权重量化为 4 位整数,同时保持激活张量为 bfloat16,通过 PyTorch 2.0 中的原生编译工具和 torch.compile 的 reduce-overhead 模式实现无需改变模型架构的优化。
  • 推测式 Jacobi 采样:通过静态 KV 缓存和静态因果注意掩码的方案,使 SJD 兼容于静态编译框架,从而实现加速采样,同时避免动态调整缓存。结合 4 位量化技术,减少 60% GPU 显存消耗,同时通过并行解码加速生成。

实验显示,优化后模型在保持质量的前提下,生成效率显著提升。

实验结果

文生图实验结果

在文本到图像生成领域,Lumina-mGPT 2.0 在多个基准测试中表现优异,与 SANA 和 Janus Pro 等扩散模型和自回归模型相当甚至超越,特别是在 “两个物体” 和 “颜色属性” 测试中表现卓越,以 0.80 的 GenEval 分数跻身顶级生成模型之列。

此外,在实际生成效果上,Lumina-mGPT 2.0 在真实感、细节和连贯性方面优于前代 Lumina-mGPT 和 Janus Pro,更具视觉吸引力和自然美感。

多任务实验结果

在 Graph200K 多任务基准中(可控生成、物体驱动生成),Lumina-mGPT 2.0 表现优异,证明了纯自回归模型在单一框架下完成多模态生成任务的可能性。

此外,团队与其他的多任务生成模型进行了实际比较,Lumina-mGPT 2.0 在可控生成和主题驱动生成任务中表现突出,与 Lumina-mGPT、OneDiffusion 和 OmniGen 等模型相比,展示了卓越的生成能力和灵活性。

未来方向

Lumina-mGPT 2.0 在优化推理后,仍面临采样时间长的问题,与其他基于自回归的生成模型相似,这影响了用户体验,后续将进一步优化。当前 Lumina-mGPT 2.0 的重点在多模态生成, 但计划更新扩展至多模态理解,以提高其整体功能和性能,这将使 Lumina-mGPT 2.0 在满足用户需求方面更加全面。

特别声明:[Lumina-mGPT 2.0:自回归模型华丽复兴,媲美顶尖扩散模型] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

桃乃木香奈、美乃雀、小花暖、南乃空、蓝芽美月 日本美女『明星』️动态(桃乃木香奈怎么瘦下来的)

今天咱可得好好唠唠日本『娱乐圈』️那几位超火的美少女『明星』️——桃乃木香奈、美乃雀、小花暖、南乃空还有蓝芽美月,她们就像夜空中最璀璨的星辰,各自散发着独特又迷人的光芒,每一次动态都能让粉丝们的心跟着沸腾起来!她还经常在…

桃乃木香奈、美乃雀、小花暖、南乃空、蓝芽美月 日本美女『明星』️动态(桃乃木香奈怎么瘦下来的)

日本高官被曝用政治资金买『奢侈品』 奢侈消费引争议(日本官员引咎辞职)

据日媒《周刊文春》12月10日报道,日本首相高市早苗内阁的外务大臣茂木敏充将政治资金用于在多家『奢侈品』牌消费

日本高官被曝用政治资金买『奢侈品』 奢侈消费引争议(日本官员引咎辞职)

苹果iOS 26.2正式版修复25个漏洞,谷歌、字节跳动等团队贡献(ios24.5)

针对用户感知极强的隐私痛点,iOS 26.2修复了一个允许非授权访问“已隐藏”相册的配置漏洞(CVE-2025-43428),该漏洞由研究人员 Michael Schmutzer发现并报告。 同时,针对…

苹果iOS 26.2正式版修复25个漏洞,谷歌、字节跳动等团队贡献(ios24.5)

不用猜了!《树影迷宫》大结局前瞻:真凶不是王坤,凶手另有其人(树猜一数)

在多数同僚认为凶手是失手时,冉曦和赵赶鹅却敏锐地察觉到,这是凶手在故意炫耀,是对警方赤裸裸的嘲弄。但他犯的是另一种罪,胡同连环案的凶手,应该另有其人。 更大的可能是,他本就是听闻此处有目标而来,被冉曦发现后,…

不用猜了!《<strong>树影迷宫</strong>》大结局前瞻:真凶不是王坤,凶手另有其人(树猜一数)

纯白色系四件套选哪种更好?酒店纯棉与非纯棉的区别大揭秘(白色的四件套是不是不耐脏)

随着消费升级,越来越多酒店选择纯白被套作为基础配置,但面对纯棉和非纯棉的选择困惑重重。本文从面料材质、耐用性、舒适性等多个角度解析,帮助您找到适合的纯白四件套方案。 纯白被套如何兼顾美观与实用?酒店四件套如何在有限预算下提升宾客体验?本文为

纯白色系四件套选哪种更好?酒店纯棉与非纯棉的区别大揭秘(白色的四件套是不是不耐脏)