比自回归更灵活、比离散扩散更通用,首个纯Discrete Flow Matching多模态巨兽降临

今日霍州(www.jrhz.info)©️

王劲,香港大学计算机系二年级博士生,导师为罗平老师。研究兴趣包括多模态大模型训练与评测、伪造检测等,有多项工作发表于 ICML、CVPR、ICCV、ECCV 等国际学术会议。

近年来,大型语言模型(LLMs)在多模态任务中取得了显著进展,在人工通用智能(AGI)的两大核心支柱(即理解与生成)方面展现出强大潜力。然而,目前大多数多模态大模型仍采用自回归(Autoregressive, AR)架构,通过从左到右逐步处理多模态 token 来完成任务,推理缺乏灵活性。

与此同时,基于掩码的离散扩散模型凭借双向建模能力也逐渐兴起,该架构通过双向信息建模显著提升了模型的建模能力。例如,DeepMind 的 Gemini Diffusion 验证了离散扩散在文本建模领域的潜力;在开源社区,LLaDA、Dream 等扩散式『大语言模型』(dLLM)也催生了如 MMaDA、LaViDA、Dimple 和 LLaDA-V 等多模态模型。基于掩码(mask)离散扩散为多模态任务提供了一种重要的建模范式。

然而,生成模型的实现方式并不局限于上述两类架构,探索新的生成建模范式对于推动多模态模型的发展同样具有重要意义。

基于这一理念,来自香港大学和华为诺亚方舟实验室的研究团队提出了 FUDOKI,一个基于全新非掩码(mask-free)离散流匹配(Discrete Flow Matching)架构的通用多模态模型。

与传统的自回归方法不同,FUDOKI 通过并行去噪机制实现了高效的双向信息整合,显著提升了模型的复杂推理和生成能力。与离散扩散架构相比,FUDOKI 采用更加通用的概率路径建模框架,从均匀分布出发,允许模型在推理过程中不断更新和修正生成结果,为多模态模型打开了一条崭新的技术路径。

今日霍州(www.jrhz.info)©️

  • 论文标题:FUDOKI: Discrete Flow-based Unified Understanding and Generation via Kinetic-Optimal Velocities
  • 论文链接:https://arxiv.org/abs/2505.20147
  • 项目主页:https://fudoki-hku.github.io/

FUDOKI 的核心亮点包括如下:

  • 统一架构:一套简单直观的框架搞定图像生成与文本理解
  • 彻底去掩码:无需掩码(mask)策略,与 mask-based discrete diffusion 相比更通用
  • 支持动态修正:生成过程可实时调整,更接近人类推理方式
  • 性能对标 / 超越同参数 AR 模型(在 GenEval & 多模态 QA 上有实测)

我们先来看以下两个效果展示:

今日霍州(www.jrhz.info)©️

图片生成

今日霍州(www.jrhz.info)©️

图片理解

在社媒上,FUDOKI 获得了Meta Research Scientist/ Discrete Flow Matching 系列作者推荐:

今日霍州(www.jrhz.info)©️

统一的多模态能力

FUDOKI 对文本模态和图像模态均采用通过统一的离散流匹配框架,实现了理解与生成任务的统一建模。

  • 图像生成:文本到图像生成任务上在 GenEval 基准上达到 0.76,超过现有同尺寸 AR 模型的性能,展现出色的生成质量和语义准确性

今日霍州(www.jrhz.info)©️

文生图样例

今日霍州(www.jrhz.info)©️

GenEval 基准评测结果

今日霍州(www.jrhz.info)©️

离散流生成过程

  • 视觉理解:在多模理解任务上接近同参数量 AR 模型的性能水平,并允许模型在推理过程不断修复回答。

今日霍州(www.jrhz.info)©️

视觉理解样例

今日霍州(www.jrhz.info)©️

视觉理解基准评测

今日霍州(www.jrhz.info)©️

视觉理解案例的过程对比,FUDOKI 允许对已生成的回答进行修正

架构特色

FUDOKI 的核心创新在于将多模态建模统一到离散流匹配框架中。具体而言,FUDOKI 采用度量诱导的概率路径(metric-induced probability paths)和动力学最优速度(kinetic optimal velocities),完成从源分布到目标分布的离散流匹配。

今日霍州(www.jrhz.info)©️

结语

FUDOKI 的提出不仅挑战了现有自回归和掩码扩散范式,也为多模态生成与理解的统一架构带来了新的思路。通过离散流匹配的方法,它为通用人工智能的发展提供了更加灵活和高效的技术基础。我们期待未来会有更多的探索和进展。

特别声明:[比自回归更灵活、比离散扩散更通用,首个纯Discrete Flow Matching多模态巨兽降临] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

6.3寸小屏塞进双2亿像素?OPPO新机定位超Pro(6寸以下屏幕)

1 月 26 日消息,博主 @数码闲聊站 今天在微博透露,某厂天玑 9500 小屏旗舰机确认搭载双 2 亿 CMOS。博主表示,这台手机配备 2 亿像素大底主摄、5000 万像素超广角以及 2 亿…

6.3寸小屏塞进双2亿像素?OPPO新机定位超Pro(6寸以下屏幕)

通信人必看!一图看懂四大运营商2026年工作会议(通信1u)

中国电信、中国联通、中国移动、中国广电四大基础电信运营商的2026年度工作会议已全部召开。 共同方向:四家运营商均将人工智能、算力网络作为2026年的发展重点,强调技术创新和『数字化』转型,致力于服务千行百业。…

通信人必看!一图看懂四大运营商2026年工作会议(通信1u)

长春第一美男子王伟:凭借一副好皮囊,4年奸杀17名妙龄女子(长春第一美男分尸案)

郑喜春原本以为,王伟不过是有些花心,但至少心地不坏,然而,当她真正步入他的生活后,才意识到王伟的凶狠与丑陋远远超出了她的想象。此后,王伟开始频繁地引诱年轻女子来到家中与他发生关系,而每次事后,他都会毫不留情地…

长春第一美男子王伟:凭借一副好皮囊,4年奸杀17名妙龄女子(长春第一美男分尸案)

2026长春化妆培训:机构实力与各机构特色分析盘点(长春化妆培训)

速览:本次盘点总计9家长春化妆培训机构,品牌名称包括长春花都美容美发培训学校、长春市勃朗形象设计学校、长春新科展锦尚美妆学院、长春艺彩形象美学培训、长春市蓝梦职业培训学校、长春金善国际形象设计、长春唯蒂美学长…

2026长春化妆培训:机构实力与各机构特色分析盘点(长春化妆培训)

宋晓峰女儿被曝在三亚点男模,吃干抹净还不付钱,丢尽老父亲的脸(宋晓峰女儿在哪上学)

这姑娘自己也是个小网红,攒着几十万粉丝呢。 更气人的是,圈子里竟传起风言风语,说点男模是孟可佳撺掇的。当时宋晓峰也在三亚,随手发了段没开美颜的父女日常,宋之馨当场就炸了,指着老爸鼻子吼了十分钟,嫌他发丑照丢人…

宋晓峰女儿被曝在三亚点男模,吃干抹净还不付钱,丢尽老父亲的脸(宋晓峰女儿在哪上学)