扩散LLM推理新范式:打破生成长度限制,实现动态自适应调节(扩散理论模型)

随着 Gemini-Diffusion,Seed-Diffusion 等扩散『大语言模型』(DLLM)的发布,这一领域成为了工业界和学术界的热门方向。但是,当前 DLLM 存在着在推理时必须采用预设固定长度的限制,对于不同任务都需要专门调整才能达到最优效果。

为了解决这一本质的问题,香港中文大学 MMLab,上海 AI 实验室等提出 DAEDAL,赋予 DLLM 可以根据问题的具体情况自主调整回答长度的能力,弥补了 DLLM 与自回归 LLM 的关键差距,为更灵活、高效、强大的扩散『大语言模型』打下了基石。

论文标题:Beyond Fixed: Variable-Length Denoising for Diffusion Large Language Models论文地址:https://arxiv.org/abs/2508.00819代码地址:https://github.com/Li-Jinsong/DAEDAL

DAEDAL 作为一种 Training Free 的去噪策略,从一个统一且很短的初始长度开始,让模型根据自己的需求在生成中调节长度,动态扩展,达到了和现有去噪策略在每个评测基准上精心调整生成长度得到的最佳性能相当的表现,有时甚至更胜一筹。

图 1 (a) DAEDAL 使用统一且很短的初始长度,在多个基准上取得了与精心调优的固定长度基线相当甚至更优的性能。(b) DAEDAL 能够根据每个问题,在生成过程中自适应地动态调整长度,相比之下,现有方法则对所有问题都只能采用单一的固定长度。

DAEDAL 介绍

扩散『大语言模型』(DLLM)潜力巨大,但其现有推理流程存在一个关键的问题:需要预定义的,固定的生成长度。与能够边思考边决定 “说” 多少的人类和自回归模型不同,现有的 DLLM 需要预先设定确切的输出长度。这导致了一个两难的困境:设置太短,模型在复杂问题上难以发挥全部实力,可能导致做错;设置太长,则会浪费大量的计算资源,同时,实验中还发现过长的生成长度可能导致性能下降。

作者在探索中发现,这一问题的解决方案就蕴藏在模型自身之中。DLLM 在生成时会不断地全局规划其整体输出,而它的预测置信度正是其内部状态的强大信号。作者发现了两种关键信号:

DLLM 在序列末端生成序列结束符 (EOS) 的意愿直接反映了其对全局预算的规划。当预设长度充足时,模型会自信地在末尾规划出结束区域,从而高置信度地预测 EOS。反之,当长度不足时,模型会试图利用所有可用空间来完成核心内容,因而抑制了在末尾生成 EOS 的置信度。在去噪过程中,对某个特定词元的极低预测置信度,则可作为一种局部信号,这不仅代表了模型对该词元的不确定性,更深层次地,它表明当前的局部上下文过于受限,不足以支撑一个复杂的逻辑步骤或细节的展开,或是需要插入空间对过去生成的内容进行补充和修正。

图 2 该热力图展示了在对一个长度为 128 的全掩码输入进行首次预测后,于序列末端测得的平均 EOS 词元置信度之差。该差值的计算方式为:用 “长度充足” 问题(在少于 128 长度的 setting 下被正确回答)的平均置信度减去 “长度不足” 问题(仅在长度更长的 setting 才能被正确回答)的平均置信度。图中大面积的绿色(差值 > 0)表明,对于长度充足的问题,结尾 EOS 序列置信度更高,验证了文中的核心发现。

基于发现,作者提出了 DAEDAL,一种无需训练的两阶段推理策略,利用这些内部信号,赋予 DLLM 根据每个问题的具体情况,动态自主调整回答长度的能力。

图 3 DAEDAL 与现有基线方法流程对比

1. 初始长度调整 (Initial Length Adjustment): 在去噪流程开始前,DAEDAL 从一个统一的很短初始长度出发。它会通过检测序列末端的 EOS 序列平均置信度来衡量:“对于这个任务,当前分配的长度是否充足?”。如果置信度很低,即模型规划充分利用全部长度,就表明模型认为长度预算不足。此时,DAEDAL 会通过增加 [MASK] 词元来扩展序列长度,并重复此过程,直到模型确信长度预算充足。这为任务设定了一个合理的全局规划长度。

2. 迭代式掩码插入 (Iterative Mask Insertion): 在逐步去噪的过程中,DAEDAL 会持续监控模型的置信度。如果它发现模型对某个 [MASK] 位置极不确定,便会将其标记为 “扩展点”。DAEDAL 通过将这个单个 [MASK] 替换为由多个 [MASK],动态且精准地在模型最需要的地方为序列注入 “思考空间”,以便其在回复中进行补充修补,或是有足够空间去进行更复杂的思考。

通过结合这两个阶段,不需要进行任何训练,DAEDAL 使得 DLLM 能够根据每个问题的具体情况自主调整其回答的长度,展现了强大的效果。

实验结果

图 4 DAEDAL 在 4 个基准测试上与基线方法性能对比以及生成长度可视化

DAEDAL 使用统一的短初始长度即可取得强大性能。 实验结果清晰地展示了 DAEDAL 的优越性能。尽管 DAEDAL 默认从一个较短的初始长度开始,但其两阶段的长度调整与扩展机制,不仅使其性能显著优于使用相同短初始长度的基线方法,更能达到与基线方法在所有固定长度中精心调优后的峰值性能相当、甚至在某些情况下超越后者的水平。

这一发现凸显了 DAEDAL 的有效性,并揭示了固定长度范式的内在不便之处,因为基线方法的最佳长度因不同基准而异,这更强调了动态长度适应的必要性。为了直观展示这种动态适应性,图 3 对比了 DAEDAL 所用总生成长度(N_token)的分布与基线方法所用的单一最佳长度。

DAEDAL 能自适应地找到最佳生成长度。 进一步的分析表明,DAEDAL 能智能地预估并生成恰当长度的回答。在多数情况下,DAEDAL 产生的有效词元数(E_token)与基线方法在最佳性能配置下的有效词元数相当。这表明 DAEDAL 能自适应地找到模型内在的、针对特定任务所需词元长度的 “舒适点”。基线方法的行为也印证了这一点:当设置的长度过长时,即使有效词元数可能继续增加,性能反而可能会下降。DAEDAL 的自适应特性有效避免了这种因过度扩展导致的性能下降。

DAEDAL 能够提升计算资源利用率。在取得优越准确率的同时,DAEDAL 生成的总词元数(N_token)通常低于基线方法在最佳性能 setting 下的总词元数。相近的有效词元数和更低的总词元数带来了更高的有效词元利用率(E_ratio)。这大大地提升了计算资源的利用率。

总结

DAEDAL 通过其初始长度调整(Initial Length Adjustment)和迭代式掩码插入(Iterative Mask Insertion)机制,不仅在多个基准上取得了与精心调优的固定长度基线相当甚至更优的性能,还能为每个任务自适应地分配合适的长度。这使得模型在性能和计算效率上都取得了实质性的提升。DAEDA 弥补了扩散『大语言模型』与自回归『大语言模型』在核心能力上的一个关键差距,为更灵活、高效、强大的扩散『大语言模型』打下了基石。

作者介绍

本文第一作者是香港中文大学 MMLab 的博士生李劲松,导师林达华教授,主要研究方向是多模态大模型和『大语言模型』。曾在 NeurIPS,ECCV,ACL 等顶级会议发表多篇论文,Google 学术引用超 1400 次。

特别声明:[扩散LLM推理新范式:打破生成长度限制,实现动态自适应调节(扩散理论模型)] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

他是著名演员,戏为命脉,娶圈外妻生一子,人到中年为孙子学英语(他是一名著名的演员,曾在电视上塑造了许多)

》这部戏来说,他饰演的徐向前元帅为了更好地把角色呈现,他几乎把自己困在房间里,反复琢磨,研究照片一看就是几个小时。剧中的徐帅有个习惯,就是抽烟,而施京明自己平时几乎不抽烟,但为了诠释这个角色,他在拍摄期间就开…

他是著名演员,戏为命脉,娶圈外妻生一子,人到中年为孙子学英语(他是一名著名的演员,曾在电视上塑造了许多)

央视主持人尼格买提的别样人生:42岁离婚无子,却活出松弛感(央视主持人尼格买提老婆照片)

两人选择在家乡新疆举办了婚礼,既浪漫,也寄托了他对故土的情怀。当外界用传统的“家庭圆满”标准去衡量他时,他用自己的生活方式给出了另一种答案:一个42岁的男人,事业有成,经济独立,内心丰盈,懂得爱自己也有能力爱…

央视主持人尼格买提的别样人生:42岁离婚无子,却活出松弛感(央视主持人尼格买提老婆照片)

短道队的目标是为国争光 全力备战米兰冬奥(短道田径)

米兰冬奥会开赛在即,中国短道速滑队29日在国家体育总局冬季运动管理中心综合训练馆“冰坛”举行公开课。领队刘浩表示,队伍的目标是为国争光,各项目都会全力备战,不给成绩设限

短道队的目标是为国争光 全力备战米兰冬奥(短道田径)

71岁老戏骨寇振海老来得子,本应开心的他,现在却犯了愁?(演员寇振海演过的影视剧)

然而让人无奈的是,虽然寇振海对自己的这个小儿子百般呵护喜爱,但是因为年龄差距过大,两人现在有些沟通的壁垒,在12月29日,寇振海发长文“这是一位老父亲的独白”。 后来,婷婷告诉我,儿子在学校里不太愿意提我,…

71岁老戏骨寇振海老来得子,本应开心的他,现在却犯了愁?(演员寇振海演过的影视剧)

太平年》缘何停更?同烹子吃人轮奸虐杀楚国夫人无关(太平年唱词)

其实,这是央视一套(CCTV-1)常规排播调整,因周末黄金档固定用于综艺节目,与举报风波或"让路其他剧"等猜测毫无关系。 《太平年》停更恰逢"吴越宫变"等高能剧情节点,

《<strong>太平年</strong>》缘何停更?同烹子吃人轮奸虐杀楚国夫人无关(太平年唱词)