扩散模型奖励微调新突破：Nabla-GFlowNet让多样性与效率兼得

科技fjmyhfvclm2026年02月07日 06:07137阅读

今日霍州(www.jrhz.info)©️

本文作者刘圳是香港中文大学（深圳）数据科学学院的助理教授，肖镇中是德国马克思普朗克-智能系统研究所和图宾根大学的博士生，刘威杨是德国马克思普朗克-智能系统研究所的研究员，Yoshua Bengio 是蒙特利尔大学和加拿大 Mila 研究所的教授，张鼎怀是微软研究院的研究员。此论文已收录于 ICLR 2025。

在视觉生成领域，扩散模型（Diffusion Models）已经成为生成高质量图像、视频甚至文本的利器。然而，生成结果往往离我们所偏好的不一致：结果不美观，图文不符，等等。

虽然我们可以像『大语言模型』中的 RLHF（基于人类反馈的强化学习）一样直接用传统强化学习来微调扩散模型，但收敛速度往往慢；而基于可微计算图直接最大化奖励函数的方法又往往陷入过拟合和多样性缺失的问题。

有没有一种方法，既能保留生成样本的多样性，又能快速完成微调？我们基于生成流网络（Generative Flow Network，GFlowNet）提出的 Nabla-GFlowNet 实现了这一速度和质量间的平衡。

今日霍州(www.jrhz.info)©️

论文标题：Efficient Diversity-Preserving Diffusion Alignment via Gradient-Informed GFlowNets

jrhz.info

论文地址：https://arxiv.org/abs/2412.07775

代码地址：https://github.com/lzzcd001/nabla-gfn

今日霍州(www.jrhz.info)©️

利用 Nabla-GFlowNet 在 Aesthetic Score 奖励函数（一个美学指标）上高效微调 Stable Diffusion 模型。

扩散过程的流平衡视角

今日霍州(www.jrhz.info)©️

生成流网络 GFlowNet 示意图。初始节点中的「流」通过向下游的转移概率流经不同节点，最后汇聚到终端节点。每个终端节点所对应的流应匹配该终端节点对应的奖励。

在生成流网络（Generative Flow Network, GFlowNet）的框架下，扩散模型的生成过程可以视为一个「水流从源头流向终点」的动态系统：

今日霍州(www.jrhz.info)©️

流梯度平衡条件

在 GFlowNet 框架下，前后向水流需要满足一定的平衡条件。我们通过推导提出我们称为 Nabla-DB 的平衡条件：

今日霍州(www.jrhz.info)©️

今日霍州(www.jrhz.info)©️

前向匹配损失：

今日霍州(www.jrhz.info)©️

后向匹配损失：

今日霍州(www.jrhz.info)©️

终端匹配损失：

今日霍州(www.jrhz.info)©️

对数流梯度参数化设计

今日霍州(www.jrhz.info)©️

今日霍州(www.jrhz.info)©️

直观解释

今日霍州(www.jrhz.info)©️

今日霍州(www.jrhz.info)©️

其中第一项是基于内积的匹配度函数（残差扩散模型与奖励梯度估计之间的匹配），第二项是让微调模型趋近于预训练模型的正则化。

伪代码实现

今日霍州(www.jrhz.info)©️

实验结果

我们分别用以下奖励函数微调 Stable Diffusion 网络：

Aesthetic Score，一个在 Laion Aesthetic 数据集上训练的美学评估奖励函数；

HPSv2 和 ImageReward，衡量指令跟随能力的奖励函数。

定性实验结果表明，通过 Nabla-GFlowNet 微调，我们可以快速得到奖励更高但避免过拟合的生成图像。

ReFL 和 DRaFT 等直接奖励优化的方法虽然收敛速度快，但很快会陷入过拟合；而 DDPO 这一基于传统策略梯度的强化学习微调方法由于没有理由梯度信息，微调速度显著劣于其他方法。

同时，我们的定量实验表明，我们的 Nabla-GFlowNet 可以更好保持生成样本的多样性。

今日霍州(www.jrhz.info)©️

Aesthetic Score 奖励函数上的微调结果（微调 200 步，取图片质量不坍塌的最好模型）。Nabla-GFlowNet（对应 Residual Nabla-DB 损失函数）方法微调的网络可以生成平均奖励更高且不失自然的生成图片。

今日霍州(www.jrhz.info)©️

相较于 ReFL，DRaFT 等直接奖励优化的方法，Nabla-GFlowNet 更难陷入过拟合。

今日霍州(www.jrhz.info)©️

Aesthetic Score 奖励函数上的定量结果 Nabla-GFlowNet 在奖励收敛快的同时，保持更高的 DreamSim 多样性指标（越高代表多样性越好）和更低的 FID 分数（越低代表越符合预训练模型的先验）。

今日霍州(www.jrhz.info)©️

HPSv2 奖励函数上的微调结果

今日霍州(www.jrhz.info)©️

ImageReward 奖励函数上的微调结果

奖励方法多样性 Score 结果

特别声明：[扩散模型奖励微调新突破：Nabla-GFlowNet让多样性与效率兼得] 该文观点仅代表作者本人，今日霍州系信息发布平台，霍州网仅提供信息存储空间服务。

猜你喜欢

2026-01-29

和巍子离婚31年后，夏立言没想到，曾经丢的体面被儿子找了回来(巍子前妻)

父亲巍子心高气傲，想在影视圈闯出一片天，母亲夏立言则执着于话剧舞台，两个人的差异让家庭走向了分裂。三十多年后，她看着儿子凭借自己的努力，在这个圈子里一步一步走得稳稳当当，拿奖、演好戏，甚至与影帝合作，那份曾被…

和巍子离婚31年后，夏立言没想到，曾经丢的体面被儿子找了回来(巍子前妻)

2026-01-29

36岁『张天爱』公布年初写真大片，越来越成熟独立的她，不仅仅是性感(『张天爱』现在多大了)

与曾经那个肆意张扬、狂野奔放的形象相比，如今的『张天爱』已然深刻领悟到，作为一名女演员，成熟的演技与状态绝非仅仅依靠姣好的身材。不禁让人满心期待，在2026年，能否在荧幕上再次邂逅『张天爱』，欣赏她带来的精彩电影或…

36岁『张天爱』公布年初写真大片，越来越成熟独立的她，不仅仅是性感(『张天爱』现在多大了)

2026-02-06

2027 春夏女装👚 5 大热门风格：从智感到田园(2026春夏女装👚主题趋势)

2027 春夏女装👚五大风格，本质是女性♀️对自我身份、场景需求与精神情绪的多元表达 —— 智感海妖风的双重新生、玩趣通勤风的职场革新、复古脉冲风的个性张力、柔系美式的内敛松弛、田园美学的治愈浪漫，共同勾勒出丰富…

2027 春夏女装👚 5 大热门风格：从智感到田园(2026春夏女装👚主题趋势)

2026-02-06

『宋佳』造型引文化争议，工作室回应！被指飞天奖将提名，有人带节奏(『宋佳』时尚)

原本，这两天『宋佳』是有大喜事的，然而，没想到却因一场活动引发了广泛的争议。事实上，当年『宋佳』的这个造型并没有引起太多争议。不过，部分网友却认为这场攻击显得非常莫名其妙，甚至有些人认为，这一切或许与她即…

『宋佳』造型引文化争议，工作室回应！被指飞天奖将提名，有人带节奏(『宋佳』时尚)

2026-02-06

迪玛希重回芒果舞台领衔六国歌手，《声起地平线》今晚丝路高歌(迪玛希opera2哪一期)

这档名为《声起地平线》的节目，将于2月5日晚22:00在湖南卫视与芒果TV双平台同步首播，向观众展示一场别开生面的音乐竞演与文化交流之旅。中国歌手拉丹珠在节目中演绎的《歌行四方》，将彝族古老的歌调与现代音乐融…

迪玛希重回芒果舞台领衔六国歌手，《<strong>声起地平线</strong>》今晚丝路高歌(迪玛希opera2哪一期)