从推理轨迹反推:gpt-oss背后的训练策略(推理小说轨迹)

Datawhale干货

作者:王振凯、宋志学,Datawhale成员

OpenAI 在 8 月 6 号的凌晨开源了两个 MoE 模型:gpt-oss-120b 和 gpt-oss-20b,并且原生支持 MXFP4 训练和推理,gpt-oss-20b 模型可以直接在一张 16G 的显卡上运行起来,在我的 macbook air 上也可以运行,并且速度还不错,每秒可以输出 17 个 token。

目前可以在openai提供的网站上进行测试:https://www.gpt-oss.com/

模型在AIME24、AIME25和人类最后测试(HLE)效果都挺好,AIME24、AIME25接近满分,HLE稍微逊色于o4-mini。

看上去曾经的“CloseAI”又变 Open 了,接下来我们来分析一下 OpenAI 这次开源模型可能使用的技术细节,看下开源诚意如何。

技术细节推断

如下图所示,gpt-oss 的思维链信息密度很大,每一段都是对某一个子任务的总结,deepseek-r1 的思维链就比较杂乱。

在使用 ORM(对推理的最终结果进行奖励)方式进行 RL 训练时,由于 ORM 只在最终答案正确时给予奖励,模型无法分辨出在整个推理过程中,哪一步才是“有用”的信息,思考过程中大量尝试的累积,会使得模型学到一个错误的关联,即输出长内容更容易获得奖励。这种错误的关联会使得模型输出大量冗余信息,表现出的现象就是推理时思维链非常发散。

因此在初看到 gpt-oss 的推理轨迹时,我们下意识的认为 openai 在训练时改用了 PRM(对推理过程进行奖励),对每个 step(关键 node)进行奖励,以获得高质量的推理轨迹。

但是仔细阅读 model card 后,我们发现 openai 在训练时并未对推理轨迹施加优化。

openai 的研究人员认为,对推理轨迹进行监督,禁止思考有害内容,反而会使得模型在隐藏自己思考内容的同时,依旧输出有害信息。为此,从可解释性和安全性角度考虑,他们决定不对推理轨迹进行任何操作处理。

排除了 PRM 的可能性后,我们在 model card 中找到了另一种可能:审议对齐(deliberative alignment)

论文地址:http://arxiv.org/abs/2412.16339

论文出现在去年 12 月份,在这篇论文中,openai 提出了一种新的训练范式用于安全对齐,这种范式被称为审议对齐。与传统方法中将所有安全规则作为上下文提供给模型的方式不同。在审议对齐中,旨在通过训练令模型内化这些规则,从而在推理时针对用户问题进行更精准的思考,以生成一个合规的答案。通过这种方式,模型不再需要为每一个问题都去“阅读”全部安全规则,从而极大地提升了效率。

具体的 SFT 数据构建流程如下图所示:

通过这种方法,OpenAI 可以生产出大量高质量的安全对齐数据,使得模型在安全对齐的可靠性上表现得更为出色。

既然该方法适用于安全规则,那同样可以运用此方法,为模型的推理轨迹设置一套规则,将其从安全领域拓展到推理轨迹质量上,核心目标是提高推理轨迹的信息密度,大幅减少冗余信息。

具体实现上,可以为推理轨迹设置一套质量规范,Base 模型会根据这套规范,输出推理轨迹和最终结果。再由一个专门评估推理质量的奖励模型,依据质量规范对推理轨迹进行打分,最终筛选出高质量的推理轨迹进行 SFT。通过该阶段,模型可以初步学会如何进行清晰、高效的思考。

在强化学习阶段,SFT 模型根据指令生成推理轨迹和答案后,由奖励模型对整个过程的效率和清晰度进行打分,激励模型去生成更简洁、高效的思考路径。

因此我们合理猜测,在 gpt-oss 训练过程中,openai 使用了审议对齐这一范式,构造了大量高质量的推理轨迹数据进行训练。

此外,gpt-oss 通过在 system prompt 中设置推理预算来控制模型思考长度的方式,侧面佐证了模型在训练时,关于“推理成本”的评价维度已经被内化为模型的对齐目标。虽然我们不能 100% 排除其他路径,但它们都远不如审议对齐的解释来得直接。

https://github.com/openai/harmony

实际体验下来,GPT-OSS 除了在数学推理上表现优秀(AIME 都给刷满分了),但是在简单通用任务、代码任务上简直是灾难性体验。

由此大胆推断:OpenAI 此次推出开源模型只是单纯想来用自己的安全审议技术炫技,甚至在 Kaggle 上创建了一个总奖金 50w 美元💵的寻找 gpt-oss-20b 模型安全漏洞和有害行为的比赛。

大胆猜测:gpt-oss 模型的预训练数据经过更严格的安全过滤,使其成为一个专注于安全的“特长生”。审议对齐这一新范式的引入,虽然限制了模型的自由发挥,但也迫使其养成了高度结构化、有条理的思考习惯。考虑到其训练数据可能仅是 o3/o4 庞大数据集中的一小块“切片”(例如,仅侧重于数学和科学推理),比起一次全面的技术开源,gpt-oss 的发布更像是安全对齐上的技术炫技。

Reference

1. https://www.gpt-oss.com/

2. http://arxiv.org/abs/2412.16339

3. https://github.com/openai/harmony

4. https://www.kaggle.com/competitions/openai-gpt-oss-20b-red-teaming

大家怎么看此次的开源,欢迎在留言区讨论。

特别声明:[从推理轨迹反推:gpt-oss背后的训练策略(推理小说轨迹)] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

『杨超越』玩梗我的身材很曼妙 颜值身材双顶级美成内娱天花板(『杨超越』 梗)

相关话题#『杨超越』我的身材很曼妙梗#在短短一天内阅读量突破9亿,单条视频播放量更是超过了4亿,网友纷纷感叹:老天赏饭吃,颜值和身材都堪称内娱顶级配置。她的每一个动作,都透露出少女的灵动气息,这种原生态的曼妙也让…

『杨超越』玩梗我的身材很曼妙 颜值身材双顶级美成内娱天花板(『杨超越』 梗)

『周迅』对他一见钟情倒追3年,他却至今未婚,65岁在乡下养猫种花(『周迅』最爱)

当时的『周迅』正处于事业的上升期,而赵文瑄则已经有了一定的知名度和成就,两人之间的搭配可以说是非常般配,也难怪会引起大家的关注。 在经历了一些感情波折之后,赵文瑄将更多的精力放在了事业和生活上,他明白到,真正的…

『周迅』对他一见钟情倒追3年,他却至今未婚,65岁在乡下养猫种花(『周迅』最爱)

纤细:谁说等于平?看清楚再说话!(直肠癌术后拔肛管时间)

她撩了撩短发,精致耳饰在灯光下闪着光:“纤细也不可能什么都没有,这叫藏肉于无形。”闺蜜举着手机拍个不停:“你这纤细身材穿包臀裙,比我健身三个月的效果还炸!” 阳光透过玻璃窗落在她身上,把纤细的轮廓衬得愈发…

纤细:谁说等于平?看清楚再说话!(直肠癌术后拔肛管时间)

39岁『韩孝周』13年前旧照曝光!冻龄美貌引好友韩志旼留言惊叹(『韩孝周』的年龄)

1987年出生的『韩孝周』,最近感性地分享了几张自己在2013年拍摄的照片,并配文写道:这是申铉彬传给我的2013年的照片。 此外,『韩孝周』最近与孔明合作的SBS新剧《你的球场》也备受关注,预计将在11月…

39岁『韩孝周』13年前旧照曝光!冻龄美貌引好友韩志旼留言惊叹(『韩孝周』的年龄)

Lisa日本街头被偶遇,失去韩流滤镜和妆造后,已经完全让人认不出(日本lisa控场)

不久前,有网友在日本旅游时偶遇了韩国女团BACKPINK的成员Lisa,不过有意思的,失去韩流滤镜和妆造的她,给人的感觉却有些大变样,甚至网友表示在街上的时候,如果不是有保安全程跟随,可能也认不出对方就是Li…

Lisa日本街头被偶遇,失去韩流滤镜和妆造后,已经完全让人认不出(日本lisa控场)