从推理轨迹反推:gpt-oss背后的训练策略(推理小说轨迹)

Datawhale干货

作者:王振凯、宋志学,Datawhale成员

OpenAI 在 8 月 6 号的凌晨开源了两个 MoE 模型:gpt-oss-120b 和 gpt-oss-20b,并且原生支持 MXFP4 训练和推理,gpt-oss-20b 模型可以直接在一张 16G 的显卡上运行起来,在我的 macbook air 上也可以运行,并且速度还不错,每秒可以输出 17 个 token。

目前可以在openai提供的网站上进行测试:https://www.gpt-oss.com/

模型在AIME24、AIME25和人类最后测试(HLE)效果都挺好,AIME24、AIME25接近满分,HLE稍微逊色于o4-mini。

看上去曾经的“CloseAI”又变 Open 了,接下来我们来分析一下 OpenAI 这次开源模型可能使用的技术细节,看下开源诚意如何。

技术细节推断

如下图所示,gpt-oss 的思维链信息密度很大,每一段都是对某一个子任务的总结,deepseek-r1 的思维链就比较杂乱。

在使用 ORM(对推理的最终结果进行奖励)方式进行 RL 训练时,由于 ORM 只在最终答案正确时给予奖励,模型无法分辨出在整个推理过程中,哪一步才是“有用”的信息,思考过程中大量尝试的累积,会使得模型学到一个错误的关联,即输出长内容更容易获得奖励。这种错误的关联会使得模型输出大量冗余信息,表现出的现象就是推理时思维链非常发散。

因此在初看到 gpt-oss 的推理轨迹时,我们下意识的认为 openai 在训练时改用了 PRM(对推理过程进行奖励),对每个 step(关键 node)进行奖励,以获得高质量的推理轨迹。

但是仔细阅读 model card 后,我们发现 openai 在训练时并未对推理轨迹施加优化。

openai 的研究人员认为,对推理轨迹进行监督,禁止思考有害内容,反而会使得模型在隐藏自己思考内容的同时,依旧输出有害信息。为此,从可解释性和安全性角度考虑,他们决定不对推理轨迹进行任何操作处理。

排除了 PRM 的可能性后,我们在 model card 中找到了另一种可能:审议对齐(deliberative alignment)

论文地址:http://arxiv.org/abs/2412.16339

论文出现在去年 12 月份,在这篇论文中,openai 提出了一种新的训练范式用于安全对齐,这种范式被称为审议对齐。与传统方法中将所有安全规则作为上下文提供给模型的方式不同。在审议对齐中,旨在通过训练令模型内化这些规则,从而在推理时针对用户问题进行更精准的思考,以生成一个合规的答案。通过这种方式,模型不再需要为每一个问题都去“阅读”全部安全规则,从而极大地提升了效率。

具体的 SFT 数据构建流程如下图所示:

通过这种方法,OpenAI 可以生产出大量高质量的安全对齐数据,使得模型在安全对齐的可靠性上表现得更为出色。

既然该方法适用于安全规则,那同样可以运用此方法,为模型的推理轨迹设置一套规则,将其从安全领域拓展到推理轨迹质量上,核心目标是提高推理轨迹的信息密度,大幅减少冗余信息。

具体实现上,可以为推理轨迹设置一套质量规范,Base 模型会根据这套规范,输出推理轨迹和最终结果。再由一个专门评估推理质量的奖励模型,依据质量规范对推理轨迹进行打分,最终筛选出高质量的推理轨迹进行 SFT。通过该阶段,模型可以初步学会如何进行清晰、高效的思考。

在强化学习阶段,SFT 模型根据指令生成推理轨迹和答案后,由奖励模型对整个过程的效率和清晰度进行打分,激励模型去生成更简洁、高效的思考路径。

因此我们合理猜测,在 gpt-oss 训练过程中,openai 使用了审议对齐这一范式,构造了大量高质量的推理轨迹数据进行训练。

此外,gpt-oss 通过在 system prompt 中设置推理预算来控制模型思考长度的方式,侧面佐证了模型在训练时,关于“推理成本”的评价维度已经被内化为模型的对齐目标。虽然我们不能 100% 排除其他路径,但它们都远不如审议对齐的解释来得直接。

https://github.com/openai/harmony

实际体验下来,GPT-OSS 除了在数学推理上表现优秀(AIME 都给刷满分了),但是在简单通用任务、代码任务上简直是灾难性体验。

由此大胆推断:OpenAI 此次推出开源模型只是单纯想来用自己的安全审议技术炫技,甚至在 Kaggle 上创建了一个总奖金 50w 美元💵的寻找 gpt-oss-20b 模型安全漏洞和有害行为的比赛。

大胆猜测:gpt-oss 模型的预训练数据经过更严格的安全过滤,使其成为一个专注于安全的“特长生”。审议对齐这一新范式的引入,虽然限制了模型的自由发挥,但也迫使其养成了高度结构化、有条理的思考习惯。考虑到其训练数据可能仅是 o3/o4 庞大数据集中的一小块“切片”(例如,仅侧重于数学和科学推理),比起一次全面的技术开源,gpt-oss 的发布更像是安全对齐上的技术炫技。

Reference

1. https://www.gpt-oss.com/

2. http://arxiv.org/abs/2412.16339

3. https://github.com/openai/harmony

4. https://www.kaggle.com/competitions/openai-gpt-oss-20b-red-teaming

大家怎么看此次的开源,欢迎在留言区讨论。

特别声明:[从推理轨迹反推:gpt-oss背后的训练策略(推理小说轨迹)] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

Sony索尼 FE 24-70mm F2.8 F4 GM SEL2470 II 全画幅微单镜头深度解析(Sony索尼 LinkBuds S)

本文详细介绍了索尼FE 24-70mm F2.8 F4 GM SEL2470 II镜头,涵盖其技术规格、性能特点、应用场景以及用户评价。该镜头作为索尼G大师系列的一部分,是摄影爱好者和专业摄影师广泛使用的标准变焦镜头。文章从多个角度对这款镜

Sony索尼 FE 24-70mm F2.8 F4 GM SEL2470 II 全画幅微单镜头深度解析(Sony索尼 LinkBuds S)

去牙科拔牙要多少钱(去牙科拔牙要多久)

去牙科拔牙的费用通常在200元至2000元之间,具体价格取决于牙齿位置、拔牙难度和医院等级。治疗时需先进行口腔检查,确定拔牙方案,费用包含检查费、麻醉费和拔牙操作费

去牙科拔牙要多少钱(去牙科拔牙要多久)

科技引领韧性水未来:安吉尔闪耀2025 IWA水与发展大会暨展览会(科技引领高品质)

此外,安吉尔中央研究院技术专家们在 IWA水与发展大会上分享新型离子传感器和消毒技术的研究成果,并以学术报告的形式深度参与全球水行业技术交流,充分展示了中国净水科技的创新实力与国际影响力。 12月11日,以…

科技引领韧性水未来:安吉尔闪耀2025 IWA水与发展大会暨展览会(科技引领高品质)

踏步机的正确使用方法2025年新规:新手必看指南!(踏步机视频教学视频)

2025年踏步机使用新规范落地,如何正确操作避免受伤?本文系统解析使用流程、避坑清单与优化技巧,助你高效锻炼不踩雷。

踏步机的正确使用方法2025年新规:新手必看指南!(踏步机视频教学视频)

今年下雪为啥不撒融雪剂了?专家回应融雪剂将严格限制使用(今年下雪为什么这么晚)

北京的今冬初雪姗姗而来。可跟往常不一样,路面上没有了抛洒融雪剂的装备和工作人员,只有扫雪车有序作业。有消息说,今年冬天,北京将严格控制融雪剂的使用。为啥下雪不撒融雪剂了?专家介绍,融雪剂是以氯化钾、氯化钠等为主的各种工业盐类药剂,与冰雪混合

今年下雪为啥不撒融雪剂了?专家回应融雪剂将严格限制使用(今年下雪为什么这么晚)