时隔5年,OpenAI 再次开源2款推理模型!笔记本📓、手机可运行(时隔5年《老九门2》来袭)

时隔 5 年,OpenAI 再次开源两款 AI 模型!

OpenAI 终于不再“Close”!继 Claude 推出 Opus 4.1 后,OpenAI 也不甘示弱,一下子发布了两款开源模型:gpt-oss-120b和gpt-oss-20b。

据 Sam Altman 称,此次开源的 gpt-oss 模型性能水平与 o4-mini 相当,并且能够在笔记本📓电脑💻️上运行。

那么,gpt-oss 两款开源模型表现如何?

先说结论:

gpt-oss-120b 是大型开放模型,可在单个 H100 GPU 上运行,适用于生产环境、通用应用和高推理需求。

gpt-oss-20b 是中型开放模型,能够直接在笔记本📓甚至在手机上运行,适用于低延迟、本地或专业化场景。

OpenAI 此次开源的两款模型都是纯文本、非多模态的推理模型,支持128k上下文长度。两款模型都采用了混合专家(MoE)技术,gpt-oss-120b拥有1170亿参数,但通过MoE架构只激活51亿参数;gpt-oss-20b则拥有210亿参数,激活36亿参数。

模型主要亮点:

可调整的推理强度:模型原生支持不同推理模式,你可以根据任务复杂度选择低、中、高 3 种推理模式,在速度和性能之间灵活平衡。

完整的思维链展示:能够看到模型的推理过程,这一功能更方便开发者进行调试,同时也让输出内容可信度更高。

支持微调:开发者可以通过参数微调模型,使模型适用于不同应用场景。

智能 Agent 能力:模型原生功能支持函数调用、网页浏览、Python 代码执行和结构化输出。

原生 MXFP4 量化:模型在 MoE 层使用原生 MXFP4 进行了精度训练,gpt-oss-120b 可在单个 H100 GPU 上运行,gpt-oss-20b 能够在 16GB 内存内运行。

Apache 2.0 许可证:两款模型都采用了宽松的 Apache 2.0 许可证,非常适合做实验、定制以及商业部署。

两款模型性能测试

根据 OpenAI 提供的基准测试结果来看,gpt-oss-120b 优于 o3-mini 模型,在竞争编码、一般问题解决和工具调用方面与 o4-mini 相当。

在相同的测试中,gpt-oss-20b 性能评估与 o3-mini 相当,甚至在竞赛数学和健康方面优于 o3-mini。

在竞赛编程(Codeforces)测试中,gpt-oss-120b(带工具)超越了o3-mini,获得了 2622 Elo评分,性能与 o4-mini 不相上下。

在健康查询(HealthBench)测试中,gpt-oss-120b的表现甚至超过了o4-mini。作为一个开源模型居然能在某些任务上击败 OpenAI 自家的闭源产品!

此外,体积更加小巧的 gpt-oss-20b 在多项测评中也与 o3-mini 性能持平或超越 o3-mini。

完整评估结果:

特别声明:[时隔5年,OpenAI 再次开源2款推理模型!笔记本📓、手机可运行(时隔5年《老九门2》来袭)] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

阶跃星辰上线基于单智能体架构Step-DeepResearch !|上海新“模”样(阶跃力是什么)

在针对真实复杂场景的 ADR-Bench 评测中,Step-DeepResearch 表现出极强竞争力,在多个维度上全面超越海内外一线DeepResearch 产品和模型,包括基于千亿级甚至万亿级参数 M…

阶跃星辰上线基于单智能体架构Step-DeepResearch !|上海新“模”样(阶跃力是什么)

『赵露思』现身夜市摆摊!素颜穿围裙0伪装 曾喊:不当艺人就做这行(『赵露思』现场未修)

周围没有明显的摄影机,也没有人群围观,整个场面显得异常自然,仿佛她和这座城市的每一条街道、每一处摊位,都有着某种平凡却温暖的联系。那时她正和前东家在合约上闹得最厉害的时候,曾在直播里提到过一句话:如果以后当不…

『赵露思』现身夜市摆摊!素颜穿围裙0伪装 曾喊:不当艺人就做这行(『赵露思』现场未修)

以爱为笼,以心破局——土耳其剧《法齐莱特与她的女儿们》(以爱为笼简介)

土耳其剧《法齐莱特与她的女儿们》以细腻的笔触,勾勒出一个普通家庭在野心与温情、复仇与宽恕中的挣扎,没有悬浮的剧情,只有最真实的人性褶皱,看完后久久萦绕于心。 三个女儿有着截然不同的模样:长女哈兰善良忠诚,在…

以爱为笼,以心破局——土耳其剧《<strong>法齐莱特与她的女儿们</strong>》(以爱为笼简介)

2026年冬天:鼠标垫桌垫的加热防水功能是否真的实用?(鼠年的冬天冷不冷)

冬季办公,鼠标垫桌垫的加热防水功能是否有必要?本文详解加热防水对提升工作舒适度与设备保护的实际意义,助您选择最符合需求的鼠标垫桌垫。

2026年冬天:鼠标垫桌垫的加热防水功能是否真的实用?(鼠年的冬天冷不冷)

欧阳娣娣红毯生图被嘲壮,真实身材反获普通女性♀️力挺(欧阳娣娣长得丑吗)

第二天,理智的粉丝和路人开始为欧阳娣娣发声,指出现场角度的畸变加上她站姿的原因,站在身材高挑的王玉雯旁边,欧阳娣娣的正常体型被衬托得显得更加壮实。与此同时,越来越多的普通女性♀️站出来为欧阳娣娣发声:这才是21岁…

欧阳娣娣红毯生图被嘲壮,真实身材反获普通女性♀️力挺(欧阳娣娣长得丑吗)