GPT-4.1淘汰了4.5!全系列百万上下文,主打一个性价比

鱼羊 发自 凹非寺

量子位 | 公众号 QbitAI

4.1与4.5孰大?OpenAI刚刚给出答案:

发布GPT-4.1,比GPT-4.5强的那种。

今日霍州(www.jrhz.info)©️

新模型系列更新,一共带来三个版本:GPT-4.1,GPT-4.1 mini、GPT-4.1 nano——

与通常中杯大杯超大杯的设置不同,这回翻译过来,是中杯、小杯、超小杯。

OpenAI表示,4.1系列是API专供,不过列位非开发者先别急哈,人家也补充了,在ChatGPT里,4.1的能力将主要通过“融入最新版本的GPT-4o”体现。

今日霍州(www.jrhz.info)©️

能力方面,总结起来4.1系列纸面上最突出的优势有两点:

jrhz.info

长上下文,3个型号均拥有100万token上下文窗口;

性价比,用内部老哥的说法就是:

现在你可以用4%的价格,畅享GPT-4o模型品质。

现在你可以用4%的价格,畅享GPT-4o模型品质。

今日霍州(www.jrhz.info)©️

今日霍州(www.jrhz.info)©️

OpenAI还表示,GPT-4.1系列会在API里取代GPT-4.5 Preview,后者将于今年(2025年)7月14日下架。

GPT-4.1:主打性价比

展开来看,OpenAI整体上是把GPT-4.1和GPT-4o拿来对比的。

今日霍州(www.jrhz.info)©️

以延迟为横轴,以智能为纵轴,可以看到,GPT-4.1比GPT-4o强了一丢丢,而4.1 mini则超出了4o mini一大截。

定量比较的结果是,编码方面,GPT-4.1在衡量真实世界软件工程技能的SWE-bench Verified上得分为54.6%,比GPT-4o的分数提高了21.4%,比GPT-4.5强了26.6%。

今日霍州(www.jrhz.info)©️

指令遵循方面,在MultiChallenge基准中,GPT-4.1得分38.3%,而GPT-4o的得分是27.8%。

今日霍州(www.jrhz.info)©️

长上下文方面,在多模态长下文理解基准Video-MME上,GPT-4.1刷新SOTA,在长篇无字幕类别中得分72.0%,比GPT-4o高了6.7%。

今日霍州(www.jrhz.info)©️

值得注意的是,GPT-4.1 mini在多项基准测试中超过了GPT-4o。

比如在智能评估基准MMLU上,GPT-4.1 mini的得分为87.5%,超过了GPT-4o的85.7%,同时延迟降低一半,成本降低83%

今日霍州(www.jrhz.info)©️

GPT-4.1 nano则被定位为OpenAI“目前速度最快、成本最低”的模型。并且在部分测试中有超出GPT-4o mini的表现。

编码能力

OpenAI着重强调了GPT-4.1的编码能力。除了在各种编程任务上都超过GPT-4o,OpenAI还演示了其在前端编程方面的实际优势:

能够创建功能更强大、更美观的Web应用。

人类评分的结果显示,在80%的对比测试中,GPT-4.1的网站都比GPT-4o的网站更受欢迎。

能够创建功能更强大、更美观的Web应用。

人类评分的结果显示,在80%的对比测试中,GPT-4.1的网站都比GPT-4o的网站更受欢迎。

比如给出同一段提示词:

Prompt: Make a flashcard web application. The user should be able to create flashcards, search through their existing flashcards, review flashcards, and see statistics on flashcards reviewed. Preload ten cards containing a Hindi word or phrase and its English translation. Review interface: In the review interface, clicking or pressing Space should flip the card with a smooth 3-D animation to reveal the translation. Pressing the arrow keys should navigate through cards. Search interface: The search bar should dynamically provide a list of results as the user types in a query. Statistics interface: The stats page should show a graph of the number of cards the user has reviewed, and the percentage they have gotten correct. Create cards interface: The create cards page should allow the user to specify the front and back of a flashcard and add to the user’s collection. Each of these interfaces should be accessible in the sidebar. Generate a single page React app (put all styles inline).

GPT-4o生成的网站长这样:

今日霍州(www.jrhz.info)©️

而4.1的结果明显更美观:

今日霍州(www.jrhz.info)©️

手快的网友则已经搞出了大家更想看的——小球测试。

BTW,OpenAI提到,GPT-4.1会在API里取代GPT-4.5,GPT-4.5 Preview将在3个月后(2025年7月14日)彻底关闭,但这位老哥表示:我还是更喜欢4.5啊啊啊。

不过,老哥也坦承:4.5虽好,但4.1确实便宜太多啦(30倍价差)。

今日霍州(www.jrhz.info)©️

百万长上下文

再来看一眼长上下文方面,GPT-4.1的具体表现。

大海捞针实验中,面对100万token上下文检索,3个型号均能100%过关。

今日霍州(www.jrhz.info)©️

OpenAI还开源了一个新的评估平台OpenAI-MRCR,以测试模型检索和理解多条信息、并理解信息之间相互关系的能力。也就是说更接近实际应用中,大家对长上下文的真实需求。

结果如下:

今日霍州(www.jrhz.info)©️

今日霍州(www.jrhz.info)©️

今日霍州(www.jrhz.info)©️

还发布了一个用于评估多跳上下文推理的数据集Graphwalks。所谓多跳,即在长上下文中进行多次逻辑跳跃,比如编写代码时在多个文件之间跳转。

在这个基准上,GPT-4.1与o1性能相当,轻松击败了GPT-4o。

今日霍州(www.jrhz.info)©️

性价比仍不如『DeepSeek』 R1

价格方面,相对于自家贵得要命的模型,GPT-4.1系列无疑是便宜的。

尤其是对比要被替代的GPT-4.5 Preview,2刀/百万tokens vs 75刀/百万tokens,价格属于大砍一刀只剩零头了。

今日霍州(www.jrhz.info)©️

但精明的网友们发现,还是比不上『DeepSeek』 R1:

今日霍州(www.jrhz.info)©️

图源:x@bongrandpOne More Thing

以上,你觉得GPT-4.1如何?

反正这个命名方式确实是蛮值得吐槽的。

但没准儿,OpenAI的意思是…4.10>4.5?

今日霍州(www.jrhz.info)©️

至少奥特曼本尊有被说服到(doge)。

他还自嘲了一波:

我们能不能在今天夏天之前搞定我们的模型命名?在此之前每个人都可以再花几个月时间来取消我们(我们活该)。

我们能不能在今天夏天之前搞定我们的模型命名?在此之前每个人都可以再花几个月时间来取消我们(我们活该)。

今日霍州(www.jrhz.info)©️

参考链接:

https://openai.com/index/gpt-4-1/

特别声明:[GPT-4.1淘汰了4.5!全系列百万上下文,主打一个性价比] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

得知小龙女受辱,杨过为何心无波澜?在绝情谷底的那一夜给出答案(得知小龙女受了什么伤)

郭靖并不完全理解杨过的孤独和骄傲,尤其是在黄蓉的耳提面命下,杨过最终被送到了全真教。她以为,自己是和杨过在玩一种游戏,而杨过则开始不再承认那件事。最终,小龙女没有选择报仇,而是决定继续与尹志平和赵志敬待在一起…

得知小龙女受辱,杨过为何心无波澜?在绝情谷底的那一夜给出答案(得知小龙女受了什么伤)

贾玲的原罪,是那瘦掉的那100斤吗(贾玲被冤)

她带给了观众无数欢乐,观众也回报给她掌声与鲜花,尤其是在《你好,李焕英》一片大火中,贾玲无疑收获了来自观众的满满偏爱。 有评论说:镜头设计几乎照搬原版,毫无创新,只是在收割票房。她曾经胖时,大家为她…

贾玲的原罪,是那瘦掉的那100斤吗(贾玲被冤)

吴千语和老公在智利旅游!穿性感泳装跳水不怕冷,脸上雀斑成亮点

吴千语在配文里简洁地写了四个字:暴走暴晒,但从她的穿着和表情来看,大家能明显感觉到这次徒步的强度有多大:她裹着黑色运动服,帽子和墨镜🕶️几乎遮住了整张脸,显然是在与当地毒辣的阳光硬抗。这画面反差大到让人惊叹:旁边…

吴千语和老公在智利旅游!穿性感泳装跳水不怕冷,脸上雀斑成亮点

小白救星来了!5 款免费国产低代码,轻松搭各类管理系统(小白救急app)

很多朋友都想自己搭个管理系统,不管是办公用、管业务用,还是创业自己用,可一听到“代码”俩字就犯怵,觉得这是技术大佬才能搞定的事。 不管你是行政、运营、销售,还是小老板、创业者,只要想低成本、高效率搭个管理系统…

小白救星来了!5 款免费国产低代码,轻松搭各类管理系统(小白救急app)

温水煮青蛙是真的吗

关于“青蛙效应”的故事流传已久,它源自19世纪康奈尔大学的一项实验。据说,科学家将青蛙放入40摄氏度的水中时,青蛙能迅速感知高温并跳出逃生

温水煮青蛙是真的吗