Claude 4.1 Opus发布,编程能力再进化,“更大改进”还在后面?

当地时间 2025 年 8 月 5 日,Anthropic 正式发布了其旗舰 AI 模型系列的最新升级版——Claude 4.1 Opus。此次发布距离其前代模型 Claude 4 Opus 的推出仅过去三个月,Anthropic 称新模型在编程、智能体任务(agentic tasks)和推理能力上实现了显著提升。

这次发布的时机颇为微妙。就在同一天,OpenAI 发布了自 2019 年以来首批开源推理模型,而业界普遍预期 GPT-5 将在本月内正式亮相。面对即将到来的竞争,Anthropic 首席产品官 Mike Krieger 表示,这次发布体现了公司策略的转变。“过去我们过于专注于只发布真正重大的升级。”Krieger 在接受彭博社采访时说道,“在人工智能快速发展的环境中,我们应该专注于现有的产品。”

根据 Anthropic 的官方介绍,Claude 4.1 Opus 并非一次颠覆性的代际革新,而是一次在 Claude 4 基础上的重要升级。它的核心改进聚焦于三个方面:真实世界场景的编程能力、能够自主执行复杂任务的智能体能力,以及更强的逻辑推理。新模型已向所有付费的 Claude 用户、Claude Code(一个专注于编程辅助的垂直产品)订阅者开放,并同时通过其 API、亚马逊的 Amazon Bedrock 以及谷歌云的 Vertex AI 平台提供服务。

在定价方面,Claude 4.1 Opus 保持与前代相同的结构,输入 tokens 为每百万 15 美元💵,输出 tokens 为每百万 75 美元💵,使其成为目前市场上最昂贵的 AI 模型之一。

本次更新最重要的无疑是其在编程能力上的提高。Anthropic 公布的数据显示,Claude Opus 4.1 在软件工程基准测试 SWE-bench Verified 中取得了 74.5% 的成绩,相比前代模型 Opus 4 的 72.5% 提升了 2 个百分点,同时超越了 OpenAI 最新的 o3 模型(69.1%)和谷歌 Gemini 2.5 Pro(67.2%)。在代理终端编程测试 Terminal-Bench 中,新模型得分 43.3%,相比 Opus 4 的 39.2% 有了显著提升,远超 OpenAI o3 的 30.2% 和谷歌 Gemini 2.5 Pro 的 25.3%。

图丨 Claude 4.1 Opus 的基准测试结果(Anthropic)

GitHub 表示,Claude 4.1 Opus 在多文件代码重构等复杂任务上表现出“尤其显著的性能提升”。日本电商巨头乐天集团(Rakuten Group)则反馈称,新模型在大型代码库中能够精准定位并修正问题,而不会引入不必要的更改或新的错误,这种精确性对于日常的调试工作至关重要。

被 Cognition 收购的编程应用 Windsurf 也提供了积极的反馈,报告称 Claude Opus 4.1 在其内部初级开发者基准测试中实现了一个标准差的改进,这种性能跃升类似于从 Sonnet 3.7 到 Sonnet 4 的升级。

在安全性方面,Claude 4.1 Opus 继续在 ASL-3(AI Safety Level 3,人工智能安全等级 3)框架下运行,这是 Anthropic 迄今应用的最严格安全标准。在无害性测试中,新模型拒绝违反政策请求的比例从 Opus 4 的 97.27% 提高到 98.76%,显示出更强的安全控制能力。

不过,在其他一些通用能力基准测试中,Claude 4.1 Opus 的优势并不像编程领域那样突出。例如,在考察研究生水平推理能力的 GPQA Diamond 测试中,它的得分(80.9%)与前代持平,但落后于 Gemini 2.5 Pro 的 86.4% 和 OpenAI o3 的 83.3%。在高中数学竞赛(AIME)和视觉推理(MMMU)等测试中,也与竞争对手互有胜负,并未展现出绝对的统治力。或许在某种程度上说明,Claude 4.1 Opus 的发布是一次高度聚焦的、带有明确战略目标的升级,其核心是强化在利润丰厚的 AI 编程市场的护城河。

据报道,Anthropic 的年化经常性收入(ARR,Annual Recurring Revenue)在短短七个月内,已经从 10 亿美元💵飙升至接近 50 亿美元💵,而驱动这一增长的核心,正是其在 AI 编程领域建立的技术壁垒和商业生态。且除了 API 收入,Anthropic 也正积极通过产品多元化来构建更稳健的收入结构。其直接面向开发者的 Claude Code 订阅服务表现就十分抢眼,年化收入已接近 4 亿美元💵,并且在最近几周内实现了翻倍增长。

图丨 OpenAI 和 Anthropic 的 ARR(X)

其出色的商业表现,也为公司正在进行的巨额融资提供了坚实的背书。恰逢此次发布,Anthropic 正处于一轮大规模融资的收尾阶段。据 The Information 报道,公司计划在新一轮由 Iconiq Capital 领投的融资中筹集高达 50 亿美元💵的资金,其估值可能达到 1700 亿美元💵,相比今年 3 月 615 亿美元💵的估值增长近三倍。

这不仅将使 Anthropic 成为仅次于 OpenAI 和 SpaceX 的全球最有价值的独角兽之一,也为其在下一阶段的竞争中储备了充足的弹药。

Anthropic 在发布声明中表示,计划在未来几周内发布“更大幅度的模型改进”,暗示更重要的技术突破即将到来,这无疑是其对即将到来的 GPT-5 的直接战略回应。AI 领域的下一场巅峰对决,已然箭在弦上。

参考资料:

1.https://www.anthropic.com/news/claude-opus-4-1

2.https://www.theinformation.com/articles/anthropic-revenue-pace-nears-5-billion-run-mega-round?rc=5ypkcx

排版:刘雅坤

特别声明:[Claude 4.1 Opus发布,编程能力再进化,“更大改进”还在后面?] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

精修的是神颜,生图满脸痘,痘坑、黑眼圈、长斑,『明星』️没那么美(精修是p图吗)

就是这样一位高颜值的女星她的生图也有不足,可以看到她的黑眼圈是比较明显的,需要厚厚的底妆和后期p图才能掩盖。 但是她也有一些颜值方面的“不足”就是她的斑,生图下的斑点确实也很明显,对颜值的影响还是有一些的。…

精修的是神颜,生图满脸痘,痘坑、黑眼圈、长斑,『明星』️没那么美(精修是p图吗)

网红冯提莫回应停播近一年:癌症复发并转移,目前已康复;否认结婚生子(网红冯提莫回国了吗)

此前,冯提莫在8月26日发布了一段视频,并配文称倒数要快见面的日子,表示她将很快复播并重新开始唱歌,同时也辟谣了关于她生子的一些传闻。公开资料显示,冯提莫本名冯亚男,1991年12月19日出生于重庆市万州区,…

网红冯提莫回应停播近一年:癌症复发并转移,目前已康复;否认结婚生子(网红冯提莫回国了吗)

许家印的各个子女:责任认定、资产状况与被追缴情况(许家印背后的关系)

从目前司法进展来看,许家印子女的责任认定呈现明显分化,核心在于其是否直接参与资产转移或企业违规操作。调查显示,他不仅是家族信托的受益人之一,还存在与离岸公司的异常资金往来,其行为已涉嫌参与违规利益输送,目前…

许家印的各个子女:责任认定、资产状况与被追缴情况(许家印背后的关系)

优个YONEX尤尼克斯羽毛球服短袖男女款速干透气运动短袖解析(尤尼克斯羽毛球拍优个网)

本文介绍了优个YONEX尤尼克斯羽毛球服短袖男女款速干透气运动短袖1104025的产品定义、技术特性、功能设计以及适用场景。该款运动服装采用高品质面料,专为满足羽毛球运动高强度需求而设计,具备优异的速干性能、良好的透气性,并适合不同体型穿着

优个YONEX尤尼克斯羽毛球服短袖男女款速干透气运动短袖解析(尤尼克斯羽毛球拍优个网)

大型移动水上乐园游乐设备:冲关闯关充气水池滑梯支架游泳池解析(移动水上乐园有哪些游乐设施)

本篇文章全面解析大型移动水上乐园游乐设备,包括冲关闯关充气水池、滑梯支架及游泳池的相关内容。文中详细介绍其定义、分类、技术原理、应用场景和发展现状,并探讨这些设备的技术特点和市场表现。文章旨在为相关行业从业者和技术爱好者提供科学、系统的信息

大型移动水上乐园游乐设备:冲关闯关充气水池滑梯支架游泳池解析(移动水上乐园有哪些游乐设施)