Claude 4.1 Opus发布，编程能力再进化，“更大改进”还在后面？ #科技 #能力 #模型 #测试 #Claude #OpenAI

当地时间 2025 年 8 月 5 日，Anthropic 正式发布了其旗舰 AI 模型系列的最新升级版——Claude 4.1 Opus。此次发布距离其前代模型 Claude 4 Opus 的推出仅过去三个月，Anthropic 称新模型在编程、智能体任务（agentic tasks）和推理能力上实现了显著提升。

这次发布的时机颇为微妙。就在同一天，OpenAI 发布了自 2019 年以来首批开源推理模型，而业界普遍预期 GPT-5 将在本月内正式亮相。面对即将到来的竞争，Anthropic 首席产品官 Mike Krieger 表示，这次发布体现了公司策略的转变。“过去我们过于专注于只发布真正重大的升级。”Krieger 在接受彭博社采访时说道，“在人工智能快速发展的环境中，我们应该专注于现有的产品。”

根据 Anthropic 的官方介绍，Claude 4.1 Opus 并非一次颠覆性的代际革新，而是一次在 Claude 4 基础上的重要升级。它的核心改进聚焦于三个方面：真实世界场景的编程能力、能够自主执行复杂任务的智能体能力，以及更强的逻辑推理。新模型已向所有付费的 Claude 用户、Claude Code（一个专注于编程辅助的垂直产品）订阅者开放，并同时通过其 API、亚马逊的 Amazon Bedrock 以及谷歌云的 Vertex AI 平台提供服务。

在定价方面，Claude 4.1 Opus 保持与前代相同的结构，输入 tokens 为每百万 15 美元💵，输出 tokens 为每百万 75 美元💵，使其成为目前市场上最昂贵的 AI 模型之一。

本次更新最重要的无疑是其在编程能力上的提高。Anthropic 公布的数据显示，Claude Opus 4.1 在软件工程基准测试 SWE-bench Verified 中取得了 74.5% 的成绩，相比前代模型 Opus 4 的 72.5% 提升了 2 个百分点，同时超越了 OpenAI 最新的 o3 模型（69.1%）和谷歌 Gemini 2.5 Pro（67.2%）。在代理终端编程测试 Terminal-Bench 中，新模型得分 43.3%，相比 Opus 4 的 39.2% 有了显著提升，远超 OpenAI o3 的 30.2% 和谷歌 Gemini 2.5 Pro 的 25.3%。

图丨 Claude 4.1 Opus 的基准测试结果（Anthropic）

GitHub 表示，Claude 4.1 Opus 在多文件代码重构等复杂任务上表现出“尤其显著的性能提升”。日本电商巨头乐天集团（Rakuten Group）则反馈称，新模型在大型代码库中能够精准定位并修正问题，而不会引入不必要的更改或新的错误，这种精确性对于日常的调试工作至关重要。

被 Cognition 收购的编程应用 Windsurf 也提供了积极的反馈，报告称 Claude Opus 4.1 在其内部初级开发者基准测试中实现了一个标准差的改进，这种性能跃升类似于从 Sonnet 3.7 到 Sonnet 4 的升级。

在安全性方面，Claude 4.1 Opus 继续在 ASL-3（AI Safety Level 3，人工智能安全等级 3）框架下运行，这是 Anthropic 迄今应用的最严格安全标准。在无害性测试中，新模型拒绝违反政策请求的比例从 Opus 4 的 97.27% 提高到 98.76%，显示出更强的安全控制能力。

不过，在其他一些通用能力基准测试中，Claude 4.1 Opus 的优势并不像编程领域那样突出。例如，在考察研究生水平推理能力的 GPQA Diamond 测试中，它的得分（80.9%）与前代持平，但落后于 Gemini 2.5 Pro 的 86.4% 和 OpenAI o3 的 83.3%。在高中数学竞赛（AIME）和视觉推理（MMMU）等测试中，也与竞争对手互有胜负，并未展现出绝对的统治力。或许在某种程度上说明，Claude 4.1 Opus 的发布是一次高度聚焦的、带有明确战略目标的升级，其核心是强化在利润丰厚的 AI 编程市场的护城河。

据报道，Anthropic 的年化经常性收入（ARR，Annual Recurring Revenue）在短短七个月内，已经从 10 亿美元💵飙升至接近 50 亿美元💵，而驱动这一增长的核心，正是其在 AI 编程领域建立的技术壁垒和商业生态。且除了 API 收入，Anthropic 也正积极通过产品多元化来构建更稳健的收入结构。其直接面向开发者的 Claude Code 订阅服务表现就十分抢眼，年化收入已接近 4 亿美元💵，并且在最近几周内实现了翻倍增长。

图丨 OpenAI 和 Anthropic 的 ARR（X）

其出色的商业表现，也为公司正在进行的巨额融资提供了坚实的背书。恰逢此次发布，Anthropic 正处于一轮大规模融资的收尾阶段。据 The Information 报道，公司计划在新一轮由 Iconiq Capital 领投的融资中筹集高达 50 亿美元💵的资金，其估值可能达到 1700 亿美元💵，相比今年 3 月 615 亿美元💵的估值增长近三倍。

这不仅将使 Anthropic 成为仅次于 OpenAI 和 SpaceX 的全球最有价值的独角兽之一，也为其在下一阶段的竞争中储备了充足的弹药。

Anthropic 在发布声明中表示，计划在未来几周内发布“更大幅度的模型改进”，暗示更重要的技术突破即将到来，这无疑是其对即将到来的 GPT-5 的直接战略回应。AI 领域的下一场巅峰对决，已然箭在弦上。

参考资料：

1.https://www.anthropic.com/news/claude-opus-4-1

2.https://www.theinformation.com/articles/anthropic-revenue-pace-nears-5-billion-run-mega-round?rc=5ypkcx

排版：刘雅坤

Claude 4.1 Opus发布，编程能力再进化，“更大改进”还在后面？

猜你喜欢

内娱抠门玄学观察，从童星哥大方到秦姓顶流催还钱，细节见人品

裘德·洛：48岁就成了白胡子老头，6个孩子4个妈，曾劈腿育儿保姆(裘德洛第一任妻子照片)

大度的女人名叫徐梵溪：无婚姻无孩子，男友花5亿娶李小冉无怨言(大度的女人名字大全)

一图读懂，2025年看数字广州如何加“数”前行？(一图读懂2025年最高法工作报告)

大衣哥刚被传跳楼，转头在西双版纳开唱！真实处境曝光，真相比传言解气(大衣哥情况)