OpenAI、谷歌等深夜更新多款模型，展示开源、智能体、世界模型进展(open google play services) #科技 #gptoss #山姆奥尔特曼 #Genie #模型 #Mini

北京时间8月6日凌晨，多家海外大模型厂商发布了最新产品。AI创业公司Anthropic发布了Claude Opus 4.1，称这一模型是Opus 4在代理任务、现实世界编码和推理方面的升级版。谷歌推出了新一代世界模型Genie 3，并表示这是公司第一个支持实时交互的世界模型。OpenAI则开源了gpt-oss-120b和gpt-oss-20b两个推理模型，这是OpenAI时隔六年再次开源模型。

这三家大模型厂商的新产品面向的使用场景各不相同，但不难看出，通过此次新品发布，OpenAI和Anthropic都展示了产品策略上变化。

其中，OpenAI的开闭源策略发生了转变。随着『DeepSeek』引领开源的方向，今年4月，OpenAI CEO山姆·奥尔特曼（Sam Altman）就表示，OpenAI认为推出强大、有推理能力的新开源模型“非常重要”。此次OpenAI兑现了推出新开源模型的承诺。山姆·奥尔特曼称，这两款开源模型是OpenAI耗资数十亿美元💵的研究成果。

此次OpenAI开源的gpt-oss-120b参数量为1170亿，采用MoE（专家）架构，激活参数量51亿。另一个开源模型gpt-oss-20b参数量为210亿，同样采用MoE架构，激活参数量36亿。

据OpenAI公布的基准测试结果，gpt-oss-120b在竞赛编码、工具调用基准测试中的得分接近或超过闭源的o4-mini模型，gpt-oss-20b在基准测试中的分数则与o3-mini相当或超过o3-mini。这两款模型的推理性能在开源模型中都属于第一梯队。

值得注意的是，此次OpenAI更新的重点不仅在于开源，还在于让新模型可以在电脑、手机这类端侧设备上本地部署。

gpt-oss-120b可以在单张80GB容量的GPU上运行，gpt-oss-20b可以16GB内存的消费级设备上运行。据OpenAI展示的视频，将gpt-oss-120b本地部署在电脑上，该模型可以根据提示词生成一个射击类游戏，改变提示词后，还能将游戏中的图标变成草莓的形状。山姆·奥尔特曼表示，这两款开源模型能在笔记本📓上本地部署，gpt-oss-20b还能部署在手机上。

Anthropic的策略改变，则是决定更频繁地推出产品渐进式更新，而不是只专注于更新重大版本。此次Anthropic推出了Claude Opus 4.1。该公司表示，以往公司只专注于发布重大版本更新，此次更新意味着公司转向推动编码模型渐进式改进，公司还将在未来几周内推出更多更新。

从新发布的产品看，Claude Opus 4.1主要是在深入研究、数据分析、代理（agentic）搜索方面的能力也比前一代有所提升。Anthropic表示，新产品擅长处理复杂的多步骤问题，该公司将其定位为更有效的AI智能体（Agent）。

在SWE-bench Verify基准测试中，Claude Opus 4.1得分74.5%，超过Opus 4的72.5%，显示编码能力较前一代有所提升。此外，该模型在Terminal-Bench（代理终端编程）、GPQA Diamond（研究生级别推理能力）、MMMLU（多语言问答）基准测试中的得分分别为43.3%、80.9%、89.5%，超过Opus 4的39.2%、79.6%、88.8%。据Anthropic介绍，GitHub平台用户、Rakuten Group客户的反馈显示，Opus 4.1在代码修改精准度和调试效率上有明显改善。

谷歌则是沿着世界模型的路径往前迈了一步。

在去年推出Genie 1和Genie 2世界模型以及Veo 2和Veo3视频生成模型的基础上，此次谷歌推出通用世界模型Genie 3。不同于以往，Genie 3是谷歌第一个允许进行实时交互的世界模型。谷歌称，世界模型是迈向AGI（通用人工智能）的关键垫脚石，因为世界模型允许AI智能体在丰富的模拟环境中不受限制地训练，同时能为『机器人』️训练提供场所。

据谷歌介绍，Genie 3可以生成多样化的交互环境。该模型对世界物理特性的建模可以模拟水、光等自然现象，可以生成包含动物、植物在内的生态系统，还可以创造动画角色，并模拟复杂环境下各种元素的相互作用。在Genie 3生成的动态世界里，可以以每秒24帧的速度进行导航，并在720p的分辨率下保持长达几分钟的画面一致性，该模型的视觉记忆还可以追溯至一分钟前。

据谷歌发布的演示视频，生成『机器人』️跑步的画面，Genie 2只能生成8秒具有一致性的画面，而Genie 3可以生成长达几分钟的画面；Genie 3可以模拟灯光节期间在水面上行驶的摩托艇，摩托艇撞到灯笼、岸边的效果十分真实；输入提示词“教室前的黑板写着Genie-3，下面用粉笔画着苹果、咖啡和树，教室空无一人，窗外是树木和行驶的汽车”，Genie 3生成的画面是一个推进的视角，展示了黑板，然后镜头转向旁边的窗户，能看到窗外的汽车和树木，画面十分自然逼真。

不过，谷歌也指出，虽然Genie 3突破了世界模型的能力边界，但仍有局限性，例如，可执行的动作空间有限、难以在一个共享环境中模拟多个智能体的交互、难以准确模拟真实世界的位置、交互持续时长无法长达数小时。

虽然标志着基础大模型迭代的GPT-5迟迟未能面世，但这些频繁的大模型更新，仍展示了AI的能力在继续升级。无论是开源可供端侧部署的模型、推动智能体技术演进还是让世界模型变得可以交互，都让大模型的可用性有所增加。