MCP-Universe基准测试显示GPT-5在超半数真实业务场景中表现不佳(spec基准测试)

今日霍州(www.jrhz.info)©️

互操作性标准(如模型上下文协议MCP)的采用,可以为企业提供智能体和模型在封闭环境外运行情况的洞察。然而,许多基准测试未能捕捉到与MCP的真实交互情况。

Salesforce AI研究团队开发了一个名为MCP-Universe的新开源基准测试,旨在跟踪『大语言模型』与现实世界MCP『服务器』的交互表现,认为这将更好地反映模型与企业实际使用工具的真实时间交互情况。在初步测试中,研究发现OpenAI最新发布的GPT-5等模型虽然表现强劲,但在现实场景中的表现仍不尽如人意。

Salesforce在论文中表示:"现有基准测试主要关注『大语言模型』性能的孤立方面,如指令遵循、数学推理或函数调用,而未能全面评估模型在不同场景下与真实世界MCP『服务器』的交互方式。"

MCP-Universe通过工具使用、多轮工具调用、长上下文窗口和大工具空间来捕捉模型性能。它基于现有MCP『服务器』构建,可访问真实数据源和环境。

Salesforce AI研究总监Junnan Li向VentureBeat表示,许多模型"在企业级任务上仍面临限制"。他指出两大主要挑战:"长上下文挑战——模型在处理非常长或复杂输入时可能失去信息追踪或推理一致性;未知工具挑战——模型通常无法像人类那样灵活适应不熟悉的工具或系统。"

MCP-Universe与其他基于MCP的基准测试相结合,如马萨诸塞大学阿默斯特分校和西安交通大学提出的MCP-Radar,以及北京邮电大学的MCPWorld。它还基于Salesforce在7月发布的主要关注智能体的MCPEvals构建。Li表示,MCP-Universe与MCPEvals最大的区别在于后者使用合成任务进行评估。

**工作原理**

MCP-Universe评估每个模型执行一系列模拟企业任务的表现。Salesforce设计MCP-Universe涵盖企业使用的六个核心领域:位置导航、代码库管理、财务分析、3D设计、浏览器自动化和网络搜索。研究团队访问了11个MCP『服务器』,总计231个任务。

位置导航专注于地理推理和空间任务执行,研究人员利用Google Maps MCP『服务器』。代码库管理领域关注代码库操作,连接GitHub MCP以展示版本控制工具。财务分析连接Yahoo Finance MCP『服务器』,评估定量推理和金融市场决策能力。3D设计通过Blender MCP评估计算机辅助设计工具使用。浏览器自动化连接Playwright的MCP测试浏览器交互。网络搜索领域采用Google Search MCP『服务器』和Fetch MCP检查"开放域信息搜索"。

研究团队为每个领域创建了四到五种任务类型。评估采用基于执行的评估范式,而非常见的『大语言模型』评判系统,因为"『大语言模型』评判范式不适合MCP-Universe场景,某些任务使用实时数据,而『大语言模型』评判的知识是静态的"。

**测试结果显示主要模型仍有困难**

为测试MCP-Universe,Salesforce评估了多个热门专有和开源模型,包括xAI的Grok-4、Anthropic的Claude-4 Sonnet、OpenAI的GPT-5、Google的Gemini 2.5 Pro等。每个测试模型至少拥有120B参数。

测试发现GPT-5成功率最高,特别是在财务分析任务中。Grok-4紧随其后,在浏览器自动化方面表现最佳。在开源模型中,GLM-4.5表现最佳。

然而,MCP-Universe显示模型在处理长上下文时存在困难,特别是位置导航、浏览器自动化和财务分析方面,效率显著下降。遇到未知工具时,『大语言模型』性能也会下降。研究表明,『大语言模型』在超过一半的企业典型任务中难以完成。

论文总结道:"这些发现凸显了当前前沿『大语言模型』在可靠执行多样化真实世界MCP任务方面仍有不足。因此,我们的MCP-Universe基准测试为评估现有基准测试服务不足领域的『大语言模型』性能提供了具有挑战性且必要的测试平台。"

Li希望企业使用MCP-Universe深入了解智能体和模型在任务中的失败点,以便改进框架或MCP工具实施。

Q&A

Q1:MCP-Universe基准测试是什么?它有什么特点?

A:MCP-Universe是Salesforce AI研究团队开发的开源基准测试,专门跟踪『大语言模型』与现实世界MCP『服务器』的交互表现。它通过工具使用、多轮工具调用、长上下文窗口和大工具空间来评估模型性能,基于真实MCP『服务器』构建,可访问实际数据源和环境。

Q2:GPT-5在MCP-Universe测试中表现如何?

A:GPT-5在测试中获得了最高成功率,特别是在财务分析任务方面表现突出。但研究发现,即使是GPT-5这样的前沿模型,在处理长上下文和未知工具时仍存在困难,在超过一半的企业典型任务中难以完成。

Q3:MCP-Universe测试涵盖哪些应用领域?

特别声明:[MCP-Universe基准测试显示GPT-5在超半数真实业务场景中表现不佳(spec基准测试)] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

『李湘』账号被禁,前夫王岳伦回应:请勿传播谣言(『李湘』账号被禁止背后有何隐情?)

熟悉『李湘』和王岳伦的朋友都知道,尽管两人在2025年和平离婚,结束了长达12年的婚姻,但他们对女儿王诗龄的爱从未减少,一直是离婚不离场,默契地共同呵护女儿。 王岳伦和『李湘』倾注心血才让女儿进入这所学校,怎可能…

『李湘』账号被禁,前夫王岳伦回应:请勿传播谣言(『李湘』账号被禁止背后有何隐情?)

悠莱「悠着莱茶铺」成都启幕:一场从容年轻的美学实践(悠莱新品)

值得期待的是,此次「悠着莱茶铺」中的两匹骏马装置,亦同步呈现于资生堂中国总部,这不仅是马年新春点缀,更串联了双重核心背景:一是在悠莱成立20周年的重要节点,以茶马古道文化中“传承与远行”的寓意,致敬品牌里程…

悠莱「悠着莱茶铺」成都启幕:一场从容年轻的美学实践(悠莱新品)

年味淡了?金领冠《百子纳福》邀你亲手找回仪式感(金领奶粉最新事件)

闺蜜跟我闲聊“现在过年还有什么意思?”我直接把金领冠《百子纳福》节目推给她。当我们抱怨年味淡了,其实淡的是参与感与仪式心。金领冠这档节目,恰恰带我们“重回现场”:亲手穿一串糖葫芦,一起跳一段摆手舞,在互动中找…

年味淡了?金领冠《<strong>百子纳福</strong>》邀你亲手找回仪式感(金领奶粉最新事件)

16岁怀孕当妈,和钱小豪儿子恋爱后,成功嫁豪门,37岁活成这样(我16岁怀孕了)

她的人生拐点出现在16岁那年——那时,她仍穿着校服,是一名普通的初中生,与初任丈夫相识不久后,意外怀孕,这一消息犹如一道惊雷,将她原本在父母庇护下的成长轨迹劈开,改变了她的一生。这场与前辈的交锋虽然未能掀起更…

16岁怀孕当妈,和钱小豪儿子恋爱后,成功嫁豪门,37岁活成这样(我16岁怀孕了)

短道速滑防撞垫该怎么选?2026最新冰场防护装备解析(国际速滑场地防撞垫尺寸)

如何挑选合适的短道速滑防撞垫是每个冰雪运动爱好者关心的问题。本文深入剖析了不同类型防护垫的功能特点、适用场景及选购技巧,帮你避开常见的选择陷阱。无论是在室内还是室外场地,我们为你梳理了一份全面的选购指南,让你轻松做出明智决策。

短道速滑防撞垫该怎么选?2026最新冰场防护装备解析(国际速滑场地防撞垫尺寸)