OpenAI Agent测试报告(open test)

今天分享的是:OpenAI Agent测试报告

报告共计:49页

AI Agent产品实测:从订餐厅到做报告,智能助手们的真实能力如何?

当下,AI领域正掀起一股“Agent热潮”。从OpenAI推出的ChatGPT Agent,到Perplexity的Comet、Genspark等产品,一批能自主完成复杂任务的智能助手相继登场。它们号称能帮用户订餐厅、做旅行规划、写行业报告,甚至处理办公室开设等专业事务。这些AI助手的实际表现究竟如何?近期一份针对多款主流AI Agent产品的测试报告,为我们揭开了谜底。

从简单预订到专业分析:AI Agent能搞定哪些事?

测试团队选取了12项不同难度的任务,覆盖日常琐事到专业工作,从“ Whole Foods订购”“旧金山寿司餐厅预订”等简单任务(难度1-2级),到“新加坡办公室开设研究+PPT”“稳定币全面分析”等复杂任务(难度4-5级),全面考察AI Agent的能力边界。

简单任务中,餐厅预订、购物指南等场景最能体现AI的实用性。比如在“旧金山寿司餐厅预订”任务中,多数产品能快速筛选出高评分餐厅,但执行细节差异明显:Comet 34秒就给出推荐清单,却没完成实际预订;Fellou因陷入信息补全循环,最终失败;OpenAI Agent则列出了符合条件的餐厅,却需要用户手动确认时间。而在“Whole Foods订购”这类涉及支付的任务中,由于工具限制,所有产品都无法直接完成下单,只能提供详细的订购指南。

复杂任务更能拉开差距。“网球锦标赛旅行规划”要求结合用户偏好(徒步、素食、spa)、预算(3000美元💵)生成详细行程,OpenAI Agent和Genspark表现突出,不仅规划到小时级活动,还附上预订链接,预算控制精准;“智能眼镜👓行业分析”任务中,Manus产出了2.5万字报告,涵盖国内外市场数据、技术趋势,甚至引用500多条参考文献,展现了专业领域的深度处理能力。

值得关注的是,高难度的“Dify AI投资报告+PPT”任务(2万字报告+演示文稿)成了“分水岭”。Genspark和Fellou不仅完成了万字报告,还生成了带配图的PPT,其中Genspark的PPT支持在线编辑字体、颜色等细节;而OpenAI和Manus仅完成了报告部分,未能生成PPT。

谁是“全能选手”?主流AI Agent产品各有长短

测试覆盖的5款产品——OpenAI Agent、Comet、Manus、Genspark、Fellou,在速度、准确性、易用性等维度各有优劣,勾勒出当前AI Agent的“能力图谱”。

速度方面,Comet堪称“闪电侠”。在“旧金山财务报告查找”任务中,它仅用44秒就给出2020-2024年的报告链接,而OpenAI Agent花了5分钟,Manus则用了8分钟。这种效率优势在简单信息检索类任务中尤为明显,但在复杂任务中差距缩小,比如“新加坡办公室开设研究”,Comet和OpenAI Agent都用了约20-30分钟完成。

准确性与幻觉控制上,Fellou表现亮眼。测试者提到,Fellou在所有任务中几乎没有“幻觉输出”(即编造信息),尤其在涉及真实数据的“Twitter分析”任务中,其总结的发布时间、视频数量与实际完全一致。相比之下,Genspark和Comet偶尔会出现信息偏差,比如在“找YouTube宣传博主”时,误将普通用户标记为“大博主”。

性价比与易用性成了Genspark的加分项。其价格仅为Comet的1/10,却能在3分钟内生成带配图的报告初稿,支持在线编辑PPT、追加追问等功能。而OpenAI Agent的体验则略显“高冷”——仅网页版可用,开启功能需支付200美元💵且无明确指引,被测试者调侃为“像在玩找彩蛋”。

功能完整性方面,Manus和Fellou走向两个极端。Manus支持PDF、Markdown等多种格式下载,PPT可直接编辑文字;但Fellou因需要手动补全信息,在“餐厅预订”等任务中陷入循环,被评价为“单一任务执行成本过高”。

行业迎来“战国时代”:AI Agent正突破能力边界

从测试结果来看,AI Agent已告别“玩具级”应用,开始向实用工具迈进。测试团队负责人提到,2023年Agent概念刚兴起时,多数产品只能完成简单搜索,而现在已能处理“开设办公室”“撰写投资报告”等需要专业知识的多步骤任务。

这种进步背后,是技术的快速迭代。以Genspark为例,其4月至6月间每5-7天就更新一项功能,从“AI表格生成”到“云浏览器集成”,功能边界不断扩展;Manus则在3个月内新增了图像生成、团队协作等10余项功能,用户访问量随之增长3倍。

行业竞争也日趋激烈。数据显示,Manus单月流量达1500-2000万,Genspark约800万,Fellou虽起步较晚,单月流量也突破100万。从用户分布看,美国、印度、巴西是主要市场,反映出全球用户对AI助手的需求激增。

不过,AI Agent仍有明显短板。在涉及支付、账号密码的任务中,所有产品都需要用户手动介入;复杂任务的“上下文记忆”能力不足,比如在“稳定币分析”中,追加追问“政策影响”时,部分产品会重复已提及的内容。

正如测试者在报告中所说:“这些结果只是今天的快照。明天,创始人可能就会推送更新,能力边界又将被改写。” 可以预见,随着技术迭代和场景深挖,AI Agent将在办公、生活、专业领域扮演更重要的角色,而这场“智能助手之争”,才刚刚开始。

以下为报告节选内容

今日霍州(www.jrhz.info)©️

今日霍州(www.jrhz.info)©️

今日霍州(www.jrhz.info)©️

今日霍州(www.jrhz.info)©️

今日霍州(www.jrhz.info)©️

今日霍州(www.jrhz.info)©️

今日霍州(www.jrhz.info)©️

今日霍州(www.jrhz.info)©️

今日霍州(www.jrhz.info)©️

报告共计: 49页

中小未来圈,你需要的资料,我这里都有!

特别声明:[OpenAI Agent测试报告(open test)] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

娃哈哈百亿遗产争夺战升级!宗馥莉亲叔叔发声,痛批其德不配位(娃哈哈百亿遗产传来新进展)

宗馥莉辞职消息一出,众人多为这位“大小姐”的退场扼腕,偏偏她的叔叔宗泽后却在朋友圈火力全开,洋洋洒洒痛批侄女“德不配位”。宗叔叔的话虽刺耳,其中一句却点到了关键:娃哈哈并非宗馥莉的个人品牌,她无权随意处置。 …

娃哈哈百亿遗产争夺战升级!宗馥莉亲叔叔发声,痛批其德不配位(娃哈哈百亿遗产传来新进展)

keep翻译是什么?怎么高效找到专业可靠的翻译服务?(keep current翻译)

在『互联网』时代,越来越多的用户寻求"keep翻译"的专业翻译服务。然而市面上的翻译服务五花八门,如何才能找到靠谱的服务呢?本文从翻译服务选择到翻译质量评估,全方位解析"keep翻译&

keep翻译是什么?怎么高效找到专业可靠的翻译服务?(keep current翻译)

黄瓜配西红柿是“绝配”还是“相克” 一文给你整明白(黄瓜搭配西红柿)

  夏日餐桌上,黄瓜和西红柿是常见的清爽食材,凉拌、做沙拉都十分美味。但网络上“黄瓜西红柿不能一起吃”的说法,却让不少人纠结。这两种家常蔬果到底能不能搭配?接下来,我们从科学依据、营养成分、饮食实践等多个角度,为你层层解惑。_no_filt

黄瓜配西红柿是“绝配”还是“相克” 一文给你整明白(黄瓜搭配西红柿)

为什么说"Dead English"文案如此独特?它和“已故英语文案”有什么区别?(为什么说艾滋病0几乎不传1)

死去英语文案是一种独特而引人注目的创意写作风格,在广告界、艺术创作和文化交流等领域广受欢迎。它以超现实主义和非线性叙事为特点,常常让受众感到既熟悉又陌生。这种独特的风格是如何实现的?它的应用场景有哪些?本篇文章将从定义、特点、应用场景以及如

为什么说"Dead English"文案如此独特?它和“已故英语文案”有什么区别?(为什么说艾滋病0几乎不传1)

『虞书欣』危机解除!官方否认她是劣迹艺人,疑似背靠乐华彻底翻身了(『虞书欣』消息)

之前她被讨论家庭背景和与同行相处的问题,一直没怎么公开回应,连带着一些代言和剧集都受到了网友们的议论,活动露面也少了,主要只在海外平台有亮相,这不禁让一些人猜测她的发展是不是受到了限制。之前就有传言说『虞书欣』合…

『虞书欣』危机解除!官方否认她是劣迹艺人,疑似背靠乐华彻底翻身了(『虞书欣』消息)