深度|《AI进化论》解读:Agent智能体带来的“L3阶段革命”(id进化论)

当ChatGPT用2个月突破1亿用户时,人们惊叹于AI的爆发力;而如今一个更具颠覆性的概念正加速走来,那便是AI Agent。

中金公司最新研报指出,AI正从“能聊天”“会推理”的L1、L2阶段,迈向能“用工具”“做决策”的L3“智能体时代”。

这种被称为“AI Agent”的新形态,不仅在技术上实现了从“被动响应”“主动执行”的跨越,更可能通过接管手机等终端设备,彻底重塑我们与数字世界的交互方式。

01 从“对话助手”到“全能管家”:AI Agent的L3时刻已至

AI的进化之路,正在经历一场关键转折。

OpenAI曾将AI发展划分为五个阶段:从L1“聊天『机器人』️”(如ChatGPT,能理解语言)、L2“推理者”(如『DeepSeek』,具备逻辑解决能力),到L3“智能体”(能使用工具、执行决策)、L4“创新者”(辅助发明)、L5“完整组织”(类组织运作)。

其中,L3被视为AI走向实用化的“质变点”——区别于前两阶段的“被动响应”,L3级AI能像人类一样“动手”:浏览网页、操作软件、调用工具,甚至独立完成复杂任务。

今日霍州(www.jrhz.info)©️

近半年来,海内外厂商的技术突破让这一时刻加速到来。

2024年10月,Anthropic推出Claude3.5的“Computer Use”功能,首次实现AI像人类一样“观察”屏幕截图、移动光标、点击按钮——比如用户要求“用本地和在线数据填表单”,它能自动拆解为“查本地表格→开浏览器→爬取数据→填写表单”的连贯操作。紧随其后,OpenAI在2025年1月发布“Operator”,专攻浏览器操控,通过视觉模型解析网页按钮、文本框,完成旅行预订、软件开发等任务,遇到登录等敏感操作时还会主动交还控制权给用户。

这些进展直指两大核心目标:

一是破解“图形用户界面(GUI)理解”难题。微软推出的OmniParser工具,能将屏幕截图转化为结构化元素(如按钮、文本框坐标),让AI精准定位操作对象;OSWorld测试显示,AI解析屏幕截图的任务完成度已从2024年6月的7.8%跃升至2025年3月的38.1%(OpenAI的CUA模型)。

今日霍州(www.jrhz.info)©️

二是降低开发门槛。OpenAI的Responses API提供“搜索+文件处理+计算机使用”的模块化工具,开发者几行代码就能搭出专属Agent;Anthropic的MCP协议则像“万能接口”,让AI轻松连接GoogleDrive、Slack等数据源。

今日霍州(www.jrhz.info)©️

从“能看懂”到“会动手”,AI Agent正在突破“工具使用”的图灵测试,距离规模化接管设备只剩一步之遥。

值得一提的是,在GUI Agent的开发上,九科信息推出的bit-Agent在国内乃至全球范围内皆处于领先地位。目前bit-Agent已正式应用于上汽公司的安全巡检项目,成为国内首个、全球首批实现商业化落地的GUI Agent。(点击阅读案例详情:上汽集团:九科信息与帆一尚行联合打造智能体,赋能上汽安全产品智能巡检业务

九科信息X上汽集团:智能体落地案例效果

02 多代理模式+过程透明,Manus带来的双重创新

3月6日,中国创业公司Monica发布的通用型AI Agent“Manus”,在评估AI解决实际问题能力的GAIA基准测试中,包揽三个难度等级的全球第一,直接超越OpenAI。

它的突破不在单点技术,而在模式创新。

创新一:多代理“套壳”,快速实现通用能力

传统AI Agent要么专攻单一任务(如代码生成),要么因功能复杂难以落地。Manus采用“母Agent统筹+子Agent分工”的模式:用户提出需求后,母Agent先拆解任务(如“四月日本之旅”拆分为查交通、天气、景点等子项),再调用不同子Agent执行,最后整合输出。这种模式如同搭积木,开发者无需从零构建全功能模型,而是组合现有工具,大幅降低通用型Agent的落地成本。

正如PerplexityCEO所言:“在10万用户基础上套壳创新,远比重建模型更有意义。”

创新二:过程全透明,破解“可靠性焦虑”

用户对AI的最大顾虑是“黑箱操作”——比如AI生成一份股票分析报告,用户无法验证数据来源和推理逻辑。Manus在屏幕右侧设置“虚拟机窗口”,实时展示处理全过程:拆解任务时输出“To Do List”,爬取数据时显示浏览的网页、编写的代码,甚至滚动鼠标的动作都与人类操作一致。

这种“过程可视化”直击行业痛点。Lang Chain调研显示,54%的企业用户因“担心AI出错”,会额外加装跟踪控件;而Manus让用户能实时回溯每一步操作(如“这个景点推荐来自哪篇攻略”),信任度自然提升。更关键的是,它降低了大众使用门槛:即使不懂编程,用户也能通过观察过程理解AI的决策逻辑,这为C端大规模普及扫清了心理障碍。

九科信息bit-Agent与Manus能力对比

而事实上,作为国内GUI Agent领域的“隐形冠军”,九科信息也在以上两种模式上进行了深入的探索。

九科信息的智能组织bit-Crew即是多个Agent构建起的超级智能体组合,而在已落地的bit-Agent中,“全程可视化+数据留痕+风险提示”更是成为了标配。

九科信息以Agent为核心的智能『机器人』️组织

03 生态重构:手机厂商与『互联网』公司的“入口争夺战”

Agent时代,用户需求由单一入口承接,工具类APP可能退居后台成为“服务供应商”。比如你想“买母亲节礼物🎁”,AI Agent会自动比对淘宝、京东的价格,调用小红书的测评,甚至关联微信好友的推荐,最后直接推送最优选项,内容分发权将从APP转移到Agent手中。

面对这场变革,手机厂商已展开激烈布局。他们手握硬件和底层权限,主打“系统级Agent”。华为Pura70的“小艺智能体”能识别图片内容自动转换格式,付款时被扫码枪对准会瞬间弹出付款码;小米15系列的“超级小爱”可一键完成“订咖啡→约朋友→导航到店”的连贯操作;苹果iPhone16则将Siri与ChatGPT深度整合,支持语音生成图片、润色邮件。

它们的优势在于“端侧算力+数据闭环”,比如小米澎湃OS2能直接调用手机存储的日程、通讯录数据,响应速度比云端Agent快3-5倍。

今日霍州(www.jrhz.info)©️

短中期内,这场竞争将呈现“百花齐放”的格局——手机厂商有硬件壁垒,『互联网』公司有场景数据,而合作可能成为主流。但长期看,谁能先实现“全场景自主决策+用户信任”,谁就可能成为新的流量入口掌控者。

不可否认的是,AI Agent已从概念走向现实,它的“L3时刻”,或许正是我们与数字世界交互方式彻底改变的起点。

对于行业而言,这既是颠覆,更是机遇。无论是硬件厂商、软件公司,还是每一位用户,都将在这场变革中找到新的位置。

特别声明:[深度|《AI进化论》解读:Agent智能体带来的“L3阶段革命”(id进化论)] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

多功能划线神器:高效绘制体育场地的秘密武器(划线机器)

从标准篮球场到羽毛球场,再到宽敞的停车位与繁忙的公路,高效精准的划线工具已成为现代社会基础设施建设的重要助手。本文探讨了这种划线神器的功能与用途,揭秘其背后的技术原理,分析应用场景,展望未来发展。

多功能划线神器:高效绘制体育场地的秘密武器(划线机器)

2025钛丝优质供应商推荐榜——航空航天医疗民用场景适配指南(钛丝生产工艺)

核心优势:①标准合规:严守GJB2218A(国军标)、GBT13810(医用钛)、GBT3621等核心标准,为高要求场景提供稳定解决方案;② 品质管控:与科研院所共建研发实验室,采用“熔炼-轧制-精整…

2025钛丝优质供应商推荐榜——航空航天医疗民用场景适配指南(钛丝生产工艺)

42岁『陈妍希』离婚后逆龄生长:自律与自爱成女性♀️成长教科书(『陈妍希』33岁结婚)

最近,42岁的『陈妍希』又一次冲上热搜,不是因为恋情,也不是因为旧事重提,而是她那让人惊叹的“逆龄状态”和强势回归的事业表现。『陈妍希』用行动回应:女性♀️的价值,从来不该由婚姻状态来定义。她分享的油敷护肤法、低糖饮食和…

42岁『陈妍希』离婚后逆龄生长:自律与自爱成女性♀️成长教科书(『陈妍希』33岁结婚)

红酒瓶塞:抽真空瓶塞的保鲜功能及应用解析(红酒瓶塞进去了还能喝吗)

本文探讨了红酒瓶塞特别是抽真空瓶塞的技术原理、发展历史、应用场景及优缺点。抽真空瓶塞通过降低瓶内氧气含量来延长葡萄酒的保存时间,是现代葡萄酒储存的重要辅助工具。文章还将讨论其适用范围、技术特性及未来发展趋势。

红酒瓶塞:抽真空瓶塞的保鲜功能及应用解析(红酒瓶塞进去了还能喝吗)

60岁蒋雯丽现状:定居英国,又瘦又老,网友惋惜:一代女神也老了(蒋雯丽现况)

在不少人的心目当中她是一个非常低调的演员。 多说人再次看到她的消息是在她60岁的时候。不少人都不敢相信过去在蒋雯丽的身上竟然看到了“油腻”两个字。 不过如今的蒋雯丽年纪已经这么大了,感情对她来说更大的概率…

60岁蒋雯丽现状:定居英国,又瘦又老,网友惋惜:一代女神也老了(蒋雯丽现况)