AI Agent、传统聊天『机器人』️有何区别？如何评测？这篇30页综述讲明白了 #科技 #Agent #能力 #『机器人』️ #基准 #评测

论文作者包括来自上海交通大学的朱家琛、芮仁婷、单榕、郑琮珉、西云佳、林江浩、刘卫文、俞勇、张伟楠，以及华为诺亚研究所的朱梦辉、陈渤、唐睿明。

本文第一作者是朱家琛，上海交通大学博士生，主要研究兴趣集中在大模型推理，个性化 Agent。本文通讯作者是张伟楠，上海交通大学教授，研究方向包含强化学习、数据科学、『机器人』️控制、推荐搜索等。

自从 Transformer 问世，NLP 领域发生了颠覆性变化。『大语言模型』极大提升了文本理解与生成能力，成为现代 AI 系统的基础。而今，AI 正不断向前，具备自主决策和复杂交互能力的新一代 AI Agent 也正加速崛起。

不同于以往只会对话的 LLM 『机器人』️，AI Agent 能够接入『互联网』、调用各类 API，还能根据真实环境反馈灵活调整策略。AI Agent 因此具备了感知环境和自主决策的能力，已经突破了传统 “问答模式” 的限制，能够主动执行任务、应对各种复杂场景，真正成为用户身边可靠的智能助手。

在这股 AI Agent 浪潮中，每个人都可以有属于自己的 AI Agent。而如何衡量自己的 AI Agent 是否足够强大呢？海量的 Agent 评测方式层出不穷，你是否挑得眼花缭乱？如何在这千军万马中挑选出最适合你的测评方式呢？作为 AI Agent 的开发者，你是否也在思考该从哪个角度来提升你的 “秘密武器”，在这场激烈的 AI Agent 大战中脱颖而出？

因此，这引出了一个顺理成章的问题：

AI Agent 到底和传统聊天『机器人』️有何本质区别？又该如何科学评测 AI Agent？

论文标题：Evolutionary Perspectives on the Evaluation of LLM-Based AI Agents: A Comprehensive Survey
论文链接：https://arxiv.org/pdf/2506.11102

一、从 LLM Chatbot 到 AI Agent

论文指出，AI Agent 的出现是 AI 发展的新阶段。它们不仅仅回复人类对话，还具备了五个维度的进化：

1.复杂环境：Agent 不再局限于单一对话场景，可以与代码库、网页、操作系统、移动端、科学实验等各类环境交互。

2.多源指令：Agent 不只接收人工输入，还能结合自我反思、智能体协作等多源指令。

3.动态反馈：Agent 运行于连续多样的反馈环境，可基于指标、奖励等动态反馈持续优化自身能力，不再局限于被动对话纠正。

4.多模态：Agent 拥有跨模态处理能力，能理解文本、视觉、听觉等多种数据。

5.高级能力：随着外部环境复杂化，Agent 具备了复杂规划、持久记忆、自主推理等能力，实现从被动响应到自主执行的跃迁。

今日霍州(www.jrhz.info)©️

图 1：AI Agent 与 LLM Chatbot 演化的五个维度。

LLM Chatbot 向 AI Agent 的演进，背后主要受两方面推动：一是外部环境的日益复杂，二是内部能力的不断提升。复杂的外部环境促使 Agent 不断成长，而 Agent 能力的提升又推动人们去探索更具挑战性的应用场景。正是这种内外循环、相互促进，成为现代 AI Agent 加速进化的根本动力。因此，论文的总体框架如图 2 所示：我们系统梳理了现有 AI Agent 评测基准，提出 “环境 - 能力” 两方面的分类学。随后进行趋势讨论，对 Agent 评测方法演化趋势的讨论，涉及环境角度，Agent 角度，评估者角度，指标角度，并最终提出基准选择的方法论。