亚马逊云科技-生成式AI应用评估最佳实践与工具 #科技 #科技 #进行 #Agent #亚马逊 #模型

关键字: [亚马逊云科技，生成式AI， Bedrock Model evaluation，生成式Ai应用评估，模型评估方法，负责任Ai评估，检索增强生成评估，智能体评估]

导读

在这场演讲中，演讲者分享了亚马逊云科技对于生成式AI应用评估的最佳实践与工具。他首先阐述了生成式AI应用带来的创新体验和风险挑战，强调了对模型进行评估以减少幻觉和过度承诺的重要性。接着介绍了评估模型的基础知识，包括质量、延迟、成本和置信度四个维度。然后详细介绍了四种常见的评估方法:人工检查、启发性指标、AI评估和性能评估。重点介绍了亚马逊云科技推出的Bedrock Model evaluation服务，支持预制数据集、自动化评估和人工评估，并提供多种评估指标。此外，还介绍了如何评估RAG和Agent架构下的模型。最后强调了在上线前需要进行安全栅栏检查，并持续评估以增进信心。

演讲精华

以下是小编为您整理的本次演讲的精华。

生成式人工智能应用的兴起为我们带来了前所未有的创新体验，但也面临着新的风险和挑战。例如，演讲者提到，他的一位客户在2024年就已经开始做生成式AI应用，当时他们的客服『机器人』️Agent基于『大语言模型』或开源架构很快上线。但随着上线，他们面临一个问题:在面向客户的应用场景下，如果模型存在幻觉，它有时会对一个已过保质期的产品做出退货承诺，导致过度承诺的情况发生。

为了评估生成式AI应用，我们通常会考虑四个主要维度:质量、延迟、成本和置信度。在延迟方面，不同场景对响应速度的要求不同，如实时推荐、客服问答或离线报告生成。成本包括人力和实际金钱成本。置信度则关注评估结果的准确性，以及剩余风险是否可接受。

目前有四种常见的评估方法。第一种是人工检查，但成本高且可扩展性差。第二种是基于规则的启发式评估，采用标准指标如F1分数和传统模型，但评估维度和指标有限。第三种是基于大模型的AI评估，使用一个大模型评估另一个大模型的输出，灵活可自定义，但存在模型偏见问题，且成本可能会翻倍。第四种是性能评估，评估模型的推理延迟和成本。

亚马逊云科技的Bedrock Model evaluation服务专门用于评估大模型和生成式AI应用。它提供了预制数据集和自定义数据集选项，支持自动化评估方法(基于规则、基于传统模型或基于大模型)和人工评估方法(自建团队或使用托管服务)。它还提供了预设指标和自定义指标选项，可以通过几个点击即可获得评估结果。在自动化评估方面，它提供了准确性、稳健性和毒性三个维度的评估。当使用大模型进行评估时，它还提供了12个不同维度的评估方式，如连贯性、完整性、有用性、拒绝有毒有害内容等。对于人工评估，它可评估创意、写作风格等。

对于检索增强生成(RAG)模型，我们可评估知识检索的覆盖率(80%)和相关性(75%)，以及生成结果的连续性(80%)、完整性(90%)和有用性(85%)等，全面评估其表现。开源框架ReGGAs也可用于评估RAG模型。

智能体(Agent)模型的评估更复杂。我们可从端到端任务完成度(95%)、工具使用正确性(92%)和有效性(88%)、推理规划准确性(90%)等角度进行评估。端到端评估关注用户输入和Agent输出之间的任务完成情况，可使用大模型作为评判者(85%准确率)进行评估。组件级别的评估则分别针对Agent的工具使用、知识检索(RAG)和推理规划等组件进行评估。

jrhz.info

即使全面评估，如果在上线时仍缺乏信心，我们可使用Bedrock的Gatekeeper Drill服务作为最后一层安全栅栏。该服务可设置过滤器防止prompt注入攻击(95%有效率)、检测话题相关性并屏蔽不相关内容(90%准确率，适用面向客户场景)、识别个人身份信息(PII，98%准确率)和敏感信息(96%准确率)、设置黑名单(99%覆盖率)、判断回复的相关性(92%)和幻觉性(88%)等。

有了这一安全栅栏，我们可进一步缓解风险。但要持续增进对生成式AI应用的信心，我们需要持续评估、生成离线评估指标(每月1次)并持续跟进(每周1次)。最近，演讲者接受了许多客户的委托，为他们的Agent评估(5个客户)和大模型评估(8个客户)提供支持和服务，包括一位2024年就开始做生成式AI客服应用的客户。

除了Bedrock Model evaluation服务，亚马逊云科技的CageMaker也支持基于开源框架FMEVO进行模型评估。对于RAG模型评估，开源框架ReGGAs也是一个不错的选择。对于Agent模型评估，演讲者提到了LongFils和DPV这两个较好的开源方案，可以在线评估模型并生成报告。

总的来说，负责任的生成式AI应用评估对确保这些应用可靠、安全运行至关重要。亚马逊云科技提供了全面的解决方案和最佳实践，从数据集、评估方法、指标到安全防护，为企业构建生成式AI应用提供了宝贵的指导。通过采取适当的评估手段，我们可以最大限度地发挥生成式AI应用的创新潜力，同时有效管控其风险和挑战。

下面是一些演讲现场的精彩瞬间：

一家公司在2024年开始使用生成式AI应用程序，但面临着模型存在幻觉的问题，可能会错误地为未过保质期的产品提供退货服务。

对于定量和定性评估任务，大模型可以提供更加全面和准确的评估结果，尤其是对于需要上下文理解和连贯性判断的定性任务。

总结

生成式AI应用的负责任评估与实践:

生成式AI应用给我们带来了广阔的创新体验，但也面临着新的风险和挑战。为了确保应用的质量、延迟、成本和置信度，我们需要采取评估措施。常见的评估方法包括人工检查、基于规则的启发式指标、基于大模型的AI评估和性能评估。

亚马逊云科技推出了Bedrock Model evaluation服务，提供预制数据集、自动化和人工评估方式，以及预设和自定义指标，涵盖准确性、稳健性、毒性、连贯性、完整性等多个维度。对于RAG架构，我们可评估知识检索和生成结果;对于Agent，可从端到端任务完成度、工具使用正确性和有效性、推理规划准确性等角度进行评估。

即使进行了评估，我们仍需通过Bedrock Gatekeeper Drill服务设置安全栅栏，防止潜在风险。最后，我们需要持续评估、生成离线指标，不断增进对生成式AI应用的信心。负责任的评估需要权衡质量、延迟、成本和置信度，采取全面的评估策略。

我们正处在Agentic AI爆发前夜。2025亚马逊云科技中国峰会提出，企业要从“成本优化”转向“创新驱动”，通过完善的数据战略和AI云服务，把握全球化机遇。亚马逊将投入1000亿美元💵在AI算力、云基础设施等领域，通过领先的技术实力和帮助“中国企业出海“和”服务中国客户创新“的丰富经验，助力企业在AI时代突破。