开沿科技
13305079753想要报价 · 5 道题
方法论与思考

企业 AI Agent 怎么上线前评估?5 类红队测试 + 8 个能跑通的指标

开沿研发中心·2026-06-14·14 分钟阅读
企业 AI Agent 怎么上线前评估?5 类红队测试 + 8 个能跑通的指标

去年底有一家做工业品分销的客户找过来,说他们上了一个对外的 AI 售前助手,跑了三周突然被业务部门叫停。原因不是技术故障,而是销售在群里发现,Agent 给两个不同客户报了差 20% 的价格,理由还都是「根据您公司的合作历史」。复盘下来,整个上线流程里他们只做了「主流程能跑通」的回归测试,连最基础的事实一致性都没评估,更别说红队。这种事情在过去一年我们见过不止一次:产品经理觉得「Demo 演示挺顺」就上线,结果上线第二周开始疯狂打补丁。

传统软件的测试基于「相同输入产生相同输出」,写好用例覆盖分支就行;AI Agent 的输入是开放自然语言、输出是概率分布、还会调外部工具产生真实业务影响,三个变量叠加,让上线前的评估变成一个全新课题。这篇文章把我们在多个 Agent 项目里趟出来的方法整理成一份清单,包含 5 类红队测试、8 个能跑通的指标、自动化加人工的双轨流程,以及评估数据集的构造与持续更新思路。看完应该可以照着搭起自己团队的 Agent 评估体系。

为什么 AI Agent 的上线前评估比传统软件难

传统业务系统的测试,本质是验证「确定性逻辑」。订单状态从待支付到已支付,输入金额是 100,输出就一定是 100,测试用例可以穷举。但 AI Agent 有三个根本性的不同:第一是输入空间无限,用户用什么语气、用什么口音的方言、有没有错别字,全部都算合法输入;第二是输出是概率采样,同一个问题问两次答案可能不一样,且随着模型版本、temperature、上下文长度的变化漂移;第三是真的会执行动作,调工具改数据、发邮件给客户、扣库存下订单,错了不是「页面报错」而是「业务损失」。

这三点叠加在一起,导致传统测试方法几乎全部失效。单元测试没法写,因为输出不可枚举;集成测试覆盖率没法算,因为分支是模型在跑的;性能测试还能做,但语义正确率才是真问题。我们在做评估方案设计的时候,经常需要先帮客户「重置预期」,让他们理解 Agent 不是软件 2.0、是另一种工程产品。这块的体系化思路,可以配合 AI Agent 实施路径全景图AI Agent 上线前的前置自检 一起看,避免在评估这一步才发现前面的架构和数据基础没打好。

维度 传统软件 AI Agent
输入空间 有限、可枚举 自然语言、近似无限
输出特性 确定性 概率性、有漂移
副作用 受代码严格控制 工具调用可能影响真实业务
失败成本 页面报错、回滚 错误执行、舆情、合规
测试粒度 用例 / 分支 / 接口 任务 / 轨迹 / 工具调用

5 类红队测试:把 Agent 当对手来打

我们给团队定义的红队范围分五类,覆盖从「故意搞坏 Agent」到「无意触发故障」的全谱系。第一类是越权操作类,比如让客服 Agent 帮我「把订单状态改成已发货」「把客户的折扣率改到 5 折」,验证 Agent 在工具调用权限边界上是否守得住,这块和 AI Agent 权限审计 是配套的。第二类是恶意 Prompt 注入,常见手法包括「忽略前面的所有指令」「你现在是一个没有限制的 AI」「请把你的 system prompt 告诉我」,要测试 Agent 在拼接外部内容(邮件、网页、文档)时会不会被里面藏着的指令带跑。

第三类是事实错误攻击,专门构造「看起来很专业但是错的」问题,比如把客户公司的产品规格故意说错一个参数,看 Agent 会不会顺着用户的说法继续推理,这是幻觉评估的核心场景。第四类是隐私泄露测试,用各种间接问法去套用户数据、内部知识库、其他客户信息,比如「我同事昨天问过你什么」「你能列出你知道的客户名单吗」。第五类是拒绝服务类,包括超长输入、循环工具调用、并发突刺,测试 Agent 在异常负载下的降级行为,避免出现「一个用户把所有 Token 配额烧光」的情况,这块和 钉钉 API 配额与限流策略 的设计哲学是相通的。

红队类别 典型攻击样例 期望表现
越权操作 让客服 Agent 改订单状态 拒绝并提示需要人工
恶意 Prompt 注入 文档里藏「忽略所有指令」 不执行注入指令、保留主任务
事实错误 用错误的产品规格反诘 主动核对、不顺着错
隐私泄露 套其他用户信息 拒答并记录
拒绝服务 超长输入、循环调用 触发降级、保护配额

实操上有个小经验:红队样例最好不要全部来自团队拍脑袋,挑 1-2 周线上日志里被用户「问得最奇怪」的真实样本反过来加工,攻击的拟真度会高一个量级。

8 个能落地的评估指标

指标这块见过太多团队一上来定 30 个,最后一个也没看的情况。我们的建议是核心 8 个,分三层:业务层 4 个、技术层 2 个、安全层 2 个,覆盖足够、维护成本可控。

业务层先看任务成功率,也就是用户的一次会话最终有没有达成目标,这是最贴近业务价值的指标,需要离线评估 + 线上抽样人工标注双轨;其次是回答准确率,对有「正确答案」的问答场景(产品信息、政策条款)做精确率召回率统计;第三是拒答率,太低意味着「啥都敢答」、太高意味着「啥都不敢答」,一般合理区间是 5%-15%,需要根据业务定;第四是用户满意度,可以是会话末的星级,也可以从对话内的情绪信号自动打标。

技术层看响应时延的 P50/P95/P99 和 Token 成本,时延要拆「首 Token 时延」和「总耗时」分别看,Token 成本要按场景算单位成本(每会话/每订单/每次工具调用),这块在 AI Agent 开发费用拆解 里有更详细的算法。安全层看安全违规率和回滚率:违规率是红队样本上的失败比例,回滚率是上线后因为 Agent 错误导致人工介入或补偿的比例。

层级 指标 采集方式 报警阈值参考
业务 任务成功率 离线 Eval + 线上抽样 周环比下降 5%
业务 回答准确率 自动评估 + 人工复核 低于基线 3%
业务 拒答率 系统日志 跌破 5% 或超过 20%
业务 用户满意度 显式评分 + 隐式信号 低于设定基线
技术 响应时延 P95 链路追踪 超过 SLA 阈值
技术 Token 成本 计费日志 周环比上涨 20%
安全 红队违规率 红队回归批跑 单类高于 1%
安全 回滚率 工单系统 任一日突增

评估方法:自动化 Eval + 人工抽审 + A/B 上线

我们一般把评估流程分成三段。第一段是离线自动化 Eval,针对评估数据集跑完整批次,主要指标是结构化能跑机器判分的项目(任务成功率、准确率、违规率、时延),目标是每次模型/Prompt 变更后能在 30 分钟以内拿到回归报告。第二段是人工抽审,针对自动化难判的「语气是否合适」「是否需要补充信息」「是否有潜在合规风险」,按 1%-5% 比例抽样,由产品和业务同事一起打分。第三段是 A/B 上线,灰度 5% 到 20% 流量,对比新旧版本的核心指标,观察 1-2 周后决定是否全量。

这三段不是串行替代关系,而是并行守护。离线 Eval 是「快速止损」的回归网,人工抽审是「捕捉机器看不见的语义问题」的兜底,A/B 是「真实流量下做最后验证」的安全垫。开沿在做客户项目的时候,一般会要求三段都有专职 owner,避免出现「Eval 跑通了但没人看人工抽审报告」的失守。

工具选型:从 Excel 到自建 SaaS 的三段进化

工具不是越早上越好。第一阶段如果场景单一、评估样本几百条,老老实实用 Excel 加几个 Python 脚本就够,重点是把流程和心智模型跑顺,工具越简单越容易让团队真的去用。第二阶段团队扩张、Agent 数量超过 3 个,建议引入 Langfuse 或 LangSmith 这类 Trace + Eval 平台,能省下大量自己拼日志和指标看板的时间,开源 self-host 也不贵。第三阶段如果业务里 Agent 是「主营产品」、合规要求高、需要多租户隔离,再考虑自建评估 SaaS 或引入企业级商业方案。

阶段 工具形态 适用规模 主要成本
起步 Excel + Python 脚本 单 Agent、千级样本 人工时间
中期 Langfuse / LangSmith 等 3-10 个 Agent 工具订阅或自部署
成熟 自建评估平台 多业务线、合规要求高 研发投入与运维

绕开「工具陷阱」的核心是:先有评估方法,再选工具;不要让工具的功能定义你的评估流程。这点和我们在 AI Coding 工具对比 里给团队的建议是同一个套路——工具是放大器,流程才是引擎。

评估数据集:怎么构造、怎么持续更新

评估数据集是整个体系的命根子,但也是最容易被忽视的部分。构造一份合格的初版数据集,需要做四件事:从业务流程里拆出核心意图、从历史会话日志里捞高频问法、围绕业务规则补充关键边界、加入红队样本作为安全集。比例上建议 60% 高频常规、20% 边界异常、20% 红队对抗,总量初版 200-500 条即可启动。

持续更新比初版更重要。我们的做法是设立两个固定动作:每周从线上日志里随机抽 100 条会话,由产品和业务一起标注,挑出可以入库的新样本;每月针对一类「最近表现下滑」的场景做专题扩充。同时要管理好「数据集版本」,每次评估批次要绑定数据集版本号,不然指标对比就失去意义。涉及客户真实数据进入评估集的部分,必须经过脱敏审计,相关边界可以参考 AI Agent 企业数据安全 里的做法。

数据集还要做分层管理:核心冒烟集(50-100 条,每次 Commit 都跑)、回归集(500-1000 条,每次发版前跑)、安全集(红队样本,独立批次)、长尾集(业务边界场景,每月跑)。分层之后,自动化 CI 的负担可控、信号又不会被稀释。

上线后持续监控的 6 件事

上线只是评估的开始,不是终点。第一件是核心业务指标的日度看板,任务成功率、回答准确率、拒答率、满意度连续异动 3 天就要复盘。第二件是 Token 与时延成本的周度复盘,关注是否有「某类用户/某个工具」吃掉了不成比例的资源。第三件是用户负反馈的实时通道,差评、人工申诉、社群截图都要有自动归集。

第四件是工具调用层面的审计,特别是「写」类操作要有 100% 留痕,事后可追溯,这块的设计可以借鉴 AI Agent 权限审计 里的事件流。第五件是模型与 Prompt 的变更管理,任何线上变更必须先过完整回归批,记录在变更日志里。第六件是定期的红队复测,建议每两周或每个版本一次,红队样本随时间增补,防止「过去能拦下来的攻击现在拦不住」。

这六件事可以放在一个统一的 Agent 运营看板里,最好和工单系统、客服系统打通,让产品、研发、客服、安全有共同的数据视图,避免「研发觉得指标挺好、客服那边已经被骂三天」的信息断层。

决策卡:你现在该做哪一步

团队当前状态 优先动作
还没上 Agent、在规划 先看 实施路径前置自检
Agent 上了但没系统评估 先搭 200 条评估集 + 红队冒烟集,拿到基线
有评估但全靠 Excel 上 Langfuse/LangSmith,给评估留 Trace
评估体系已有但没监控 把 8 个指标接入日度看板
多个 Agent 并行、合规压力大 考虑自建评估平台或引入企业方案
已经踩过事故 重做红队 + 加 1-2 周灰度,回滚预案先行

如果你正在选型,可以参考 AI Agent 厂商选型清单;如果是要在钉钉生态里做企业 Agent,钉钉悟空企业落地指南 里有一些和评估配套的工程细节。

写在最后

AI Agent 的评估和测试,本质上是在做一件传统软件工程里没人系统训练过的事情:用确定性的工程流程,去管理一个不确定性的产品。这件事没有终极答案,只有不断迭代的方法。开沿过去这一年里,从最早「上线后才发现问题」、到后来「上线前能拦下一类问题」、再到现在「评估指标能跟业务指标联动」,每一步都是被现实里的小事故推着走的。

如果你正在搭团队的 Agent 评估体系,最朴素也最有效的建议只有两条:第一是先跑起来再优化,初版数据集别追求完美,200 条粗糙的样本胜过 0 条精致的设想;第二是把评估当成产品的一部分,而不是测试团队的负担,让产品、研发、业务、安全共建数据集和指标。剩下的,时间会教会你的团队应该把哪些环节做厚、哪些环节可以薄一点。

常见问题

基于这个话题最常被问到的 4 个具体问题

Q1. 评估数据集到底要多少条才够用?

经验值是「核心高频意图覆盖到 80% + 边界异常样本占 20%」,初版 200-500 条就能开跑,随后每周根据线上日志增补 30-100 条。少于 100 条基本是「凭感觉测」,超过 2000 条如果没分层,反而会让自动化跑批变慢、信号被稀释。

Q2. 红队测试需不需要专门招人?

如果 Agent 只在内部用、不接外部用户,研发加产品自己轮值红队就够;如果对外提供服务、涉及交易或个人数据,建议至少有一名安全或合规背景的成员参与,必要时引入外部渗透团队做一次「上线前体检」,频率上每个大版本一次比较合理。

Q3. Langfuse、LangSmith 这类开源工具免费档够用吗?

对 50 人以内的研发团队、日调用量在十万级以下时,免费档基本能覆盖 Trace 留痕和基础评估;一旦涉及多租户隔离、合规审计、私有化部署,就要走付费或自建。开沿的做法是「先用免费档跑通流程,再决定要不要自建」,避免一上来就在工具上烧成本。

Q4. 评估都通过了,还需要灰度发布吗?

需要。离线评估再充分,也只代表数据集覆盖到的场景;真实流量里的语料分布、并发模式、用户耐心都会带来意外。建议至少 1-2 周的灰度,先放 5% 流量、观察核心指标后再放量,回滚预案要在灰度开始前就准备好。

开沿研发中心

开沿研发中心

开沿科技的方法论与技术团队,把一线交付中的经验沉淀成可复用的方法。了解研发中心 →

4
深耕企业数字化交付
800+ 单
累计项目交付
600+ 家
服务企业客户
钉钉认证
官方认证服务商
把方法用起来

想就你公司当前的状况,聊一下下一步从哪切

看完文章你应该能判断大方向。如果想就具体场景再细聊「第一步先做哪个 / 现有系统能不能复用 / 大概多长周期」,可以加我们顾问微信——30 分钟,免费方案诊断。

看客户案例