去年年底,一位做连锁餐饮的朋友兴冲冲跟我讲,他们花了大几十万找了一家"AI 大厂背景"的乙方做客服 Agent,PPT 上画得行云流水:对接微信、对接 CRM、自动外呼回访、自动生成日报。三个月后真上线,前两周客服小妹激动得发朋友圈,第三周开始出现答非所问,第四周老板自己问"今天复购排名第几",Agent 回了一串去年的数据。到了第五周,那家乙方说要"二期优化",再加 20 万。朋友问我:"这是被坑了,还是 AI 本来就这样?"
这种故事,今年大概每周都能听到一次。AI Agent 这一波,比早年的 ERP、CRM 落地更容易踩雷,因为它牵涉的不只是"功能能不能做",而是"模型选得对不对、数据吐得回不回得来、效果可不可衡量、明年还能不能跑得动"。本文不打算给你列一份"AI Agent 公司排行榜"——那种榜单本身就是坑,而是从老板/CTO 视角出发,给你一套判断框架:6 类供应商画像、12 条现场验收清单、5 件签合同前必须锁死的事,以及一张可以直接拿走的供应商打分表。
一、AI Agent 比传统软件更容易踩雷的 4 个新风险
ERP、CRM 的坑你大概率踩过:需求模糊、二开无底洞、维护费翻倍。AI Agent 这一层把老坑全继承了,还多出四个新坑。
第一个新坑是模型选择。 传统软件选了一个数据库基本不会换,AI Agent 的底层模型半年一代、价格半年一调。乙方如果把某个具体模型写死在代码里、提示词与某家厂商深度耦合,半年后这个模型涨价或下线,你要么换乙方要么吞下涨价。
第二个新坑是数据合规。 Agent 跑业务必然要读你的客户、订单、合同、聊天记录。这些数据是直接送进公网大模型推理,还是先脱敏、还是走私有化部署?日志保留多久?API Key 归谁所有?这些问题在传统软件项目里几乎不存在,但在 AI Agent 项目里每一条都是雷。具体可以参考AI Agent 数据安全治理实操的拆解。
第三个新坑是效果可衡量。 ERP 上没上线很好判断——数据进得来、单据走得通就是上了。AI Agent 上没上线非常模糊:今天答对 8 道,明天答对 6 道,算成功还是失败?没有事先约定的评测集和容忍区间,验收就变成扯皮,乙方说"是您问法不对",甲方说"是您模型不行"。
第四个新坑是长期维护。 传统软件交付完进入"小修小补"模式,AI Agent 交付完是"持续训练 + 持续治理"模式:业务话术变了要更新、模型涨价要切换、出错了要回滚、Token 消耗要监控。如果维护合同没把这些条目写进去,一年后你会发现 Agent 越用越笨而没人负责。这也是为什么企业 AI 成本失控成了今年的高频话题。
二、6 类 AI Agent 服务商画像:他们到底擅长什么、又踩在哪个坑里
市面上自称做 AI Agent 的公司,大致可以归到下面六类。每一类都有自己的甜蜜区,也有自己的天花板。
1. 大厂 AI 团队:典型如阿里、百度、字节、华为旗下的 AI 业务部门或战略合作伙伴。模型自研、算力充足、品牌背书强,适合数千万级预算、跨组织、强合规的大型央企国企项目。中小企业接触下来常见两个不适:起做价高、流程长,需求小改一次走完审批要两周;交付往往依赖区域代理或集成商二次落地,真正的核心研发不会贴身陪你迭代。
2. 通用集成商:传统系统集成商在传统 IT 项目(ERP、OA、机房)的基础上挂出"AI 部门"招牌。优点是对客户业务流程熟、能把 AI 跟现有系统接起来。痛点是 AI 部分常常外包给二级供应商,提示词工程、模型选型这些核心环节没自己人,遇到深度调优问题答不上来。
3. AI 原生小团队:5-30 人规模,团队从一开始就以大模型应用为业务核心。优点是技术迭代快、对最新模型与工具链敏感、AI Coding 时代单兵产出高;缺点是品牌不响、对垂直行业的业务理解参差,需要老板亲自考察。开沿就属于这一类,所以下文会避免王婆卖瓜,更多聊判断方法。
4. 咨询机构衍生的 AI 部门:四大、本土头部咨询、行业咨询公司延伸出来的 AI 服务线。强项在业务流程梳理、组织变革、高层沟通;弱项是真正的交付往往不是自己写代码,而是分包给乙方,时间和品质都掌握在分包方手里。
5. 低代码平台 + 代搭服务商:依托钉钉宜搭/简道云/氚云/明道云这类平台,以"AI 表单 + AI 助手"的形式做轻量 Agent。优点是上手快、表单和审批生态完整;缺点是平台能力的边界就是 Agent 能力的边界,复杂的流程编排、跨系统的数据回写一旦撞上低代码无法继续的决策点,就要么强切要么推倒重来。
6. 海外团队代理:把海外的 AI Agent 平台(如 LangChain、CrewAI、Microsoft Copilot Studio 等)本土化代理或定制。优点是技术前沿、社区资源丰富;缺点是数据合规、网络稳定性、本土业务理解、计费汇率风险都需要逐项消化。
下面这张表把六类供应商按五个维度做了一次粗筛。每个维度按"强/中/弱"打分,仅作为筛选起点,不是终极判断。
| 供应商类型 | 业务理解 | 模型/技术 | 定制能力 | 数据合规 | 长期维护 |
|---|---|---|---|---|---|
| 大厂 AI 团队 | 中 | 强 | 中 | 强 | 中(依赖代理) |
| 通用集成商 | 强 | 中 | 中 | 强 | 强 |
| AI 原生小团队 | 因人而异 | 强 | 强 | 中 | 中 |
| 咨询机构衍生 | 强 | 中 | 弱(外包) | 强 | 弱 |
| 低代码 + 代搭 | 中 | 中 | 弱(受限于平台) | 中 | 强 |
| 海外团队代理 | 弱 | 强 | 中 | 弱 | 弱 |
读这张表的正确姿势不是"找一类全强的"——不存在。而是先想清楚你这个项目里哪两个维度是命门。如果是金融/医疗行业,数据合规一票否决;如果是消费/零售,业务理解和定制能力优先;如果你已有内置 AI 助手并要进一步升级到 Agent,模型与定制能力的权重就要拉高。
三、5 个维度的细化对比:怎么把"虚分数"打成"实判断"
光看上表的强/中/弱,还是会被销售话术带跑。这里把每个维度细化成可问可答的具体问题。
业务理解维度,要让对方解释你所在行业的 3 个细节痛点。比如做服装批发的可以问"你怎么看款号和色码的库存预占冲突";做制造业的可以问"你打算怎么处理 BOM 多版本之间的切换"。能答出来的至少做过同行业项目,答不出来又非要承接的,进 POC 阶段才发现外行的概率极高。
模型/技术维度,问三件事:默认用什么模型,为什么选它;如果模型涨价/下线,切换方案是什么;推理 Token 成本怎么估算。模型抽象层、Token 治理、Fallback 策略这些词,对方答得有体系还是模糊,一问就知。
定制能力维度,让对方在三天内做一个 POC:用你公司的真实场景(脱敏后的客户数据样本),跑通一个端到端流程。不愿意做 POC 或要价过高的,多半交付能力存疑。
数据合规维度,要看清楚四个层面:数据走公网还是私有化、推理日志是否落本地、Key 归谁、向量库是否独享。这一块在企业级 AI Agent 数据安全里有更细的对照表,建议交易前打印一份当核对单。
长期维护维度,重点不是"你管不管维护",而是"维护范围具体到哪一条"。话术升级算不算?模型切换算不算?新场景接入算不算?这些不写清楚,一年后续费会变成另一次重新谈判。
四、12 条 AI Agent 项目验收清单:现场就能跑、不交学费
下面这 12 条来自最近一年我们见过、自己也踩过的 Agent 项目复盘。建议把它打印出来,跟乙方面谈时一项项过。
- 现场跑你公司真实场景:让对方现场(不是回去准备一周)用你脱敏后的数据演示一个端到端流程。
- 权限矩阵设计:Agent 调用业务系统的接口时按谁的身份执行?普通员工能不能通过 Agent 访问 HR 数据?权限模型必须能落到具体角色。
- 监控与回滚预案:当 Agent 给出明显错误回复时,怎么人工接管、怎么把对话切回人工、怎么回滚到上一版本提示词。
- Token 治理方案:日预算、周预算、超额报警、按部门/按场景拆账,这四件少一件都算挖坑。
- 评测集与基线:上线前必须有一个 50-200 条的测试集,给出基线通过率,并约定每月回归测试。
- 提示词与上下文资产归属:合同明确归甲方所有,对方不得带走或复用到其他客户。
- 模型抽象层:代码层面是不是写了适配器、能不能一行配置切换模型,而不是把某家厂商的 SDK 调用满天飞。
- 私有数据隔离:向量库、知识库、对话日志是否独享一套,不和其他客户混仓。
- 业务系统接入清单:要对接哪些系统、走哪种方式(API/数据库直连/数据同步)、有没有企业系统集成平台经验。
- 异常对话留痕:所有 Agent 异常回复必须可追溯,能定位到那次推理用的模型版本、提示词版本、上下文片段。
- 多轮上下文管理:对话超过 N 轮后怎么截断、怎么压缩、怎么保留关键信息,要有明确策略而不是放任。
- 效果验收口径:以业务指标(响应时长、首问解决率、二线介入率、复购回收金额等)而不是技术指标(准确率、F1)作为验收。
12 条不一定项项满分,但低于 7 条不通过的,谨慎签合同。
五、AI Coding 时代的"小而精"团队,为什么值得纳入考量
三年前找一支 5 人小团队做 AI Agent,大概率会被劝退:人手不够、生产风险高、出问题没人撑。今天情况不一样了,AI Coding 工具把单兵产出抬高了一个量级——一个熟练工程师配合 Cursor、通义灵码、Claude 等编码助手,能在两三周里跑出过去 5 人两个月的工作量。这并不意味着小团队就一定比大乙方好,而是说"人数"这个传统筛选指标的权重在下降,"工程化能力 + 模型理解 + AI Coding 熟练度"的权重在上升。
判断小团队是否生产级靠谱,有几个朴素信号:自己生产环境有没有跑超过 6 个月的 Agent、出过故障是怎么处理的、有没有把测试集和 CI/CD 跑起来、提示词资产有没有版本化、能不能讲清楚自己跟传统 RPA、低代码的边界。这几条都齐的小团队,比一些把项目层层外包的大乙方反而省心。
代价当然有:品牌弱、销售流程不规范、对超大型组织变革项目可能扛不住。所以在大型集团选型时,常见做法是用咨询机构管节奏、用小团队做交付,分工反而比单押一家更稳。
六、签合同前必须锁的 5 件事
到了签合同环节,前面所有判断都要落到合同条款里,不然全是口头承诺。
| 条款 | 必须写到什么程度 |
|---|---|
| 数据所有权 | 明确所有原始数据、对话日志、衍生数据、提示词资产归甲方,乙方未经书面许可不得带走/复用 |
| 模型可替换 | 约定模型抽象层与切换工作量上限(如 ≤5 人天),并列出常用候选模型清单 |
| Token 上限与超额规则 | 月度预算、超额报警阈值(建议 70%/85%/100%)、超额后是否自动降级到便宜模型 |
| 效果验收口径 | 业务指标 + 测试集通过率双口径,写明分子分母与统计时段,避免"差不多就行" |
| 维护范围与边界 | 哪些算包年维护,哪些算二期,二期单价区间提前锁,行业公开区间 8000-15000 元/人天可作参考 |
这五条都不写或写得含糊的合同,本质上是把后面所有谈判权交给了乙方。这块在软件供应商尽调和软件外包报价陷阱两篇里有更深入的解构,建议交叉看。
七、决策卡:AI Agent 供应商打分表
到了最后一步,把你接触到的 2-4 家候选放进下面这张表里,按 1-5 分自己打。每项权重可以根据你的项目特性微调。
| 维度 | 满分 | 候选 A | 候选 B | 候选 C |
|---|---|---|---|---|
| 行业业务理解(能答出 3 个细节痛点) | 5 | |||
| 模型选型与抽象层(讲得清切换方案) | 5 | |||
| 现场 POC 能力(3 天内出原型) | 5 | |||
| 数据合规四件套(公网/日志/Key/向量) | 5 | |||
| 长期维护范围清单(≥7 项明确条目) | 5 | |||
| 12 条验收清单命中数(/12 折算) | 5 | |||
| 合同 5 件锁定意愿 | 5 | |||
| 合计 | 35 |
低于 22 分的直接淘汰;22-28 分进入二轮访谈;28 分以上的,建议再做一个 1-2 周的小规模付费 POC 验证,详见 AI Agent 落地路线图。把决策建立在打分表 + 真实 POC 上,比凭"销售人感觉好"靠谱得多。
八、写在最后
选 AI Agent 公司,本质上不是在选一份软件,而是在选一支跟你共同进化两三年的团队。模型会迭代、业务会调整、政策会变化,唯一稳定的是这支团队愿不愿意陪你穿过这些变化。所以前面所有的画像、清单、打分表,归根结底都是在测一件事:对方有没有持续陪跑的意愿与能力。
老板们最容易犯的错,是把 AI Agent 当成传统软件来买——签完合同等交付,验收通过就甩手。真做起来你会发现,Agent 的第一周通常表现亮眼、第二个月开始衰减、第三个月需要重新调优,这是 Agent 项目的常态而非异常。把这层认知放在前面,再带着 12 条验收清单去谈,至少不会重复我那位连锁餐饮朋友的故事。如果你已经在踩坑现场,建议先读一遍AI 项目卡在 POC 的根因和企业 AI 落地真实生存状态,再回头看选型,思路会清晰很多。




