开沿科技
13305079753先填 5 道题
方法论与思考

AI Agent 定制公司怎么选?6 类供应商画像 + 12 个验收清单

开沿研发中心·2026-06-14·15 分钟阅读

去年年底,一位做连锁餐饮的朋友兴冲冲跟我讲,他们花了大几十万找了一家"AI 大厂背景"的乙方做客服 Agent,PPT 上画得行云流水:对接微信、对接 CRM、自动外呼回访、自动生成日报。三个月后真上线,前两周客服小妹激动得发朋友圈,第三周开始出现答非所问,第四周老板自己问"今天复购排名第几",Agent 回了一串去年的数据。到了第五周,那家乙方说要"二期优化",再加 20 万。朋友问我:"这是被坑了,还是 AI 本来就这样?"

这种故事,今年大概每周都能听到一次。AI Agent 这一波,比早年的 ERP、CRM 落地更容易踩雷,因为它牵涉的不只是"功能能不能做",而是"模型选得对不对、数据吐得回不回得来、效果可不可衡量、明年还能不能跑得动"。本文不打算给你列一份"AI Agent 公司排行榜"——那种榜单本身就是坑,而是从老板/CTO 视角出发,给你一套判断框架:6 类供应商画像、12 条现场验收清单、5 件签合同前必须锁死的事,以及一张可以直接拿走的供应商打分表。

一、AI Agent 比传统软件更容易踩雷的 4 个新风险

ERP、CRM 的坑你大概率踩过:需求模糊、二开无底洞、维护费翻倍。AI Agent 这一层把老坑全继承了,还多出四个新坑。

第一个新坑是模型选择。 传统软件选了一个数据库基本不会换,AI Agent 的底层模型半年一代、价格半年一调。乙方如果把某个具体模型写死在代码里、提示词与某家厂商深度耦合,半年后这个模型涨价或下线,你要么换乙方要么吞下涨价。

第二个新坑是数据合规。 Agent 跑业务必然要读你的客户、订单、合同、聊天记录。这些数据是直接送进公网大模型推理,还是先脱敏、还是走私有化部署?日志保留多久?API Key 归谁所有?这些问题在传统软件项目里几乎不存在,但在 AI Agent 项目里每一条都是雷。具体可以参考AI Agent 数据安全治理实操的拆解。

第三个新坑是效果可衡量。 ERP 上没上线很好判断——数据进得来、单据走得通就是上了。AI Agent 上没上线非常模糊:今天答对 8 道,明天答对 6 道,算成功还是失败?没有事先约定的评测集和容忍区间,验收就变成扯皮,乙方说"是您问法不对",甲方说"是您模型不行"。

第四个新坑是长期维护。 传统软件交付完进入"小修小补"模式,AI Agent 交付完是"持续训练 + 持续治理"模式:业务话术变了要更新、模型涨价要切换、出错了要回滚、Token 消耗要监控。如果维护合同没把这些条目写进去,一年后你会发现 Agent 越用越笨而没人负责。这也是为什么企业 AI 成本失控成了今年的高频话题。

二、6 类 AI Agent 服务商画像:他们到底擅长什么、又踩在哪个坑里

市面上自称做 AI Agent 的公司,大致可以归到下面六类。每一类都有自己的甜蜜区,也有自己的天花板。

1. 大厂 AI 团队:典型如阿里、百度、字节、华为旗下的 AI 业务部门或战略合作伙伴。模型自研、算力充足、品牌背书强,适合数千万级预算、跨组织、强合规的大型央企国企项目。中小企业接触下来常见两个不适:起做价高、流程长,需求小改一次走完审批要两周;交付往往依赖区域代理或集成商二次落地,真正的核心研发不会贴身陪你迭代。

2. 通用集成商:传统系统集成商在传统 IT 项目(ERP、OA、机房)的基础上挂出"AI 部门"招牌。优点是对客户业务流程熟、能把 AI 跟现有系统接起来。痛点是 AI 部分常常外包给二级供应商,提示词工程、模型选型这些核心环节没自己人,遇到深度调优问题答不上来。

3. AI 原生小团队:5-30 人规模,团队从一开始就以大模型应用为业务核心。优点是技术迭代快、对最新模型与工具链敏感、AI Coding 时代单兵产出高;缺点是品牌不响、对垂直行业的业务理解参差,需要老板亲自考察。开沿就属于这一类,所以下文会避免王婆卖瓜,更多聊判断方法。

4. 咨询机构衍生的 AI 部门:四大、本土头部咨询、行业咨询公司延伸出来的 AI 服务线。强项在业务流程梳理、组织变革、高层沟通;弱项是真正的交付往往不是自己写代码,而是分包给乙方,时间和品质都掌握在分包方手里。

5. 低代码平台 + 代搭服务商:依托钉钉宜搭/简道云/氚云/明道云这类平台,以"AI 表单 + AI 助手"的形式做轻量 Agent。优点是上手快、表单和审批生态完整;缺点是平台能力的边界就是 Agent 能力的边界,复杂的流程编排、跨系统的数据回写一旦撞上低代码无法继续的决策点,就要么强切要么推倒重来。

6. 海外团队代理:把海外的 AI Agent 平台(如 LangChain、CrewAI、Microsoft Copilot Studio 等)本土化代理或定制。优点是技术前沿、社区资源丰富;缺点是数据合规、网络稳定性、本土业务理解、计费汇率风险都需要逐项消化。

下面这张表把六类供应商按五个维度做了一次粗筛。每个维度按"强/中/弱"打分,仅作为筛选起点,不是终极判断。

供应商类型 业务理解 模型/技术 定制能力 数据合规 长期维护
大厂 AI 团队 中(依赖代理)
通用集成商
AI 原生小团队 因人而异
咨询机构衍生 弱(外包)
低代码 + 代搭 弱(受限于平台)
海外团队代理

读这张表的正确姿势不是"找一类全强的"——不存在。而是先想清楚你这个项目里哪两个维度是命门。如果是金融/医疗行业,数据合规一票否决;如果是消费/零售,业务理解和定制能力优先;如果你已有内置 AI 助手并要进一步升级到 Agent,模型与定制能力的权重就要拉高。

三、5 个维度的细化对比:怎么把"虚分数"打成"实判断"

光看上表的强/中/弱,还是会被销售话术带跑。这里把每个维度细化成可问可答的具体问题。

业务理解维度,要让对方解释你所在行业的 3 个细节痛点。比如做服装批发的可以问"你怎么看款号和色码的库存预占冲突";做制造业的可以问"你打算怎么处理 BOM 多版本之间的切换"。能答出来的至少做过同行业项目,答不出来又非要承接的,进 POC 阶段才发现外行的概率极高。

模型/技术维度,问三件事:默认用什么模型,为什么选它;如果模型涨价/下线,切换方案是什么;推理 Token 成本怎么估算。模型抽象层、Token 治理、Fallback 策略这些词,对方答得有体系还是模糊,一问就知。

定制能力维度,让对方在三天内做一个 POC:用你公司的真实场景(脱敏后的客户数据样本),跑通一个端到端流程。不愿意做 POC 或要价过高的,多半交付能力存疑。

数据合规维度,要看清楚四个层面:数据走公网还是私有化、推理日志是否落本地、Key 归谁、向量库是否独享。这一块在企业级 AI Agent 数据安全里有更细的对照表,建议交易前打印一份当核对单。

长期维护维度,重点不是"你管不管维护",而是"维护范围具体到哪一条"。话术升级算不算?模型切换算不算?新场景接入算不算?这些不写清楚,一年后续费会变成另一次重新谈判。

四、12 条 AI Agent 项目验收清单:现场就能跑、不交学费

下面这 12 条来自最近一年我们见过、自己也踩过的 Agent 项目复盘。建议把它打印出来,跟乙方面谈时一项项过。

  1. 现场跑你公司真实场景:让对方现场(不是回去准备一周)用你脱敏后的数据演示一个端到端流程。
  2. 权限矩阵设计:Agent 调用业务系统的接口时按谁的身份执行?普通员工能不能通过 Agent 访问 HR 数据?权限模型必须能落到具体角色。
  3. 监控与回滚预案:当 Agent 给出明显错误回复时,怎么人工接管、怎么把对话切回人工、怎么回滚到上一版本提示词。
  4. Token 治理方案:日预算、周预算、超额报警、按部门/按场景拆账,这四件少一件都算挖坑。
  5. 评测集与基线:上线前必须有一个 50-200 条的测试集,给出基线通过率,并约定每月回归测试。
  6. 提示词与上下文资产归属:合同明确归甲方所有,对方不得带走或复用到其他客户。
  7. 模型抽象层:代码层面是不是写了适配器、能不能一行配置切换模型,而不是把某家厂商的 SDK 调用满天飞。
  8. 私有数据隔离:向量库、知识库、对话日志是否独享一套,不和其他客户混仓。
  9. 业务系统接入清单:要对接哪些系统、走哪种方式(API/数据库直连/数据同步)、有没有企业系统集成平台经验。
  10. 异常对话留痕:所有 Agent 异常回复必须可追溯,能定位到那次推理用的模型版本、提示词版本、上下文片段。
  11. 多轮上下文管理:对话超过 N 轮后怎么截断、怎么压缩、怎么保留关键信息,要有明确策略而不是放任。
  12. 效果验收口径:以业务指标(响应时长、首问解决率、二线介入率、复购回收金额等)而不是技术指标(准确率、F1)作为验收。

12 条不一定项项满分,但低于 7 条不通过的,谨慎签合同。

五、AI Coding 时代的"小而精"团队,为什么值得纳入考量

三年前找一支 5 人小团队做 AI Agent,大概率会被劝退:人手不够、生产风险高、出问题没人撑。今天情况不一样了,AI Coding 工具把单兵产出抬高了一个量级——一个熟练工程师配合 Cursor、通义灵码、Claude 等编码助手,能在两三周里跑出过去 5 人两个月的工作量。这并不意味着小团队就一定比大乙方好,而是说"人数"这个传统筛选指标的权重在下降,"工程化能力 + 模型理解 + AI Coding 熟练度"的权重在上升。

判断小团队是否生产级靠谱,有几个朴素信号:自己生产环境有没有跑超过 6 个月的 Agent、出过故障是怎么处理的、有没有把测试集和 CI/CD 跑起来、提示词资产有没有版本化、能不能讲清楚自己跟传统 RPA、低代码的边界。这几条都齐的小团队,比一些把项目层层外包的大乙方反而省心。

代价当然有:品牌弱、销售流程不规范、对超大型组织变革项目可能扛不住。所以在大型集团选型时,常见做法是用咨询机构管节奏、用小团队做交付,分工反而比单押一家更稳。

六、签合同前必须锁的 5 件事

到了签合同环节,前面所有判断都要落到合同条款里,不然全是口头承诺。

条款 必须写到什么程度
数据所有权 明确所有原始数据、对话日志、衍生数据、提示词资产归甲方,乙方未经书面许可不得带走/复用
模型可替换 约定模型抽象层与切换工作量上限(如 ≤5 人天),并列出常用候选模型清单
Token 上限与超额规则 月度预算、超额报警阈值(建议 70%/85%/100%)、超额后是否自动降级到便宜模型
效果验收口径 业务指标 + 测试集通过率双口径,写明分子分母与统计时段,避免"差不多就行"
维护范围与边界 哪些算包年维护,哪些算二期,二期单价区间提前锁,行业公开区间 8000-15000 元/人天可作参考

这五条都不写或写得含糊的合同,本质上是把后面所有谈判权交给了乙方。这块在软件供应商尽调软件外包报价陷阱两篇里有更深入的解构,建议交叉看。

七、决策卡:AI Agent 供应商打分表

到了最后一步,把你接触到的 2-4 家候选放进下面这张表里,按 1-5 分自己打。每项权重可以根据你的项目特性微调。

维度 满分 候选 A 候选 B 候选 C
行业业务理解(能答出 3 个细节痛点) 5
模型选型与抽象层(讲得清切换方案) 5
现场 POC 能力(3 天内出原型) 5
数据合规四件套(公网/日志/Key/向量) 5
长期维护范围清单(≥7 项明确条目) 5
12 条验收清单命中数(/12 折算) 5
合同 5 件锁定意愿 5
合计 35

低于 22 分的直接淘汰;22-28 分进入二轮访谈;28 分以上的,建议再做一个 1-2 周的小规模付费 POC 验证,详见 AI Agent 落地路线图。把决策建立在打分表 + 真实 POC 上,比凭"销售人感觉好"靠谱得多。

八、写在最后

选 AI Agent 公司,本质上不是在选一份软件,而是在选一支跟你共同进化两三年的团队。模型会迭代、业务会调整、政策会变化,唯一稳定的是这支团队愿不愿意陪你穿过这些变化。所以前面所有的画像、清单、打分表,归根结底都是在测一件事:对方有没有持续陪跑的意愿与能力。

老板们最容易犯的错,是把 AI Agent 当成传统软件来买——签完合同等交付,验收通过就甩手。真做起来你会发现,Agent 的第一周通常表现亮眼、第二个月开始衰减、第三个月需要重新调优,这是 Agent 项目的常态而非异常。把这层认知放在前面,再带着 12 条验收清单去谈,至少不会重复我那位连锁餐饮朋友的故事。如果你已经在踩坑现场,建议先读一遍AI 项目卡在 POC 的根因企业 AI 落地真实生存状态,再回头看选型,思路会清晰很多。

常见问题

基于这个话题最常被问到的 4 个具体问题

Q1. AI 原生小团队真的能承接生产级 AI Agent 项目吗?

可以,但要看团队结构和工程化能力。判断标准不是人数,而是:是否有完整的模型选型经验、是否能讲清楚自己的提示词与上下文治理方案、是否有可演示的真实生产案例、能不能给出 SLA 和回滚预案。如果一个 5 人小团队同时具备这四点,往往比一个挂着「AI 部门」招牌但项目交给外包的大乙方更稳。

Q2. 已经用了大厂咨询机构,还想再引入小团队,怎么协调?

推荐「咨询管节奏 + 小团队做交付」的分工:让原咨询团队继续负责业务流程梳理、组织变革与高层沟通;把具体的 Agent 设计、提示词工程、与 ERP/CRM/钉钉的对接交给小团队按周迭代。合同里要明确数据所有权归你、API Key 与提示词资产归你,避免任何一方把模型链路当黑盒锁死。

Q3. 怎么判断对方推荐的模型选择是不是踩雷?

问三个问题:为什么选这个模型而不是另一个、推理 Token 成本如何估算、未来如果这个模型停服或涨价你的切换方案是什么。能把这三题讲清楚、并愿意把模型抽象层写进合同的,基本不会踩大雷;只会说「我们用最先进的大模型」的,多半连成本曲线都没测算过。

Q4. 项目交付之后,能不能换团队维护?

技术上完全可以,但要在合同里提前埋三件事:源代码与提示词全量交付、模型 API Key 归甲方账户、文档与运行日志可导出。只要这三件齐备,换团队维护就只是一次知识转移而非推倒重来。反之,如果对方把核心提示词当商业机密、把 Key 挂在自己账户下,等于把你绑死了。

开沿研发中心

开沿研发中心

开沿科技的方法论与技术团队,把一线交付中的经验沉淀成可复用的方法。了解研发中心 →

4
深耕企业数字化交付
800+ 单
累计项目交付
600+ 家
服务企业客户
钉钉认证
官方认证服务商
把方法用起来

想就你公司当前的状况,聊一下下一步从哪切

看完文章你应该能判断大方向。如果想就具体场景再细聊「第一步先做哪个 / 现有系统能不能复用 / 大概多长周期」,可以加我们顾问微信——30 分钟,免费方案诊断。

看客户案例