悟空试点 3 个月没出 ROI，是该停还是该改？

先别急着停。看三件事：用户活跃度是不是稳定在 30% 以上，业务流程是不是真的接进去了，数据回流有没有形成闭环。如果三条都达标只是 ROI 没显化，多半是 KPI 设错了，改成「每月省下的人工小时数」往往就能算出来；如果三条都没达标，说明场景没选对，停下来重新选比硬撑更划算。

悟空的权限怎么和原 ERP 的权限对齐？

把悟空的数据访问权限映射到组织架构，而不是单独配。具体做法是：让悟空读取的是 ERP 里已经分好权限的视图或 API，而不是底层表。员工在 ERP 里看不到的字段，悟空也不会替他答出来。这样原来的角色体系自动延伸到 AI 端，不用维护两套权限。

Token 烧光后 Agent 就停了吗？

看你买的是哪种额度。如果是按月包套餐烧光，会自动降级到限流状态，回答变慢或者部分能力暂停；如果是按量后付费，会继续扣费直到管理员设置的预算上限。建议提前在控制台设三道阈值：80% 提醒、95% 告警、100% 自动暂停高消耗场景，避免月底惊吓。

试点用一个部门还是全公司更稳？

几乎所有踩过坑的案例都告诉我们：先单部门、单场景、单一类用户。哪怕全公司都在催，也要把第一个 30 天压在一个能闭环验证的小范围。等这个范围里的指标稳定了再横向复制，比一上来铺全公司要省 3-5 倍的返工成本。

钉钉悟空企业落地踩坑 8 件事：试点前一定要避开的雷

3 月底的一个晚上，一家做户外用品的 200 人公司老板给我们打电话，说他花了两个月在钉钉悟空上搭了一套"销售助手"，demo 给经销商看的时候掌声雷动，正式上线一周后，前线业务员集体反馈："这玩意儿答的都是错的，我们已经不用了。"我们过去帮他复盘，发现问题不在悟空本身——它把"试点 KPI"设成了"日活破 50%"，而不是"业务员每天少回答几个重复问题"，再加上知识库里 80% 是过时的产品手册，AI 把错的当对的，越答越离谱。两个月时间、十几万投入、一线信任度归零。

这不是个例。钉钉悟空把 AI Agent 接进企业的门槛降低了一个数量级，但也正因为门槛低，踩坑姿势全变了。过去做 AI Agent 失败多半是技术跑不通；现在悟空让"跑通"变成了默认动作，失败的原因转移到了场景选错、数据没洗、权限失控、指标设歪这些更隐蔽的层面。这篇我们把过去半年协助企业落地悟空过程中沉淀的 8 类典型踩坑写出来，给正在试点或准备试点的老板和 IT 负责人一份避雷地图。

一、悟空的踩坑地图，和过去的 AI Agent 不一样

先把这个底层差异说清楚，否则后面的 8 个坑都会显得割裂。

过去做企业 AI Agent，最大的雷在"接得通吗"——模型选哪个、向量库怎么搭、私有化部署能不能跑、和 ERP 怎么对接。每一步都可能死在工程层。我们在 AI Agent 落地路线图里详细聊过这套传统路径的复杂度。悟空原生集成钉钉之后，组织架构、IM、审批、文档、通讯录都是默认可用的，工程层的雷被官方"包圆"了大半。

但这意味着踩坑的重心转移到了三个新的地方：

层面	过去 AI Agent 主要风险	悟空时代主要风险
工程接入	接口对不上、私有部署跑不动	多半已被默认能力覆盖，剩余风险在数据回流闭环
业务场景	场景选了但落不下去	场景太容易上线，导致选错的代价被放大
数据质量	没数据可用	有数据但是脏的、过时的、权限错配的
指标设定	没指标，全凭感觉	有指标但设错了方向（用得多 vs 省得多）
成本结构	实施工时是主要成本	Token 消耗变成隐性大头
权限治理	默认不开放，慢但安全	默认开放范围大，容易"超授权"答错

注意到了吗？过去你需要花 60% 的精力去解决"能不能跑"，现在你需要花 60% 的精力去解决"该不该跑、跑得对不对"。这就是为什么很多人按老经验做悟空试点会翻车——他们解决了一个已经不存在的问题，而真正的雷却没被识别。

下面 8 个坑，我们按踩到的频率从高到低排。

二、坑 1：业务不清的场景被先上，demo 漂亮上线翻车

最常见的死法。老板看完悟空发布会，回来问"我们公司哪个场景能用 AI"，HR 说"销售助手吧，最近招不到人"，于是销售助手就成了第一个试点。

但销售岗位的"问题"是结构化最差的——客户问什么千变万化，话术因人而异，成单关键往往是非标的人情判断。AI 在这种场景里只能答 30% 的公共部分，剩下 70% 要么瞎编，要么把人引到更复杂的歧路上。

怎么判断一个场景是不是"业务清楚"？ 我们用一个三问筛子：

这个岗位的人，每天 70% 时间是在做有 SOP 的事吗？
这些 SOP 能不能用一段不超过 500 字的说明覆盖？
答错了之后，纠错成本是高还是低？

三个都答 yes 才适合做首个试点。比如"内勤回答物流单号在哪查""仓管查询库存余量""HR 回答考勤规则"——这些都是高 SOP、低纠错成本，跑起来不会出大事。销售助手、采购决策助手、客户投诉处置这类，留到第二、第三阶段。

三、坑 2：数据没准备就上 RAG，AI 答出来的是错的

第二常见的死法，也是最难纠正的死法。

悟空的 RAG（检索增强）能力让"接知识库"变得只要几次点击。问题是企业的知识库本身就是个考古现场——三年前的产品手册、五个版本的报销制度、复制粘贴出来格式错乱的 SOP、还有员工私藏在群文件里的"内部潜规则"。

这些数据丢进去，AI 不会自动识别哪份是最新的、哪份是作废的。它会把所有内容平等地检索回来，然后用最权威的语气告诉你一个错的答案。一线员工试两次发现答错，就再也不用了。

数据准备的优先级，按我们的实操经验是这样：

优先级	数据类型	处理方式	工作量占比
P0	制度文档（考勤、报销、流程）	锁定唯一版本，标注生效日期	25%
P0	产品/服务说明	去重，按 SKU 维度重组	30%
P1	历史案例与 FAQ	人工抽样质检 20%	20%
P1	业务表数据（库存、订单）	走 API 不走文档	15%
P2	群聊截图、视频转写	试点期暂不入库	10%

特别提醒一点：业务表里的数据不要用文档导入，要用 API 接。文档是某个时刻的快照，明天就过时；API 拿到的永远是最新的。这一点我们在钉钉数据同步架构里详细展开过。

四、坑 3：没有内部业务对口人，Agent 改一个字段都没人决策

技术团队把悟空搭起来之后，往往进入一段"无人维护期"——业务部门觉得"这是 IT 的事"，IT 觉得"业务逻辑我们不懂"，结果一个简单的字段调整都要走半个月。

这个坑特别隐蔽，因为它不是上线时爆，而是上线两三个月后慢慢爆。AI 答错了一个问题，业务反馈给 IT，IT 不知道该改提示词还是改知识库，问业务，业务说"你们看着办"，问题就一直挂在那。

解决办法只有一个：在试点立项时就指定业务对口人，而不是 IT 项目经理。 我们建议的角色配置：

业务 owner：1 人，能对业务问题拍板，最好是该部门的二把手或资深主管
知识库管理员：1 人，可以是业务部门的资料员，每周更新一次
IT 工程联络人：1 人，负责技术层调整
AI 提示词调优：1 人，可以是业务 + IT 兼职，初期每两周迭代一次

四个角色加起来不需要四个人，但每个职责都要有名字写在那。

五、坑 4：试点 KPI 设成"用得多"而非"省得多"

这条单独拎出来说，因为它直接决定了 ROI 算不算得出来。

很多公司试点悟空，KPI 设成"日活用户数""提问总次数""活跃率"。听起来合理，但有个致命问题——用得多不等于省得多。员工出于好奇随便问几句、领导被要求每天打卡用一次，这些数字都会很好看，但企业一分钱没省下来。

应该看的是"替代型指标"：

错误 KPI	正确 KPI	怎么衡量
日活用户数	重复性问题人工解答数下降量	客服/HR/IT 工单数据周对比
提问总次数	AI 解决问题率（不需转人工的比例）	后台对话日志抽样
活跃率	每月节省的人工小时数	业务部门自评 + 抽样核验
知识库收录文档数	知识库被命中的有效检索次数	后台检索日志

我们在企业 AI 成本失控那篇里详细讨论过这种指标错位带来的连锁问题——指标不对，预算分配也跟着错，最后看不到回报又怪 AI 不行。

六、坑 5：把悟空当通用搜索用，查询量爆炸 Token 烧光

悟空的 Token 计费机制让"问得多"变成"花得多"。如果不做引导，员工会很快把它当成万能搜索引擎——"今天天气怎么样""我家附近有什么好吃的""帮我写个朋友圈"。

这些请求看起来无害，但每一次都要走大模型推理，每一次都在烧 Token。一家 300 人公司如果不做约束，月度 Token 消耗可以轻松翻 3-5 倍。

控制这件事不能靠"教育员工"，要靠机制：

分场景 Agent，不是一个大杂烩：不同业务建独立的 Agent，员工进对应入口才能问对应问题，自然把闲聊挡在外面
关键词白名单：每个 Agent 设置允许提问的关键词范围，超出范围自动转人工或拒答
配额预警：按部门设月度 Token 配额，到 80% 就给部门负责人发提醒
慢响应场景做缓存：高频重复问题用缓存命中，省下一次推理

这套机制初期搭起来要花点功夫，但它是悟空成本可控的核心。

七、坑 6：权限给太大，悟空可以动不该动的数据

这条是最危险的一个坑，但也是最容易被忽视的一个坑。

为了让 Agent "好用"，技术团队倾向于一次性把所有数据接进去——库存、订单、客户名单、薪资表全都对它开放。结果就是任何一个普通员工通过对话都可以问出"老板上个月发了多少奖金""库存里哪几个 SKU 卖得最差"这种本不该流通的信息。

正确做法是把悟空的权限挂在原有的角色体系上。具体说就是三步：

AI 读取的数据源不是底层表，而是按角色开过权限的视图或 API
AI 在生成回答前要先做一次"问问题的人有没有这个权限"的校验
涉及敏感字段的回答（金额、身份证、电话号）走脱敏中间层

这套架构我们在 AI Agent 数据安全那篇里完整拆解过，强烈建议试点前就把权限模型设计完，而不是等出事再补。

八、坑 7：不做日志留痕，出问题查不到链路

AI 答错了一次，业务想追责，问"是哪份文档导致的""调用了哪个 API""提示词长什么样"，技术团队回："没存日志。"

这个坑听起来很低级，但发生率惊人——因为悟空的对话日志默认保留期短，企业又没有自建日志归档，等真要查的时候已经查不到了。

必须留的日志至少包括：

日志类型	保留周期	用途
对话原文	12 个月	复盘错误回答、用户行为分析
检索命中文档	6 个月	追溯 RAG 数据源问题
API 调用记录	12 个月	排查数据接入故障
提示词版本	永久	复现历史问题、回滚
Token 消耗明细	12 个月	成本审计、预算复盘

如果是合规要求高的行业，还要做加密存储和访问审计。这些都是上线前就该规划的，不是出事之后再加。

九、坑 8：试点没做扩展评估，单点跑通后不能复制

最后一个坑，是给试点成功后的人准备的。

第一个场景跑通了，老板兴奋说"那我们再上 10 个 Agent"。这时候你会发现一个尴尬的事——第一个 Agent 是手工打磨出来的，知识库是一份份手动整理的，提示词是迭代了 30 多个版本调出来的，复制到第二个场景需要再来一遍，根本没省下时间。

试点期就要思考"可复制性"，否则规模化扩张就是个永远的"再来一次"。可复制性的几个抓手：

提示词模板化：把通用的角色定义、安全约束、回答风格抽成模板，新 Agent 只填业务部分
知识库结构化：用统一的字段（标题/版本/生效日期/作废日期/责任人）管理，迁移即用
评估集自动化：每个 Agent 都有 50-100 道测试题，发布前自动跑一遍
接口标准化：业务系统对接走统一中台，不是每个 Agent 单独对接一次

我们最近在钉钉悟空企业落地指南里讲过，悟空时代真正的成本不在"做第一个 Agent"，而在"做第十个 Agent 还能不能保持质量"。这件事工程提效帮了大忙——同一个企业里的 Agent 逻辑改动，过去要重写一遍代码，现在可以由 AI 辅助批量生成，定制不再随场景数量等比例变贵。这也是为什么我们说，工程提效让定制成本曲线变平，AI Agent 接业务出结果可衡量——这两件事合在一起才让"规模化 Agent"从口号变成可能。

十、试点前的 8 件事避坑自检清单

把上面 8 个坑翻译成可以在立项会上逐条打勾的清单：

序号	自检项	通过标准
1	第一个场景是不是高 SOP、低纠错成本？	三问筛子全部 yes
2	RAG 知识库的 P0 数据是不是已经做过版本治理？	唯一版本 + 生效日期 + 责任人
3	是不是有指定的业务 owner？	名字写在立项书上
4	KPI 是不是"省得多"而不是"用得多"？	至少 2 个替代型指标
5	是不是按场景划分了独立 Agent 并设了配额？	部门级月度 Token 预算
6	权限是不是挂在原角色体系上？	接的是视图/API，不是底层表
7	日志留痕方案是不是已经设计？	5 类日志各有保留周期
8	提示词/知识库/评估集是不是模板化了？	有可复用的模板和测试集

8 项里达成 6 项，可以小心启动试点；少于 4 项，建议先把基础工作做了再开工。这个清单可以打印出来贴在项目室的墙上，每周复盘一次。

另外推荐配合 AI Agent 前置自检和为什么 AI 项目卡在 PoC 这两篇一起看，把试点前到试点中的判断框架补齐。

十一、结语：悟空降低了门槛，没降低判断力的要求

悟空让"接 AI"这件事比过去简单太多，但它没有也不能替你做的，是判断该接哪里、用什么衡量、谁来负责这些更基础的问题。

我们见过试点失败的公司，几乎都不是技术问题，而是这些判断在立项前没想清楚。也见过试点成功并能复制到 10 个场景的公司，它们的共性不是技术多牛，而是上面这 8 件事每一件都有人盯、有预案、有迭代节奏。

悟空时代的 AI Agent 项目，谁能把"判断力"做扎实，谁就能把投入变成回报。这 8 个坑，提前 4 周想清楚，比上线后两个月返工要划算太多。

钉钉悟空企业落地踩坑 8 件事：试点前一定要避开的雷

一、悟空的踩坑地图，和过去的 AI Agent 不一样

二、坑 1：业务不清的场景被先上，demo 漂亮上线翻车

三、坑 2：数据没准备就上 RAG，AI 答出来的是错的

四、坑 3：没有内部业务对口人，Agent 改一个字段都没人决策

五、坑 4：试点 KPI 设成"用得多"而非"省得多"

六、坑 5：把悟空当通用搜索用，查询量爆炸 Token 烧光

七、坑 6：权限给太大，悟空可以动不该动的数据

八、坑 7：不做日志留痕，出问题查不到链路

九、坑 8：试点没做扩展评估，单点跑通后不能复制

十、试点前的 8 件事避坑自检清单

十一、结语：悟空降低了门槛，没降低判断力的要求

常见问题

开沿研发中心

三块业务同一支团队，可单独做也可组合落地

钉钉全流程服务

软件定制开发

开沿 AI 员工

已经踩过类似的坑？或者正在和某家服务商谈合同想让人帮你看一眼？

这篇属于一个完整阅读路径

企业知识库要花多少钱？3 档预算 + 真实 ROI 怎么算

全球只有 4%-9% 的企业能算清 AI 的账？4 份权威调研里的企业 AI 落地真相

AI 项目为什么卡在 PoC？6 个落地失败原因

顺着这个话题继续读

AI Agent 试点为什么只会聊天？一次“没有业务数据”的失败复盘

低代码表单越搭越多，最后没人敢改：一次表单膨胀复盘

经营大屏上线后没人看？一次 BI 项目失败复盘