100 人左右的公司用悟空，一年大概要花多少 Token 钱？

这个问题没有标准答案，关键看三件事：日活比例（不是总人数）、典型问答的轮次和上下文长度、有没有挂大型知识库。如果只是少数管理岗当作智能搜索用，常见量级是几万元/年；如果客服、销售、HR 都接成多轮对话型 Agent，一年走到十几万甚至更高也不奇怪。先按本文的三轴公式跑一遍量级估算，再用首月真实数据校准。

悟空的 OPT 和云厂商的算力包是一回事吗？

不是一回事，但底层共享一部分逻辑。OPT 是悟空对外暴露的计量口径，把模型调用、知识库检索、Agent 编排等折算成统一单位，便于企业按月结算。云厂商的算力包通常更底层，按 GPU 时长或 Token 单价计费，需要自己组装模型、向量库、编排。悟空更像「打包套餐」，云厂商算力包更像「自助原料」。

Token 不够用，能不能自带模型接进来省钱？

理论上有空间，但要分场景看。悟空当前主要走平台模型，自带模型的开放程度在不断调整中，能不能接、怎么接、合规边界都需要以官方最新方案为准。更现实的省钱路径，是先把上下文长度、知识库切片、缓存策略做到位，多数情况下能砍掉一半以上的浪费 Token，比换模型见效更快。

突然有一天 Token 用量翻倍，怎么排查？

先看四件事：是不是新接入了一个大知识库、是不是某个部门把悟空挂进了自动化流程、是不是有 Agent 在做递归工具调用、是不是某个 Prompt 模板被改长了。把当天的调用日志按用户、按场景、按平均上下文长度拆出来排序，异常基本都藏在头部那几个用户或那个场景里。

钉钉悟空算力/Token 怎么算？月度预算怎么定不爆

财务总监周一早上把 IT 负责人叫进办公室，桌上摊着上个月的悟空账单：「比上上个月多了三倍，谁授权的？」IT 负责人翻了半天后台日志，发现是市场部上周把过去三年的产品手册、客户案例、内部 wiki 全部喂进了一个知识库，然后给销售开了一个「随便问」的入口。销售们用得不亦乐乎，每天人均几十轮对话，每轮都把那个超大知识库召回的几千字段落塞进上下文——Token 就是这么烧起来的。

这不是个案。开通悟空容易，把 Token 预算管住难。这篇文章不讲悟空的功能清单（官方文档已经写得很全），只回答一个问题：作为给老板报预算的人，怎么把悟空的钱花在明面上、花得有逻辑、不会下个月被反向问责。下面从计费口径讲到月度估算公式，再到 6 个真正能省 Token 的工程动作，最后给一份成本失控的自检清单。

一、悟空的四个计费口径：算力、Token、调用、席位

很多人第一次看悟空的计费说明会蒙，因为它同时出现了「算力 OPT」「Token 消耗」「调用次数」「席位数」四个词，像是在用不同的尺子量同一桶水。理一下关系就清楚了。

Token 是最底层的计量单位，对应大语言模型实际处理的输入 + 输出字数（中文一个汉字大致 1-2 个 Token）。调用次数是上层动作的计数器，一次问答、一次工具触发、一次知识库检索都算一次调用。算力 OPT 是悟空把不同模型、不同调用类型折算后的统一结算单位，可以理解为「悟空版本的 Token 等价物」，方便企业按月份算总账。席位则是按使用人头收的基础费，类似传统 SaaS 的 seat 模式，决定谁有资格用、不直接决定用多少。

计费口径	计量对象	受什么影响最大	谁该盯这个数
算力 OPT	综合折算后的总消耗	月度总账	财务、IT 总负责人
Token	模型实际处理的输入输出	上下文长度、知识库召回量	工程团队、Prompt 维护人
调用次数	每次问答/工具/检索	用户活跃度、自动化任务数	业务部门管理员
席位	有权使用的人头	开通范围	HR、行政、IT 采购

四个口径的钱不是相加关系，而是相互嵌套：席位决定了「最多多少人能用」，调用次数决定了「他们用得多频繁」，Token 决定了「每次用得多重」，OPT 是最后的结算总账。预算失控通常不是席位买多了，而是某个场景的单次 Token 量超出预期，再乘以高频调用，瞬间放大。

理解这层嵌套关系，再去看官方计费说明就顺了。具体的单价会随产品迭代调整，不在这里写死，建议每季度让 IT 拉一次官方最新报价表，做一遍滚动校准。这种「机制讲清楚、数字按时点查」的思路，和我们在企业 AI 成本失控的真实路径那篇里梳理的成本管理框架是一致的。

二、哪些场景会把 Token 烧爆

预算爆炸的根源，几乎都来自三类场景的叠加。

第一类是知识库问答的 RAG 段落量。 RAG 的核心动作是从知识库里召回相关段落、塞进模型上下文。问题在于，召回多少段落、每段多长，往往一开始没人定。默认配置下，召回 5-10 段、每段 500-1000 字是常见配置，意味着每次问答光是上下文输入就 5000-10000 Token。如果知识库切片做得粗，召回的段落里夹了大量无关内容，Token 还会进一步膨胀。

第二类是多轮对话的上下文累积。 多轮对话默认会把历史记录拼进上下文，让模型「记得」前面聊过什么。一轮对话 1000 Token，到第十轮上下文就累计到 10000+ Token，每轮都重新跑一遍这十轮的历史。用户聊得越深，单次成本越高。这就是为什么「随便问」的入口最烧钱——销售不会在用了五轮之后主动开新会话，他们会一直追问下去。

第三类是 Agent 工具调用的递归深度。 当悟空被搭成 Agent，能调外部 API、查数据库、跨系统取数，每一步调用都会把上一步的结果作为输入继续往下走。如果工具调用链路设计得长（比如「先查 CRM、再查 ERP、再核对库存、再生成回复」），单次任务可能触发 5-10 次模型调用，每次调用都带着越来越长的上下文。一个看起来简单的「帮我看看这个客户的情况」，背后可能跑掉几万 Token。

这三类场景不是问题本身——它们恰好是悟空最有价值的用法。问题在于一开始没人估算量级、没人设限。下面这张表是开沿在 AI Agent 项目里反复看到的 Token 消耗结构，供做横向对比。

场景类型	单次平均 Token 量级	主要消耗在哪	容易踩的坑
单轮智能搜索	1000-3000	知识库召回	切片过粗
多轮咨询对话	3000-15000/轮	历史上下文累积	不限制轮次
文档总结生成	5000-30000	长文档输入	整篇硬塞
简单 Agent 任务	5000-20000	多步骤工具调用	递归调用
复杂 Agent 任务	20000-80000+	多工具+长上下文	链路过长

这五行不是说「悟空就这么贵」，而是说「不同场景的成本敏感度差几十倍」。预算管理的第一步，是先知道自己主要在哪一行。

二、月度预算怎么估：用户活跃度 × 场景复杂度 × 知识库规模

报预算最怕的是拍脑袋。给一个可以落到表格里的初步公式：

月度 Token 量级 ≈ 月活用户数 × 人均日均调用次数 × 单次平均 Token 量 × 月工作日数

每一个变量都按下面的思路去取值。

月活用户数（MAU）： 不是席位数，是真正会用的人数。一般在采购前可以按 30%-60% 估算；运行三个月后用真实数据校准。

人均日均调用次数： 区分三档。轻度（查个知识、问个流程）2-5 次/天；中度（写个材料、做个汇总）5-15 次/天；重度（销售/客服全程用）15-50 次/天。

单次平均 Token 量： 用上一节那张表对照自己最主流的场景，取一个中位数。

月工作日数： 20-22 天。

举个例子：100 人公司，月活 40 人（40%），人均中度使用 10 次/天，单次平均 5000 Token，22 个工作日，月 Token 量级约 4400 万 Token。配合悟空的 OPT 折算单价做一次乘法，就得到预算下限。

这个数字只是「裸算」，还要加上三个修正系数：

知识库规模系数：知识库总字数每翻一倍，RAG 召回的平均长度会上升 20%-40%，Token 量跟着上浮。
自动化任务系数：如果接入了定时任务、审批流自动总结、邮件自动回复等无人值守场景，单独按调用频率加一行预算，不混在人均里。
季节性峰值系数：促销季、年终结算、月初汇报这类高峰，留 30%-50% 缓冲。

这套估算逻辑，和企业 AI Agent 项目落地路线图里讲的「先小场景试点、用真实数据校准、再扩到全量」是同一套方法论：先做一个不太离谱的初估，再用前两个月的真实账单回校，比一开始就追求精确更靠谱。

三、省 Token 的 6 个工程动作

聊到「怎么省」，多数人想的是换便宜模型。这其实是末位优化，前面还有六件事更有效。

1. 知识库切片要细、要带语义边界。 不要按固定字符数硬切。把每个切片控制在 200-500 字，按段落、按章节自然边界切，召回的时候才能既相关又不冗长。粗切片是 Token 浪费的头号原因。

2. 用便宜模型做粗筛、好模型做精答。 先用轻量模型从知识库里筛出最相关的 2-3 段，再交给强模型生成回答。这种「两级流水线」对 RAG 场景能省 30%-60% 的总 Token，体验几乎不掉。

3. 严格控制上下文长度。 多轮对话设上限，超过 10 轮自动摘要前文、丢弃细节；单次输入设上限，超长文档强制分段处理。这条最容易做，也最容易被忽略。

4. 规则化场景做成模板，不要走 Prompt。 比如「生成客户拜访纪要」「整理周报」这种结构固定的任务，模板填空 + 小段 LLM 润色，比让模型从零写要省一个数量级。把 LLM 当万能锤子，是 Token 账单失控的常见原因。

5. 高频问答缓存起来。 同一个问题，第二个人问的时候应该走缓存，不要重新走模型。哪怕只缓存最 Top 100 个高频问题，也能省下相当一块。

6. 按部门、按场景设 Token 额度。 这是「治标也治本」的动作。给市场部、销售部、客服部分别设月度上限，超额预警、超额停服或限速。没有额度的池子，永远是先发先得、用完再说，无法管理。

这六个动作不需要等到出问题才做。新开通悟空的第一个月，就该把这六件事列成清单，逐项落实。它们的效果会在第二、第三个月的账单上明显体现。这套「先把工程动作做到位、再谈模型替换」的思路，在 AI 辅助编程让企业定制开发的成本结构变了那篇里也聊过——很多看起来「贵」的 AI 应用，其实是工程粗糙拖出来的，而不是模型本身的问题。

四、AI 成本失控的早期信号

预算定好了，不代表就稳了。下面这些信号一旦出现，必须停下来调，而不是等月底账单出来再反应。

信号	触发条件	应该做什么
日 Token 量突破均值 1.5 倍	连续 3 天	拉调用日志找异常用户/场景
单用户日调用 > 200 次	出现	排查是不是自动化任务在跑
平均上下文长度上涨 30%+	跨周	检查知识库切片和召回参数
新接入知识库后单次 Token 翻倍	接入后 1 周	调切片粒度、压缩段落数
Agent 任务失败率上升	跨周	检查工具调用链路是否过长
缓存命中率 < 10%	持续	重做高频问题归类

这套信号体系不需要复杂的监控系统，悟空后台的统计报表加一张自己维护的 Excel 就能跑。关键是要有人定期看，而不是只在出账单的时候才打开。

更深层的失控逻辑，企业 AI 成本失控的真实路径那篇文章里拆得更细，建议同步看一遍。短期的预算管理是看后台数字，长期的成本治理还要看组织怎么用、用的人有没有动力省。

五、Token 预算自检清单

如果你正在做悟空的月度预算审批，按下面这份清单过一遍。每条都能答上来，预算大概率不会跑偏。

我们的悟空席位数、月活用户数、人均调用次数各是多少？（前三个数据决定大盘）
我们的主要使用场景属于上面五类中的哪一类？（决定单次成本量级）
我们接入了多少个知识库？最大那个有多少字？切片粒度是多少？（决定 RAG 成本）
多轮对话有没有设最大轮数？长文档输入有没有强制分段？（决定上下文成本）
有没有部门级或场景级的 Token 额度？谁负责审批超额？（决定治理边界）
高频问答有没有做缓存？命中率多少？（决定可优化空间）
后台日 Token 量的预警阈值是多少？谁会收到告警？（决定响应速度）
接入新知识库或新 Agent 场景，有没有上线前的成本预估流程？（决定增量风险）
我们的悟空账单是按部门分摊、还是 IT 总盘子吃下？（决定使用者有没有省的动力）
每月的 AI 成本汇报，是不是把「替代了多少人力工时」一起摆出来？（决定 ROI 怎么说清楚）

这十条不是 KPI，是判断「这件事到底有没有人在管」的尺子。一家公司能答上 7 条以上，预算基本可控；答不上 3 条以上，再多预算也不够烧。我们在帮一些规模在 80 人到 3000+ 门店量级的客户做 AI Agent 治理时，第一步都是这份清单——不是先做新功能，而是先看老账。

六、把 ROI 算成「每元 Token 替代多少人力工时」

最后一个绕不开的问题：怎么向老板证明这笔钱值得花。

「值得」的口径不能只是「员工觉得好用」。建议统一一个可解释的算法：每元 Token 支出 ÷ 节省的人力工时单价 = 替代率。

举个例子。一个客服坐席每天用悟空写回复、查知识，假设每天节省 1 小时，按 100 元/小时人力单价算，节省价值 100 元；当天他消耗的 Token 折算成本是 20 元，那么这一天的「每元 Token 替代人力」= 100/20 = 5 元。这个比例稳定大于 1，说明 AI 是赚的；如果连续多月低于 1，要么是用法不对、要么是场景不合适，需要复盘。

这套口径的好处是把 AI 投入说成生意话，而不是技术话。财务能看懂、HR 能复用、老板能拍板。具体每个岗位的「节省工时」怎么估，可以参考 AI 数字员工到底能做哪些事那篇里按岗位拆解的清单。

这一套不需要复杂的 BI 工具，每月做一次抽样测算就够。重要的是这个口径要在公司内部统一，避免不同部门用不同算法各说各话，最后变成「市场说 AI 真香、财务说账单吓人」的对立局面。

七、写在最后

悟空贵不贵，不取决于官方价目表，取决于用的人有没有边界感、做的人有没有把工程动作做到位、管的人有没有把账算到部门头上。同样一套悟空，在某 80 人鞋服批发企业可能一个月几千块就够用，在某千人级集团也可能因为一个失控的「全员随便问」入口一个月烧掉几十万。差的不是产品本身，是治理。

预算这件事的本质是「先讲清逻辑、再填数字」。把 OPT、Token、调用、席位四个口径拆清楚，把场景与单次成本的对应关系画出来，把月活、调用频率、上下文长度三个变量盯住，把六个工程动作落实下去——做完这些再去报预算，老板问什么你都能答上来。AI 在企业里的样子，从来都不是「上不上」的判断题，而是「怎么用、怎么管、怎么算」的连续答题。这道题答得越早，下个月的账单越平稳。

钉钉悟空算力/Token 怎么算？月度预算怎么定不爆

一、悟空的四个计费口径：算力、Token、调用、席位

二、哪些场景会把 Token 烧爆

二、月度预算怎么估：用户活跃度 × 场景复杂度 × 知识库规模

三、省 Token 的 6 个工程动作

四、AI 成本失控的早期信号

五、Token 预算自检清单

六、把 ROI 算成「每元 Token 替代多少人力工时」

七、写在最后

常见问题

开沿研发中心

三块业务同一支团队，可单独做也可组合落地

钉钉全流程服务

软件定制开发

开沿 AI 员工

想让人帮你看看这份报价是不是合理？

这篇属于一个完整阅读路径

企业知识库要花多少钱？3 档预算 + 真实 ROI 怎么算

全球只有 4%-9% 的企业能算清 AI 的账？4 份权威调研里的企业 AI 落地真相

AI 项目为什么卡在 PoC？6 个落地失败原因

顺着这个话题继续读

钉钉悟空 vs Coze vs 文心一言企业版 vs 飞书智能伙伴：2026 企业 AI 助手 4 选 1 决策框架

钉钉悟空邀请码到底怎么拿？开通后第一周该做的 8 件事

钉钉悟空怎么开通？2026 企业准入条件、申请流程与审核常见卡点全攻略