开沿科技
13305079753先填 5 道题
钉钉深度玩法

钉钉悟空算力/Token 怎么算?月度预算怎么定不爆

开沿研发中心·2026-06-14·15 分钟阅读

财务总监周一早上把 IT 负责人叫进办公室,桌上摊着上个月的悟空账单:「比上上个月多了三倍,谁授权的?」IT 负责人翻了半天后台日志,发现是市场部上周把过去三年的产品手册、客户案例、内部 wiki 全部喂进了一个知识库,然后给销售开了一个「随便问」的入口。销售们用得不亦乐乎,每天人均几十轮对话,每轮都把那个超大知识库召回的几千字段落塞进上下文——Token 就是这么烧起来的。

这不是个案。开通悟空容易,把 Token 预算管住难。这篇文章不讲悟空的功能清单(官方文档已经写得很全),只回答一个问题:作为给老板报预算的人,怎么把悟空的钱花在明面上、花得有逻辑、不会下个月被反向问责。下面从计费口径讲到月度估算公式,再到 6 个真正能省 Token 的工程动作,最后给一份成本失控的自检清单。

一、悟空的四个计费口径:算力、Token、调用、席位

很多人第一次看悟空的计费说明会蒙,因为它同时出现了「算力 OPT」「Token 消耗」「调用次数」「席位数」四个词,像是在用不同的尺子量同一桶水。理一下关系就清楚了。

Token 是最底层的计量单位,对应大语言模型实际处理的输入 + 输出字数(中文一个汉字大致 1-2 个 Token)。调用次数是上层动作的计数器,一次问答、一次工具触发、一次知识库检索都算一次调用。算力 OPT 是悟空把不同模型、不同调用类型折算后的统一结算单位,可以理解为「悟空版本的 Token 等价物」,方便企业按月份算总账。席位则是按使用人头收的基础费,类似传统 SaaS 的 seat 模式,决定谁有资格用、不直接决定用多少。

计费口径 计量对象 受什么影响最大 谁该盯这个数
算力 OPT 综合折算后的总消耗 月度总账 财务、IT 总负责人
Token 模型实际处理的输入输出 上下文长度、知识库召回量 工程团队、Prompt 维护人
调用次数 每次问答/工具/检索 用户活跃度、自动化任务数 业务部门管理员
席位 有权使用的人头 开通范围 HR、行政、IT 采购

四个口径的钱不是相加关系,而是相互嵌套:席位决定了「最多多少人能用」,调用次数决定了「他们用得多频繁」,Token 决定了「每次用得多重」,OPT 是最后的结算总账。预算失控通常不是席位买多了,而是某个场景的单次 Token 量超出预期,再乘以高频调用,瞬间放大。

理解这层嵌套关系,再去看官方计费说明就顺了。具体的单价会随产品迭代调整,不在这里写死,建议每季度让 IT 拉一次官方最新报价表,做一遍滚动校准。这种「机制讲清楚、数字按时点查」的思路,和我们在 企业 AI 成本失控的真实路径 那篇里梳理的成本管理框架是一致的。

二、哪些场景会把 Token 烧爆

预算爆炸的根源,几乎都来自三类场景的叠加。

第一类是知识库问答的 RAG 段落量。 RAG 的核心动作是从知识库里召回相关段落、塞进模型上下文。问题在于,召回多少段落、每段多长,往往一开始没人定。默认配置下,召回 5-10 段、每段 500-1000 字是常见配置,意味着每次问答光是上下文输入就 5000-10000 Token。如果知识库切片做得粗,召回的段落里夹了大量无关内容,Token 还会进一步膨胀。

第二类是多轮对话的上下文累积。 多轮对话默认会把历史记录拼进上下文,让模型「记得」前面聊过什么。一轮对话 1000 Token,到第十轮上下文就累计到 10000+ Token,每轮都重新跑一遍这十轮的历史。用户聊得越深,单次成本越高。这就是为什么「随便问」的入口最烧钱——销售不会在用了五轮之后主动开新会话,他们会一直追问下去。

第三类是 Agent 工具调用的递归深度。 当悟空被搭成 Agent,能调外部 API、查数据库、跨系统取数,每一步调用都会把上一步的结果作为输入继续往下走。如果工具调用链路设计得长(比如「先查 CRM、再查 ERP、再核对库存、再生成回复」),单次任务可能触发 5-10 次模型调用,每次调用都带着越来越长的上下文。一个看起来简单的「帮我看看这个客户的情况」,背后可能跑掉几万 Token。

这三类场景不是问题本身——它们恰好是悟空最有价值的用法。问题在于一开始没人估算量级、没人设限。下面这张表是开沿在 AI Agent 项目里反复看到的 Token 消耗结构,供做横向对比。

场景类型 单次平均 Token 量级 主要消耗在哪 容易踩的坑
单轮智能搜索 1000-3000 知识库召回 切片过粗
多轮咨询对话 3000-15000/轮 历史上下文累积 不限制轮次
文档总结生成 5000-30000 长文档输入 整篇硬塞
简单 Agent 任务 5000-20000 多步骤工具调用 递归调用
复杂 Agent 任务 20000-80000+ 多工具+长上下文 链路过长

这五行不是说「悟空就这么贵」,而是说「不同场景的成本敏感度差几十倍」。预算管理的第一步,是先知道自己主要在哪一行。

二、月度预算怎么估:用户活跃度 × 场景复杂度 × 知识库规模

报预算最怕的是拍脑袋。给一个可以落到表格里的初步公式:

月度 Token 量级 ≈ 月活用户数 × 人均日均调用次数 × 单次平均 Token 量 × 月工作日数

每一个变量都按下面的思路去取值。

月活用户数(MAU): 不是席位数,是真正会用的人数。一般在采购前可以按 30%-60% 估算;运行三个月后用真实数据校准。

人均日均调用次数: 区分三档。轻度(查个知识、问个流程)2-5 次/天;中度(写个材料、做个汇总)5-15 次/天;重度(销售/客服全程用)15-50 次/天。

单次平均 Token 量: 用上一节那张表对照自己最主流的场景,取一个中位数。

月工作日数: 20-22 天。

举个例子:100 人公司,月活 40 人(40%),人均中度使用 10 次/天,单次平均 5000 Token,22 个工作日,月 Token 量级约 4400 万 Token。配合悟空的 OPT 折算单价做一次乘法,就得到预算下限。

这个数字只是「裸算」,还要加上三个修正系数:

  1. 知识库规模系数:知识库总字数每翻一倍,RAG 召回的平均长度会上升 20%-40%,Token 量跟着上浮。
  2. 自动化任务系数:如果接入了定时任务、审批流自动总结、邮件自动回复等无人值守场景,单独按调用频率加一行预算,不混在人均里。
  3. 季节性峰值系数:促销季、年终结算、月初汇报这类高峰,留 30%-50% 缓冲。

这套估算逻辑,和 企业 AI Agent 项目落地路线图 里讲的「先小场景试点、用真实数据校准、再扩到全量」是同一套方法论:先做一个不太离谱的初估,再用前两个月的真实账单回校,比一开始就追求精确更靠谱。

三、省 Token 的 6 个工程动作

聊到「怎么省」,多数人想的是换便宜模型。这其实是末位优化,前面还有六件事更有效。

1. 知识库切片要细、要带语义边界。 不要按固定字符数硬切。把每个切片控制在 200-500 字,按段落、按章节自然边界切,召回的时候才能既相关又不冗长。粗切片是 Token 浪费的头号原因。

2. 用便宜模型做粗筛、好模型做精答。 先用轻量模型从知识库里筛出最相关的 2-3 段,再交给强模型生成回答。这种「两级流水线」对 RAG 场景能省 30%-60% 的总 Token,体验几乎不掉。

3. 严格控制上下文长度。 多轮对话设上限,超过 10 轮自动摘要前文、丢弃细节;单次输入设上限,超长文档强制分段处理。这条最容易做,也最容易被忽略。

4. 规则化场景做成模板,不要走 Prompt。 比如「生成客户拜访纪要」「整理周报」这种结构固定的任务,模板填空 + 小段 LLM 润色,比让模型从零写要省一个数量级。把 LLM 当万能锤子,是 Token 账单失控的常见原因。

5. 高频问答缓存起来。 同一个问题,第二个人问的时候应该走缓存,不要重新走模型。哪怕只缓存最 Top 100 个高频问题,也能省下相当一块。

6. 按部门、按场景设 Token 额度。 这是「治标也治本」的动作。给市场部、销售部、客服部分别设月度上限,超额预警、超额停服或限速。没有额度的池子,永远是先发先得、用完再说,无法管理。

这六个动作不需要等到出问题才做。新开通悟空的第一个月,就该把这六件事列成清单,逐项落实。它们的效果会在第二、第三个月的账单上明显体现。这套「先把工程动作做到位、再谈模型替换」的思路,在 AI Coding 让企业定制开发的成本结构变了 那篇里也聊过——很多看起来「贵」的 AI 应用,其实是工程粗糙拖出来的,而不是模型本身的问题。

四、AI 成本失控的早期信号

预算定好了,不代表就稳了。下面这些信号一旦出现,必须停下来调,而不是等月底账单出来再反应。

信号 触发条件 应该做什么
日 Token 量突破均值 1.5 倍 连续 3 天 拉调用日志找异常用户/场景
单用户日调用 > 200 次 出现 排查是不是自动化任务在跑
平均上下文长度上涨 30%+ 跨周 检查知识库切片和召回参数
新接入知识库后单次 Token 翻倍 接入后 1 周 调切片粒度、压缩段落数
Agent 任务失败率上升 跨周 检查工具调用链路是否过长
缓存命中率 < 10% 持续 重做高频问题归类

这套信号体系不需要复杂的监控系统,悟空后台的统计报表加一张自己维护的 Excel 就能跑。关键是要有人定期看,而不是只在出账单的时候才打开。

更深层的失控逻辑,企业 AI 成本失控的真实路径 那篇文章里拆得更细,建议同步看一遍。短期的预算管理是看后台数字,长期的成本治理还要看组织怎么用、用的人有没有动力省。

五、Token 预算自检清单

如果你正在做悟空的月度预算审批,按下面这份清单过一遍。每条都能答上来,预算大概率不会跑偏。

  1. 我们的悟空席位数、月活用户数、人均调用次数各是多少?(前三个数据决定大盘)
  2. 我们的主要使用场景属于上面五类中的哪一类?(决定单次成本量级)
  3. 我们接入了多少个知识库?最大那个有多少字?切片粒度是多少?(决定 RAG 成本)
  4. 多轮对话有没有设最大轮数?长文档输入有没有强制分段?(决定上下文成本)
  5. 有没有部门级或场景级的 Token 额度?谁负责审批超额?(决定治理边界)
  6. 高频问答有没有做缓存?命中率多少?(决定可优化空间)
  7. 后台日 Token 量的预警阈值是多少?谁会收到告警?(决定响应速度)
  8. 接入新知识库或新 Agent 场景,有没有上线前的成本预估流程?(决定增量风险)
  9. 我们的悟空账单是按部门分摊、还是 IT 总盘子吃下?(决定使用者有没有省的动力)
  10. 每月的 AI 成本汇报,是不是把「替代了多少人力工时」一起摆出来?(决定 ROI 怎么说清楚)

这十条不是 KPI,是判断「这件事到底有没有人在管」的尺子。一家公司能答上 7 条以上,预算基本可控;答不上 3 条以上,再多预算也不够烧。我们在帮一些规模在 80 人到 3000+ 门店量级的客户做 AI Agent 治理时,第一步都是这份清单——不是先做新功能,而是先看老账。

六、把 ROI 算成「每元 Token 替代多少人力工时」

最后一个绕不开的问题:怎么向老板证明这笔钱值得花。

「值得」的口径不能只是「员工觉得好用」。建议统一一个可解释的算法:每元 Token 支出 ÷ 节省的人力工时单价 = 替代率

举个例子。一个客服坐席每天用悟空写回复、查知识,假设每天节省 1 小时,按 100 元/小时人力单价算,节省价值 100 元;当天他消耗的 Token 折算成本是 20 元,那么这一天的「每元 Token 替代人力」= 100/20 = 5 元。这个比例稳定大于 1,说明 AI 是赚的;如果连续多月低于 1,要么是用法不对、要么是场景不合适,需要复盘。

这套口径的好处是把 AI 投入说成生意话,而不是技术话。财务能看懂、HR 能复用、老板能拍板。具体每个岗位的「节省工时」怎么估,可以参考 AI 数字员工到底能做哪些事 那篇里按岗位拆解的清单。

这一套不需要复杂的 BI 工具,每月做一次抽样测算就够。重要的是这个口径要在公司内部统一,避免不同部门用不同算法各说各话,最后变成「市场说 AI 真香、财务说账单吓人」的对立局面。

七、写在最后

悟空贵不贵,不取决于官方价目表,取决于用的人有没有边界感、做的人有没有把工程动作做到位、管的人有没有把账算到部门头上。同样一套悟空,在某 80 人鞋服批发企业可能一个月几千块就够用,在某千人级集团也可能因为一个失控的「全员随便问」入口一个月烧掉几十万。差的不是产品本身,是治理。

预算这件事的本质是「先讲清逻辑、再填数字」。把 OPT、Token、调用、席位四个口径拆清楚,把场景与单次成本的对应关系画出来,把月活、调用频率、上下文长度三个变量盯住,把六个工程动作落实下去——做完这些再去报预算,老板问什么你都能答上来。AI 在企业里的样子,从来都不是「上不上」的判断题,而是「怎么用、怎么管、怎么算」的连续答题。这道题答得越早,下个月的账单越平稳。

常见问题

基于这个话题最常被问到的 4 个具体问题

Q1. 100 人左右的公司用悟空,一年大概要花多少 Token 钱?

这个问题没有标准答案,关键看三件事:日活比例(不是总人数)、典型问答的轮次和上下文长度、有没有挂大型知识库。如果只是少数管理岗当作智能搜索用,常见量级是几万元/年;如果客服、销售、HR 都接成多轮对话型 Agent,一年走到十几万甚至更高也不奇怪。先按本文的三轴公式跑一遍量级估算,再用首月真实数据校准。

Q2. 悟空的 OPT 和云厂商的算力包是一回事吗?

不是一回事,但底层共享一部分逻辑。OPT 是悟空对外暴露的计量口径,把模型调用、知识库检索、Agent 编排等折算成统一单位,便于企业按月结算。云厂商的算力包通常更底层,按 GPU 时长或 Token 单价计费,需要自己组装模型、向量库、编排。悟空更像「打包套餐」,云厂商算力包更像「自助原料」。

Q3. Token 不够用,能不能自带模型接进来省钱?

理论上有空间,但要分场景看。悟空当前主要走平台模型,自带模型的开放程度在不断调整中,能不能接、怎么接、合规边界都需要以官方最新方案为准。更现实的省钱路径,是先把上下文长度、知识库切片、缓存策略做到位,多数情况下能砍掉一半以上的浪费 Token,比换模型见效更快。

Q4. 突然有一天 Token 用量翻倍,怎么排查?

先看四件事:是不是新接入了一个大知识库、是不是某个部门把悟空挂进了自动化流程、是不是有 Agent 在做递归工具调用、是不是某个 Prompt 模板被改长了。把当天的调用日志按用户、按场景、按平均上下文长度拆出来排序,异常基本都藏在头部那几个用户或那个场景里。

开沿研发中心

开沿研发中心

开沿科技的方法论与技术团队,把一线交付中的经验沉淀成可复用的方法。了解研发中心 →

4
深耕企业数字化交付
800+ 单
累计项目交付
600+ 家
服务企业客户
钉钉认证
官方认证服务商
把账算清楚

想让人帮你看看这份报价是不是合理

你手里如果已经有 1-3 份报价单,发我们核一下——半小时给你一份「合不合理 / 哪里可能藏坑 / 我们这套方法对照」的口头反馈,不留资、不接单。

5 道题精准报价