Token 费用怎么预估才不会爆？

先算「日均调用次数 × 平均输入输出 token × 20 个工作日 × 12 个月」，再乘以模型单价，最后往上加 30% buffer。中小企业一个跑得比较勤的 Agent，一年 Token 通常落在 1-5 万人民币。真正让 Token 费用爆掉的不是模型贵，而是没设「单会话上下文长度上限」和「知识库检索片段数上限」，导致每次调用都塞满 32K 上下文。合同里一定要把这两个上限写进验收指标，不然账单可能翻 3-5 倍。

私有化部署到底省不省钱？

3 年以上看私有化省钱，1 年内看公有云省钱。私有化部署硬件加模型授权一次性投入 20-50 万起步，运维人力还得配 1 个懂大模型的工程师；公有云按 Token 计费，年调用量 1 亿 token 以下走公有云更划算。真正决定选哪种的往往不是钱，而是数据能不能出企业。合同、员工薪酬、客户名单这类敏感数据走公有云要过合规审查，很多企业最后是「敏感场景私有化 + 通用场景公有云」的混合部署。

维护费第二年一般是初装费的多少？

15%-25% 之间是行业惯例，我们见过最低 12%、最高 35%。低于 12% 大概率是厂商在赌你不会真用起来，等你用起来了再以「超出范围」为由追加费用；高于 25% 通常包含了 Token 代收和二次开发额度。合理的做法是把维护费拆成三块单独定价：基础运维（Bug 修复、版本升级）按初装费的 8%-12%，Token 按实际用量结算，二次开发按人天单独报价。这样第二年账单一清二楚，也方便和厂商比价续约。

上线后成本失控怎么救？

先停掉所有「无上限」的入口，最容易失控的是 3 个：钉钉群里 @机器人的开放对话、外部客户端调用、批量文档解析任务。这三类场景要立刻加「日调用上限」和「单次上下文长度上限」。然后拉一份最近 30 天的 Token 消耗分部门明细，找出 Top 3 的高耗场景，看是不是有循环调用、重复检索这类 Bug。我们帮某零售客户救过一次，Token 账单从月均 4 万压到 1.2 万，主要就是关掉了一个「每次对话都全量重跑知识库检索」的老逻辑。

企业 AI Agent 上线一年到底花多少？初装费 / Token / 维护 3 段账本

Q: 上线后成本失控怎么救？

先停掉所有「无上限」的入口，最容易失控的是 3 个：钉钉群里 @机器人 的开放对话、外部客户端调用、批量文档解析任务。这三类场景要立刻加「日调用上限」和「单次上下文长度上限」。然后拉一份最近 30 天的 Token 消耗分部门明细，找出 Top 3 的高耗场景，看是不是有循环调用、重复检索这类 Bug。我们帮某零售客户救过一次，Token 账单从月均 4 万压到 1.2 万，主要就是关掉了一个「每次对话都全量重跑知识库检索」的老逻辑。

上个月一个做机械配件的老板拿着中标方的年度账单来找我们，脸都绿了。合同上写的「一次性建设费 18 万」，签的时候觉得不贵。上线 8 个月后一算总账：18 万初装费 + 21 万 Token 消耗 + 6 万运维服务费 + 4 万第二次功能迭代，一年下来 49 万。他原话是「我一直以为签完合同就完事了，没人跟我说 Token 是按用量另收的，也没人告诉我第二年维护费是初装费的 30%」。这不是个例。AI Agent 项目的成本失控，几乎都发生在「初装账」和「运营账」的中间地带——签合同的时候只算了一段，用起来才发现有三段。这篇给正在做年度预算或者手上有几份报价单要横向对比的老板和 IT 负责人，一份能直接对着算的 3 段账本。

一、为什么 AI Agent 上线之后账单总是变大

AI Agent 和传统软件的成本结构完全不一样。传统 ERP、CRM 签完合同、部署完、验收完，成本基本就固化了，之后每年一笔维护费封顶。AI Agent 不是这样，它有一部分成本是「用得越多花得越多」，还有一部分是「不主动喂新数据就会失效」。这就导致 3 个非常典型的坑：

第一个坑：Token 费用没写进初装报价里。厂商投标时给的报价单往往只包含「模型接入、Prompt 工程、场景开发、系统集成」这些一次性工作，Token 消耗默认「按实际使用量客户自付」。签合同前没细看的老板，上线后才发现每个月还有一笔独立的模型账单。日活越高的 Agent 这笔账越大，尤其是接了钉钉群机器人、开放对话入口的项目。

第二个坑：知识库和 Prompt 会退化。业务文档 3 个月更新一次，产品规格半年迭代一次，员工问的问题也随着业务在变。如果没人持续维护知识库、调优 Prompt，Agent 的问答准确率会从 85% 一路掉到 60% 以下，用户体验崩了就没人用，钱花在了一个没人用的系统上。这块「隐形维护成本」在初装报价单里几乎从来不出现。

第三个坑：场景扩展被当成「新项目」按重新报价。第一版跑通 2 个场景，业务方尝到甜头想加第 3 个第 4 个场景。这时候厂商往往按新项目重新报价，不给老客户折扣。原本以为是「一次投入长期收益」，结果每加一个场景就是一次小型采购。3 个场景加下来，累计投入可能是初装费的 2-3 倍。

这 3 个坑加起来，就是「一年下来账单是初期报价 3 倍」的直接原因。要避免这个结果，唯一的办法是签合同前就按 3 段账本一起看清楚。

二、3 段账本核心表：初装费 / Token / 维护迭代

先把 3 段账本的结构钉死。这张表是本文的骨架，后面每一段都会展开细讲。

账本段	费用性质	典型占比	谁来决定大小	常见隐藏成本
初装费	一次性	全年成本的 45%-60%	场景数量 + 集成系统数量 + 数据治理工作量	需求变更、集成接口方拒配合、数据脏乱返工
Token 与算力费	持续（按用量）	全年成本的 15%-30%	日均调用次数 × 上下文长度 × 模型选型	无上限的开放对话入口、循环调用 Bug、批量任务
维护与迭代费	持续（按周期）	全年成本的 20%-35%	业务变化频率 + 场景扩展意愿	知识库更新、模型升级、新场景开发按新项目报价

3 段之间不是独立的。初装费越省，后面 Token 和维护费越容易爆——比如为了压初装费不做「Token 上限保护」，上线后 Token 就没兜底；比如为了压初装费不做数据治理，知识库退化速度会快 2-3 倍，维护费必然上升。反过来初装费如果盖得厚，把 Token 保护、Prompt 优化框架、知识库自动化更新都做扎实，后两段能显著压低。

更细的初装费拆解可以对照 AI Agent 定制开发多少钱，里面把 6 个成本维度按占比列出来了；维护费的行业惯例区间可以参考软件维护费怎么谈。

我们做 5 年 · 2000+ 家客户下来，一个稳定跑业务的 AI Agent 项目，全年三段账本大致会落在这个比例。个别客户会因为特殊场景（比如高并发对外客服）把 Token 段占比推到 40% 以上，也有客户因为业务极其稳定把维护段压到 15%，都属于合理偏离。

三、初装费拆解：需求 / 集成 / 部署 / 培训 / 验收

初装费不是一笔钱，是 5 个子项的加总。签合同前如果厂商只给一个总数不给拆解，多半是想在里面藏「弹性空间」。

子项	典型占比	典型工作内容	容易出问题的地方
需求分析与场景设计	10%-15%	场景访谈、流程画图、验收指标定义	客户方业务负责人不参与，导致场景做出来没人用
数据治理与知识库建设	20%-35%	数据盘点、字段口径统一、文档清洗入库	严重超支高发区，实际工作量常比预估多 30%-50%
系统集成开发	25%-40%	对接 ERP/CRM/钉钉/OA 等系统的接口	对方系统厂商拒配合，或者接口文档不全
部署与安全加固	10%-15%	环境搭建、权限矩阵、日志审计、上线切换	私有化部署漏做等保测评，上线前重做
培训与验收	5%-10%	业务方培训、试运行、验收报告	培训只做一场，员工学完就忘

数据治理这块几乎所有项目都会踩坑。老板签合同的时候会想「我们数据都在系统里，导出来就行」，做的时候会发现 ERP 里同一个客户有三条记录、CRM 里销售员把「客户地址」字段当备注在用、钉钉群文件里散落着关键 SOP 但没人整理过。我们见过一家做工业阀门的客户，初装报价 22 万，数据治理原本预估 5 万，最后花了 11 万才把知识库梳清楚——多出来的 6 万主要是 3 类文档的口径统一（技术规格书、售后维保手册、销售常见问答），这 3 类文档在客户那儿有 6 个不同版本流传，最后是他们自己派了 2 个工程师配合我们做了 6 周口径对齐。

系统集成也是一个高不确定性块。同样是「接一个 ERP」，用友、金蝶、SAP、以及某个客户自研的老系统，工作量能差 5 倍。签合同前一定要把「接哪些系统、每个系统读还是写、双向还是单向、接口谁提供」这几件事在合同附件里写清楚，否则等施工到一半发现对方 ERP 厂商拒绝配合，工期和成本立刻失控。

培训和验收看似小钱，其实关系到项目能不能真跑起来。我们的经验是培训至少做 3 场：上线前给业务骨干、上线后 1 周给全体用户、上线后 1 个月开一次复盘。少一场都不够。

四、Token 与算力拆解：模型 / 部署方式 / 用量估算

Token 段是最容易被忽视也最容易失控的一段。老板往往把它当成「云服务费」那种小额固定支出，实际上它是一个变量，且这个变量的上限极高。

模型单价的差异。国产开源模型（比如通义千问、DeepSeek、豆包）的 Token 单价大约是海外旗舰模型（GPT-4o、Claude Opus）的 1/5 到 1/10。同样一个对话，用国产模型可能 0.02 元，用海外旗舰可能 0.15 元。这个差异在日调用几千次的规模下会被放大到一年几万块的差距。合理做法是双轨路由：80% 的常规问答走国产开源模型，20% 的复杂推理、长文档理解才路由到海外旗舰模型。

私有化 vs 公有云。这两条路的成本结构完全不同。

部署方式	初期投入	每万次调用成本	适合场景
公有云 API 调用	0-5 万	20-150 元（模型不同差异大）	年调用量 1 亿 Token 以下、非敏感数据
混合部署（敏感场景私有化）	15-40 万	8-50 元	客户名单、合同、人事等敏感场景
全私有化部署	30-80 万起	3-15 元	年调用量 5 亿 Token 以上、强合规行业

对 200 人以下企业来说，公有云 + 混合部署基本能覆盖 90% 的场景，全私有化多数是过度投入。真正需要全私有化的是金融、医疗、律所、政府这些行业，或者集团级用户，中小企业老板不用被厂商忽悠去买一整套私有化。

日活预估怎么算。给一个可以直接套的公式：

年 Token 成本 = 日均活跃用户数 × 人均每日对话轮数 × 每轮平均 Token 数 × 250 个工作日 × 模型单价 × (1 + 30% buffer)

举个例子，100 人企业里估计 30 人会日常用 Agent，每人每天 5 轮对话，每轮平均 2000 Token（输入 500 + 输出 500 + 检索片段 1000），走国产开源模型 0.01 元/千 Token：

30 × 5 × 2000 × 250 × 0.01 / 1000 × 1.3 = 9750 元

这就是一个非常典型的 1 万左右的年 Token 成本。如果是接了钉钉群机器人、允许全员自由对话，日活会翻 3-5 倍，Token 成本可能到 4-5 万。这个 buffer 一定要留，不留就等着爆。

五、维护与迭代拆解：Bug / 模型升级 / 新场景 / 数据治理

维护段是「不做就慢慢死」的一段，跟传统软件维护有本质区别。传统软件不做维护还能凑合跑几年，AI Agent 不做维护 3 个月就明显退化。

维护段包含 4 个子项：

基础运维（Bug 修复、版本升级、可用性保障）。占年维护费的 30%-40%。厂商保障系统正常运行、修 Bug、跟着底层模型 API 变化升级适配。这块费用相对固定，按初装费的 5%-8% 报价合理。

模型持续调优（Prompt 迭代、路由策略优化）。占 20%-30%。业务在变，Prompt 就要跟着调；模型市场每季度都在推新版本，路由策略也要更新。这块最容易被厂商偷懒——签了合同不主动做，等客户发现准确率降了再来救火。要在合同里写死「每季度一次 Prompt 与路由回归优化」。

知识库持续更新。占 20%-30%。业务文档更新、新产品上线、新政策发布，都要及时进知识库。这块工作量取决于业务变化频率——快消行业每周都在动，制造业可能一个季度才动一次。我们帮一家做定制化机械的客户做过一个「知识库自动化更新流水线」：钉钉盘里的产品规格书一更新，Agent 自动重建向量索引，不用人工搬运。这套东西初装多花 3 万，第二年知识库维护费直接从 5 万降到 1.5 万。

新场景开发。占 10%-20%。第一版跑通之后必然要加场景。这块费用一定要在合同里约定「老客户优惠单价」，比如按人天 2000-3000 元的老客户价，比重新报价便宜 20%-30%。否则每加一个场景都被当新项目重新报价，成本会失控。

一张年度维护费的合理分档表：

初装费规模	年维护费合理区间	覆盖内容
5-10 万（POC 级）	1-2 万	基础运维 + 少量 Prompt 调优
15-30 万（业务级）	3-6 万	基础运维 + 季度调优 + 知识库更新 + 1-2 个小场景
50 万+（战略级）	8-20 万	全量维护 + 半年一次架构评估 + 3-5 个新场景

不在这个区间的报价要问清楚为什么。低于区间下限的多半后面要加钱，高于区间上限的要看看是不是把 Token 也打包进来了。

六、3 档预算参考表：5 万 / 15-30 万 / 50 万+

把 3 段账本合并成一张老板可以直接决策的表。这张表基于我们 5 年 · 2000+ 家 · 1000+ 个项目的实际交付数据整理，覆盖了 90% 的中小企业场景。

档位	企业规模	场景数	初装费	年 Token 费	年维护费	全年总投入
小规模 POC	50 人以下	1 个	5-10 万	0.5-2 万	1-2 万	6.5-14 万
中规模业务级	50-300 人	2-4 个	15-30 万	2-6 万	3-6 万	20-42 万
大规模战略级	300 人以上	5 个以上	50-150 万	6-20 万	8-30 万	64-200 万

选档的核心不是看钱，是看**「场景够不够清楚」**。场景没想清楚就直接上中规模，大概率钱花了跑不出价值；场景想得很清楚但预算硬要压到小规模，最后会发现该做的没做够，反复追加也会到中规模的钱。

小规模档的核心风险：3 个月后大概率不够用要追加。适合「先试试」的老板，但心理预期要放好，把它当 POC 而不是生产系统。

中规模档是绝大多数中小企业的落地档。100-300 人企业的实际成交价多落在这一档。签合同前有 3 件事要做扎实：场景清单要定 2-4 个（不要贪多）、验收指标要写数字（准确率、响应时间、覆盖率）、Token 上限要写进合同。做扎实了这一档能撑住 2-3 年不做大改。

大规模档要考虑「集团架构」。50 万+ 的项目通常涉及多部门、多角色、可能还要跨子公司。这时候要先做架构评估，看是「一个大 Agent 服务所有部门」还是「多个小 Agent 各管一摊」。选错架构后面改动成本极高。相关的架构选型思路可以看 AI Agent 架构范式怎么选。

跨档不能靠加钱。5 万加 10 万不能变成 15 万的能力，因为底座架构不同。老板拍板前先想清楚要哪一档，再去谈价，不要指望后面加钱升档。

七、AI 接进来：动态成本看板怎么落

3 段账本最难的不是签合同时算清楚，是上线后随时能看到。我们给客户做的动态成本看板，一般包含 3 个场景：

场景一：Token 用量分部门实时看板。以前的做法是月底厂商发一份 Excel 账单，业务方看不懂哪个部门用得多、哪个员工用得凶。现在的做法是把 Token 消耗按部门、按用户、按场景拆开，钉钉里做一个每日推送的成本看板，业务负责人早上就能看到「昨天我部门用了 xxx Token、花了 xx 元、Top 3 的高耗对话是 xxx」。看得见就管得住。

场景二：异常调用告警。以前是月底账单爆了才发现「哪个入口失控了」，往往已经晚了。现在的做法是给每个入口设「日调用上限」和「单次上下文上限」，超过 80% 就给管理员发钉钉告警，超过 100% 直接熔断。我们帮某零售客户救过一次成本失控——某个营销活动导致外部客户批量调用 Agent 咨询商品，一天 Token 消耗从平均 300 元冲到 8000 元，告警一响立即熔断，第二天优化后重新开放，避免了单月 20 万+ 的爆单。

场景三：成本按业务价值反算 ROI。Token 花了钱，但换回了什么？把 Agent 每个场景的调用量和业务效果（客服人力释放、销售响应时间缩短、订单错录率下降）关联起来，算出「每投入 1 元 Token 换回多少人天工时或多少订单」。我们见过一家做医疗器械的客户，最初觉得 Agent 一年 4 万 Token 费用有点贵，接了 ROI 看板之后发现单单「销售报价单快速生成」一个场景每月就节省了 40 人天工作量，折算下来一年省 24 万人力，管理层立刻决定加预算做下一个场景。

这 3 个场景不是「未来能做」，是我们过去 1 年里帮 20 多家客户实际做过的、能直接复用的模式。想看更细的成本失控救火案例可以对照企业 AI 成本失控怎么救。

写在最后

关于 AI Agent 一年到底花多少钱，回到 5 条铁律：

一，看年度总账，不要只看初装费。签合同前一定把 Token 段和维护段的年度合理区间算清楚，加起来看总账。

二，Token 上限和上下文长度上限必须写进合同。这两个数字不写，Token 段随时可能翻 3-5 倍。

三，维护费按 3 块拆开单独定价：基础运维、Token 结算、新场景按老客户单价，不要打包一个大数。

四，数据治理不能省。这块看起来是初装费里的钱，实际上省了会让后面的 Token 和维护费加倍。

五，上线后要有动态成本看板。看不见就管不住，管不住就一定失控。

如果你正在做 AI Agent 项目的年度预算，或者手上有 2-3 份报价单需要横向对比 3 段账本，欢迎把现有的报价单和场景清单整理一下，我们可以一起看看里面有哪些口径需要修、哪些「隐藏成本」还没写进去。

企业 AI Agent 上线一年到底花多少？初装费 / Token / 维护 3 段账本

一、为什么 AI Agent 上线之后账单总是变大

二、3 段账本核心表：初装费 / Token / 维护迭代

三、初装费拆解：需求 / 集成 / 部署 / 培训 / 验收

四、Token 与算力拆解：模型 / 部署方式 / 用量估算

五、维护与迭代拆解：Bug / 模型升级 / 新场景 / 数据治理

六、3 档预算参考表：5 万 / 15-30 万 / 50 万+

七、AI 接进来：动态成本看板怎么落

写在最后

常见问题

开沿研发中心

三条线同一支团队，可单独做也可组合落地

AI Agent 落地

软件定制开发

钉钉全流程服务

想让人帮你看看这份报价是不是合理？

这篇属于一个完整阅读路径

企业知识库要花多少钱？3 档预算 + 真实 ROI 怎么算

全球只有 4%-9% 的企业能算清 AI 的账？4 份权威调研里的企业 AI 落地真相

AI 项目为什么卡在 PoC？6 个落地失败原因

顺着这个话题继续读

AI 会议纪要工具 4 家横评：飞书妙记 / 腾讯会议 AI / 讯飞听见 / 通义听悟

AI 数字人平台 4 家横评：硅基智能 / 相芯科技 / 魔珐 / 腾讯智影

AI 数字人一年成本？直播 / 客服 / 员工 3 类场景各多少钱