上个月一个做机械配件的老板拿着中标方的年度账单来找我们,脸都绿了。合同上写的「一次性建设费 18 万」,签的时候觉得不贵。上线 8 个月后一算总账:18 万初装费 + 21 万 Token 消耗 + 6 万运维服务费 + 4 万第二次功能迭代,一年下来 49 万。他原话是「我一直以为签完合同就完事了,没人跟我说 Token 是按用量另收的,也没人告诉我第二年维护费是初装费的 30%」。这不是个例。AI Agent 项目的成本失控,几乎都发生在「初装账」和「运营账」的中间地带——签合同的时候只算了一段,用起来才发现有三段。这篇给正在做年度预算或者手上有几份报价单要横向对比的老板和 IT 负责人,一份能直接对着算的 3 段账本。
一、为什么 AI Agent 上线之后账单总是变大
AI Agent 和传统软件的成本结构完全不一样。传统 ERP、CRM 签完合同、部署完、验收完,成本基本就固化了,之后每年一笔维护费封顶。AI Agent 不是这样,它有一部分成本是「用得越多花得越多」,还有一部分是「不主动喂新数据就会失效」。这就导致 3 个非常典型的坑:
第一个坑:Token 费用没写进初装报价里。厂商投标时给的报价单往往只包含「模型接入、Prompt 工程、场景开发、系统集成」这些一次性工作,Token 消耗默认「按实际使用量客户自付」。签合同前没细看的老板,上线后才发现每个月还有一笔独立的模型账单。日活越高的 Agent 这笔账越大,尤其是接了钉钉群机器人、开放对话入口的项目。
第二个坑:知识库和 Prompt 会退化。业务文档 3 个月更新一次,产品规格半年迭代一次,员工问的问题也随着业务在变。如果没人持续维护知识库、调优 Prompt,Agent 的问答准确率会从 85% 一路掉到 60% 以下,用户体验崩了就没人用,钱花在了一个没人用的系统上。这块「隐形维护成本」在初装报价单里几乎从来不出现。
第三个坑:场景扩展被当成「新项目」按重新报价。第一版跑通 2 个场景,业务方尝到甜头想加第 3 个第 4 个场景。这时候厂商往往按新项目重新报价,不给老客户折扣。原本以为是「一次投入长期收益」,结果每加一个场景就是一次小型采购。3 个场景加下来,累计投入可能是初装费的 2-3 倍。
这 3 个坑加起来,就是「一年下来账单是初期报价 3 倍」的直接原因。要避免这个结果,唯一的办法是签合同前就按 3 段账本一起看清楚。
二、3 段账本核心表:初装费 / Token / 维护迭代
先把 3 段账本的结构钉死。这张表是本文的骨架,后面每一段都会展开细讲。
| 账本段 | 费用性质 | 典型占比 | 谁来决定大小 | 常见隐藏成本 |
|---|---|---|---|---|
| 初装费 | 一次性 | 全年成本的 45%-60% | 场景数量 + 集成系统数量 + 数据治理工作量 | 需求变更、集成接口方拒配合、数据脏乱返工 |
| Token 与算力费 | 持续(按用量) | 全年成本的 15%-30% | 日均调用次数 × 上下文长度 × 模型选型 | 无上限的开放对话入口、循环调用 Bug、批量任务 |
| 维护与迭代费 | 持续(按周期) | 全年成本的 20%-35% | 业务变化频率 + 场景扩展意愿 | 知识库更新、模型升级、新场景开发按新项目报价 |
3 段之间不是独立的。初装费越省,后面 Token 和维护费越容易爆——比如为了压初装费不做「Token 上限保护」,上线后 Token 就没兜底;比如为了压初装费不做数据治理,知识库退化速度会快 2-3 倍,维护费必然上升。反过来初装费如果盖得厚,把 Token 保护、Prompt 优化框架、知识库自动化更新都做扎实,后两段能显著压低。
更细的初装费拆解可以对照 AI Agent 定制开发多少钱,里面把 6 个成本维度按占比列出来了;维护费的行业惯例区间可以参考 软件维护费怎么谈。
我们做 5 年 · 2000+ 家 客户下来,一个稳定跑业务的 AI Agent 项目,全年三段账本大致会落在这个比例。个别客户会因为特殊场景(比如高并发对外客服)把 Token 段占比推到 40% 以上,也有客户因为业务极其稳定把维护段压到 15%,都属于合理偏离。
三、初装费拆解:需求 / 集成 / 部署 / 培训 / 验收
初装费不是一笔钱,是 5 个子项的加总。签合同前如果厂商只给一个总数不给拆解,多半是想在里面藏「弹性空间」。
| 子项 | 典型占比 | 典型工作内容 | 容易出问题的地方 |
|---|---|---|---|
| 需求分析与场景设计 | 10%-15% | 场景访谈、流程画图、验收指标定义 | 客户方业务负责人不参与,导致场景做出来没人用 |
| 数据治理与知识库建设 | 20%-35% | 数据盘点、字段口径统一、文档清洗入库 | 严重超支高发区,实际工作量常比预估多 30%-50% |
| 系统集成开发 | 25%-40% | 对接 ERP/CRM/钉钉/OA 等系统的接口 | 对方系统厂商拒配合,或者接口文档不全 |
| 部署与安全加固 | 10%-15% | 环境搭建、权限矩阵、日志审计、上线切换 | 私有化部署漏做等保测评,上线前重做 |
| 培训与验收 | 5%-10% | 业务方培训、试运行、验收报告 | 培训只做一场,员工学完就忘 |
数据治理这块几乎所有项目都会踩坑。老板签合同的时候会想「我们数据都在系统里,导出来就行」,做的时候会发现 ERP 里同一个客户有三条记录、CRM 里销售员把「客户地址」字段当备注在用、钉钉群文件里散落着关键 SOP 但没人整理过。我们见过一家做工业阀门的客户,初装报价 22 万,数据治理原本预估 5 万,最后花了 11 万才把知识库梳清楚——多出来的 6 万主要是 3 类文档的口径统一(技术规格书、售后维保手册、销售常见问答),这 3 类文档在客户那儿有 6 个不同版本流传,最后是他们自己派了 2 个工程师配合我们做了 6 周口径对齐。
系统集成也是一个高不确定性块。同样是「接一个 ERP」,用友、金蝶、SAP、以及某个客户自研的老系统,工作量能差 5 倍。签合同前一定要把「接哪些系统、每个系统读还是写、双向还是单向、接口谁提供」这几件事在合同附件里写清楚,否则等施工到一半发现对方 ERP 厂商拒绝配合,工期和成本立刻失控。
培训和验收看似小钱,其实关系到项目能不能真跑起来。我们的经验是培训至少做 3 场:上线前给业务骨干、上线后 1 周给全体用户、上线后 1 个月开一次复盘。少一场都不够。
四、Token 与算力拆解:模型 / 部署方式 / 用量估算
Token 段是最容易被忽视也最容易失控的一段。老板往往把它当成「云服务费」那种小额固定支出,实际上它是一个变量,且这个变量的上限极高。
模型单价的差异。国产开源模型(比如通义千问、DeepSeek、豆包)的 Token 单价大约是海外旗舰模型(GPT-4o、Claude Opus)的 1/5 到 1/10。同样一个对话,用国产模型可能 0.02 元,用海外旗舰可能 0.15 元。这个差异在日调用几千次的规模下会被放大到一年几万块的差距。合理做法是双轨路由:80% 的常规问答走国产开源模型,20% 的复杂推理、长文档理解才路由到海外旗舰模型。
私有化 vs 公有云。这两条路的成本结构完全不同。
| 部署方式 | 初期投入 | 每万次调用成本 | 适合场景 |
|---|---|---|---|
| 公有云 API 调用 | 0-5 万 | 20-150 元(模型不同差异大) | 年调用量 1 亿 Token 以下、非敏感数据 |
| 混合部署(敏感场景私有化) | 15-40 万 | 8-50 元 | 客户名单、合同、人事等敏感场景 |
| 全私有化部署 | 30-80 万起 | 3-15 元 | 年调用量 5 亿 Token 以上、强合规行业 |
对 200 人以下企业来说,公有云 + 混合部署基本能覆盖 90% 的场景,全私有化多数是过度投入。真正需要全私有化的是金融、医疗、律所、政府这些行业,或者集团级用户,中小企业老板不用被厂商忽悠去买一整套私有化。
日活预估怎么算。给一个可以直接套的公式:
年 Token 成本 = 日均活跃用户数 × 人均每日对话轮数 × 每轮平均 Token 数 × 250 个工作日 × 模型单价 × (1 + 30% buffer)
举个例子,100 人企业里估计 30 人会日常用 Agent,每人每天 5 轮对话,每轮平均 2000 Token(输入 500 + 输出 500 + 检索片段 1000),走国产开源模型 0.01 元/千 Token:
30 × 5 × 2000 × 250 × 0.01 / 1000 × 1.3 = 9750 元
这就是一个非常典型的 1 万左右的年 Token 成本。如果是接了钉钉群机器人、允许全员自由对话,日活会翻 3-5 倍,Token 成本可能到 4-5 万。这个 buffer 一定要留,不留就等着爆。
五、维护与迭代拆解:Bug / 模型升级 / 新场景 / 数据治理
维护段是「不做就慢慢死」的一段,跟传统软件维护有本质区别。传统软件不做维护还能凑合跑几年,AI Agent 不做维护 3 个月就明显退化。
维护段包含 4 个子项:
基础运维(Bug 修复、版本升级、可用性保障)。占年维护费的 30%-40%。厂商保障系统正常运行、修 Bug、跟着底层模型 API 变化升级适配。这块费用相对固定,按初装费的 5%-8% 报价合理。
模型持续调优(Prompt 迭代、路由策略优化)。占 20%-30%。业务在变,Prompt 就要跟着调;模型市场每季度都在推新版本,路由策略也要更新。这块最容易被厂商偷懒——签了合同不主动做,等客户发现准确率降了再来救火。要在合同里写死「每季度一次 Prompt 与路由回归优化」。
知识库持续更新。占 20%-30%。业务文档更新、新产品上线、新政策发布,都要及时进知识库。这块工作量取决于业务变化频率——快消行业每周都在动,制造业可能一个季度才动一次。我们帮一家做定制化机械的客户做过一个「知识库自动化更新流水线」:钉钉盘里的产品规格书一更新,Agent 自动重建向量索引,不用人工搬运。这套东西初装多花 3 万,第二年知识库维护费直接从 5 万降到 1.5 万。
新场景开发。占 10%-20%。第一版跑通之后必然要加场景。这块费用一定要在合同里约定「老客户优惠单价」,比如按人天 2000-3000 元的老客户价,比重新报价便宜 20%-30%。否则每加一个场景都被当新项目重新报价,成本会失控。
一张年度维护费的合理分档表:
| 初装费规模 | 年维护费合理区间 | 覆盖内容 |
|---|---|---|
| 5-10 万(POC 级) | 1-2 万 | 基础运维 + 少量 Prompt 调优 |
| 15-30 万(业务级) | 3-6 万 | 基础运维 + 季度调优 + 知识库更新 + 1-2 个小场景 |
| 50 万+(战略级) | 8-20 万 | 全量维护 + 半年一次架构评估 + 3-5 个新场景 |
不在这个区间的报价要问清楚为什么。低于区间下限的多半后面要加钱,高于区间上限的要看看是不是把 Token 也打包进来了。
六、3 档预算参考表:5 万 / 15-30 万 / 50 万+
把 3 段账本合并成一张老板可以直接决策的表。这张表基于我们 5 年 · 2000+ 家 · 1000+ 个项目 的实际交付数据整理,覆盖了 90% 的中小企业场景。
| 档位 | 企业规模 | 场景数 | 初装费 | 年 Token 费 | 年维护费 | 全年总投入 |
|---|---|---|---|---|---|---|
| 小规模 POC | 50 人以下 | 1 个 | 5-10 万 | 0.5-2 万 | 1-2 万 | 6.5-14 万 |
| 中规模业务级 | 50-300 人 | 2-4 个 | 15-30 万 | 2-6 万 | 3-6 万 | 20-42 万 |
| 大规模战略级 | 300 人以上 | 5 个以上 | 50-150 万 | 6-20 万 | 8-30 万 | 64-200 万 |
选档的核心不是看钱,是看**「场景够不够清楚」**。场景没想清楚就直接上中规模,大概率钱花了跑不出价值;场景想得很清楚但预算硬要压到小规模,最后会发现该做的没做够,反复追加也会到中规模的钱。
小规模档的核心风险:3 个月后大概率不够用要追加。适合「先试试」的老板,但心理预期要放好,把它当 POC 而不是生产系统。
中规模档是绝大多数中小企业的落地档。100-300 人企业的实际成交价多落在这一档。签合同前有 3 件事要做扎实:场景清单要定 2-4 个(不要贪多)、验收指标要写数字(准确率、响应时间、覆盖率)、Token 上限要写进合同。做扎实了这一档能撑住 2-3 年不做大改。
大规模档要考虑「集团架构」。50 万+ 的项目通常涉及多部门、多角色、可能还要跨子公司。这时候要先做架构评估,看是「一个大 Agent 服务所有部门」还是「多个小 Agent 各管一摊」。选错架构后面改动成本极高。相关的架构选型思路可以看 AI Agent 架构范式怎么选。
跨档不能靠加钱。5 万加 10 万不能变成 15 万的能力,因为底座架构不同。老板拍板前先想清楚要哪一档,再去谈价,不要指望后面加钱升档。
七、AI 接进来:动态成本看板怎么落
3 段账本最难的不是签合同时算清楚,是上线后随时能看到。我们给客户做的动态成本看板,一般包含 3 个场景:
场景一:Token 用量分部门实时看板。以前的做法是月底厂商发一份 Excel 账单,业务方看不懂哪个部门用得多、哪个员工用得凶。现在的做法是把 Token 消耗按部门、按用户、按场景拆开,钉钉里做一个每日推送的成本看板,业务负责人早上就能看到「昨天我部门用了 xxx Token、花了 xx 元、Top 3 的高耗对话是 xxx」。看得见就管得住。
场景二:异常调用告警。以前是月底账单爆了才发现「哪个入口失控了」,往往已经晚了。现在的做法是给每个入口设「日调用上限」和「单次上下文上限」,超过 80% 就给管理员发钉钉告警,超过 100% 直接熔断。我们帮某零售客户救过一次成本失控——某个营销活动导致外部客户批量调用 Agent 咨询商品,一天 Token 消耗从平均 300 元冲到 8000 元,告警一响立即熔断,第二天优化后重新开放,避免了单月 20 万+ 的爆单。
场景三:成本按业务价值反算 ROI。Token 花了钱,但换回了什么?把 Agent 每个场景的调用量和业务效果(客服人力释放、销售响应时间缩短、订单错录率下降)关联起来,算出「每投入 1 元 Token 换回多少人天工时或多少订单」。我们见过一家做医疗器械的客户,最初觉得 Agent 一年 4 万 Token 费用有点贵,接了 ROI 看板之后发现单单「销售报价单快速生成」一个场景每月就节省了 40 人天工作量,折算下来一年省 24 万人力,管理层立刻决定加预算做下一个场景。
这 3 个场景不是「未来能做」,是我们过去 1 年里帮 20 多家客户实际做过的、能直接复用的模式。想看更细的成本失控救火案例可以对照 企业 AI 成本失控怎么救。
写在最后
关于 AI Agent 一年到底花多少钱,回到 5 条铁律:
一,看年度总账,不要只看初装费。签合同前一定把 Token 段和维护段的年度合理区间算清楚,加起来看总账。
二,Token 上限和上下文长度上限必须写进合同。这两个数字不写,Token 段随时可能翻 3-5 倍。
三,维护费按 3 块拆开单独定价:基础运维、Token 结算、新场景按老客户单价,不要打包一个大数。
四,数据治理不能省。这块看起来是初装费里的钱,实际上省了会让后面的 Token 和维护费加倍。
五,上线后要有动态成本看板。看不见就管不住,管不住就一定失控。
如果你正在做 AI Agent 项目的年度预算,或者手上有 2-3 份报价单需要横向对比 3 段账本,欢迎把现有的报价单和场景清单整理一下,我们可以一起看看里面有哪些口径需要修、哪些「隐藏成本」还没写进去。








