前段时间一家做鞋服品牌的老板找过来复盘。他去年在展会上被一家数字人直播厂商种草,对方演示很惊艳——数字主播 24 小时不停播、口播流利、还能识别评论区实时互动。老板当场签了 30 万年费包,想着「一个真人主播一年也 15 万,数字人 30 万能顶两个真人不下播,划算」。上线 3 个月后收到第二笔账单,才发现合同里写的 30 万只包了「形象授权 + 系统使用权」,直播时长要另外买时长包,1 小时 12 元,24 小时开播一天就是 288 元,一年就是 10 万+ 的时长费;直播间弹幕互动的模型调用另算,每万条 200 元;到年底一算总账 52 万,远超预期。他原话是「我以为数字人是买软件,实际上是租主播——按上工时长收钱的那种主播」。这不是个例。数字人项目的成本结构比传统 AI Agent 还要复杂,因为它多了「直播时长」「形象授权」「视频算力」这几段浮动费用。这篇给正在评估数字人上线、或者手上有几家厂商报价单要横向对比的老板和市场负责人,一份能直接对着算的账本。
一、AI 数字人报价单里 3 个最常见的陷阱
数字人这个赛道过去两年报价规则变得非常混乱。每家厂商切分成本的口径都不一样——有的把形象授权算进年费,有的算成一次性;有的把直播时长打包,有的按小时另计;有的宣称「训练无限次」但限制训练分钟数。这就导致同样一份「30 万年费」的合同,实际用起来能差 3-5 倍。
第一个陷阱:形象授权和使用权限期不一致。多数报价单会写「形象授权费」和「系统年费」两块。老板看的时候以为「形象我买断了」,实际上很多厂商的形象授权是「按年租」,第二年不续费形象就用不了。我们见过一家客户第一年被形象授权费打包送了觉得白赚,第二年续约时才发现形象授权单独续要 4 万,不续系统还能用但没了形象等于废了。合同里必须写清楚形象授权是「买断」还是「按年租」,如果是按年租,第二年续费单价是否上限锁定。
第二个陷阱:训练时长和直播时长两块「隐藏计费单元」。训练时长指的是形象克隆、口播风格训练所消耗的算力时长,包在年费里的往往只有 20-50 小时,超出按小时另收。直播时长指的是数字人实际推流的时间,很多厂商这块单独按小时计费。真正让年度账单爆掉的往往就是这两块——想优化口播风格多训练几次就超训练时长了,想 24 小时开播就撞直播时长阶梯了。合同必须写清楚每个月的训练时长包多少、直播时长按什么阶梯定价,越用越便宜还是越用越贵。
第三个陷阱:多平台矩阵按平台数量重复收费。数字人上线之后自然会想「我抖音开一个、快手也开一个、视频号也开一个」。这时候厂商往往按平台数量重新报价——同一个形象上第二个平台再收一次授权费,第三个平台再收一次。我们帮某美妆品牌客户做过一次报价复盘,一个形象跑 3 个平台的费用是单平台的 2.4 倍而不是 3 倍,但也远超「一次投入多渠道复用」的预期。合同里要提前约定「N 平台矩阵优惠单价」,不然扩渠道就是重复挨宰。
这 3 个陷阱加起来,就是「签合同时觉得划算、用起来账单翻倍」的直接原因。
二、3 类数字人核心对比表:直播 / 客服 / 员工
数字人不是一个东西,是 3 类完全不同的产品,成本结构和验收指标各不相同。签合同前先想清楚自己要哪一类,别被厂商拿一个「全能数字人」的方案糊弄过去。
| 场景类型 | 主要用途 | 一次性投入 | 月度成本主体 | 效果核心指标 | 常见坑 |
|---|---|---|---|---|---|
| 直播数字人 | 电商直播、品牌自播、低谷时段接盘 | 形象授权 + 口播训练 + 直播间搭建 | 直播时长费 + 平台推流费 + 互动模型费 | GMV / 观看时长 / 互动率 | 直播时长阶梯不透明、平台矩阵重复收费 |
| AI 客服数字人 | 视频座席、售前咨询、售后答疑 | 形象授权 + 知识库搭建 + 渠道接入 | 会话次数费 + 视频算力费 + 知识库维护 | 首解率 / 转化率 / 会话时长 | 视频形态被滥用、知识库退化 |
| AI 员工数字人 | 内部知识助手、培训虚拟讲师、部门 SOP 助理 | 形象授权 + 多角色训练 + 集成开发 | 会话次数费 + 知识库更新 + 场景扩展 | 员工采纳率 / 求助解决率 / 培训覆盖率 | 角色分工混乱、员工不用系统 |
3 类之间不能互相替代。直播数字人的口播模型是为「一对多广播」调优的,用来做客服会答非所问;客服数字人的模型是为「一对一问答」调优的,用来做直播会显得干瘪没感染力;员工数字人的知识库是内部数据,直接对外用会有数据合规风险。老板要做的第一件事是想清楚「我到底要哪一类」——想清楚了这一步,后面才谈得上算账。
更细的 AI Agent 成本模型可以对照 企业 AI Agent 上线一年到底花多少,里面把初装费、Token、维护 3 段账本讲透了;纯文字 AI 客服的成本结构可以看 AI 客服平台横评。
我们做 5 年 · 2000+ 家 · 1000+ 个项目 下来,涉及数字人的项目里 60% 是直播场景、25% 是客服场景、15% 是内部员工场景。三类的成本量级差异很大,但选错场景带来的浪费远大于成本差异。
三、直播数字人:形象 + 口播 + 互动的年度账本
直播数字人是 3 类里成本最高、失控概率也最大的一类。因为它的核心成本项直播时长是浮动的,且这个变量的上限极高。
先看一次性投入:
| 子项 | 典型价格 | 工作内容 | 容易踩坑的地方 |
|---|---|---|---|
| 形象授权(平台通用形象) | 3-8 万/年 | 从平台库里选形象、简单微调 | 授权是按年租的,续费涨价没锁定 |
| 形象授权(专属克隆形象) | 10-25 万起 | 真人建模、动作库训练、多角度渲染 | 训练周期 4-8 周被低估,交付延期常见 |
| 口播风格训练 | 2-8 万 | 声音克隆、口播节奏、话术风格调优 | 训练时长包不足,超时另收 |
| 直播间搭建与话术库 | 3-8 万 | 场景搭建、直播脚本、SKU 话术模板 | 话术库更新频率高,第一版做完 3 个月就过时 |
| 平台对接与推流 | 1-3 万/平台 | 抖音/快手/视频号/淘宝接入、推流稳定性调试 | 每个平台单独收费,矩阵扩渠道贵 |
月度成本主要看直播时长和互动量:
直播时长费是绝对大头。市场价 8-25 元/小时,取决于形象等级、算力资源、是否共享 GPU。24 小时开播一天最低 192 元、最高 600 元,月度就是 5760-18000 元。我们帮某服饰品牌算过一笔账:他们原本想 24 小时全开,实际数据显示凌晨 2 点到早上 8 点观看人数不足 5 人、GMV 几乎为零,但直播时长费照常烧。调整成「白天真人 12 小时 + 晚上数字人 8 小时」后,月度直播时长费从 1.5 万降到 4800 元,GMV 反而涨了 15%。
互动模型费是第二大头。每次弹幕评论识别、话术生成、语音合成都是一次模型调用。日均活跃直播间的互动量 3000-10000 条/天,按每万条 150-300 元算,月度 1500-9000 元。这块费用跟直播间热度直接挂钩——直播间火了互动费也水涨船高,反过来倒是个「幸福的烦恼」。
平台推流费和带宽费。多数平台内测阶段不收,正式合作后会有分成或独立费用。这块预留 1000-3000 元/月/平台的 buffer。
直播数字人的年度合理账单:
| 规模档 | 一次性投入 | 月度成本 | 年度总投入 | 适合场景 |
|---|---|---|---|---|
| 单平台轻量 | 8-15 万 | 8000-15000 元 | 18-33 万 | 单店/单品牌抖音直播打底 |
| 多平台矩阵 | 20-40 万 | 20000-40000 元 | 44-88 万 | 3-4 平台矩阵、SKU 100+ |
| 品牌级专属 | 50-100 万 | 40000-80000 元 | 98-196 万 | 头部品牌、专属克隆形象、多主播矩阵 |
直播数字人的核心 ROI 指标不是「省了多少主播工资」,是「单位有效观看时长的 GMV」。真人主播一小时 GMV 3000 元、成本 60 元,数字人一小时 GMV 800 元、成本 15 元。数字人单小时 GMV 更低但成本也低,真正跑得赢的是「真人下班后的低谷时段」——那个时段真人不上不下,数字人接盘刚好。
四、AI 客服数字人:视频座席 + 知识库 + 接入渠道
客服数字人的成本结构比直播数字人稳定得多,因为会话次数是相对可控的变量,不像直播时长可以无限烧。
一次性投入 3 块:
| 子项 | 典型价格 | 工作内容 |
|---|---|---|
| 形象授权与视频座席 | 2-6 万/年 | 客服形象接入、多机位角度、背景切换 |
| 知识库搭建 | 5-15 万 | FAQ 梳理、产品手册入库、话术树设计 |
| 多渠道接入 | 3-10 万 | 官网/App/小程序/微信/钉钉/电商平台客服端接入 |
月度成本主要是会话次数费和视频算力费:
会话次数费。市场价 0.5-2 元/次视频会话,按日均 200-1000 次算,月度 3000-60000 元。这块跟纯文字 AI 客服差价明显——文字客服每次会话成本 0.05-0.2 元,视频客服贵 5-10 倍。这个差价必须换来对应的业务价值才划算,否则就是花冤枉钱。
视频算力和带宽费。视频推流的算力成本大约是文字对话的 3-5 倍。月度 2000-15000 元不等,看会话量和并发数。
知识库持续维护。业务在变,知识库就要跟着更新。客服场景的知识库更新频率比员工场景高得多——产品每上线一个 SKU、每改一次价格、每出一个促销活动都要进知识库。这块工作量往往被低估。我们帮一家做家电售后的客户做过一个「知识库自动化更新流水线」:CRM 里的产品规格变更自动同步到 Agent 知识库、售后工单库每周自动增量入库,这套东西一次性多投 4 万,第二年知识库维护费从 6 万降到 1.8 万。
年度合理账单:
| 规模档 | 一次性投入 | 月度成本 | 年度总投入 |
|---|---|---|---|
| 单渠道基础 | 8-15 万 | 5000-15000 元 | 14-33 万 |
| 多渠道业务级 | 20-40 万 | 15000-40000 元 | 38-88 万 |
| 集团客服中台 | 50-120 万 | 40000-80000 元 | 98-216 万 |
客服数字人有一个特别容易被忽视的隐性成本:视频客服的转化率往往比纯文字客服低。原因是视频占用带宽、用户设备不匹配、隐私感受不佳等。我们做过一个 A/B 测试,同一个业务场景视频客服 vs 文字客服,视频组的会话完成率反而低 15%-20%。所以视频客服不是「越豪华越好」,而是「用在对的场景」——高客单产品咨询、金融产品讲解、教培课程答疑这类场景视频有加成,日常订单查询、退换货、常见问题走文字就够了。
五、AI 员工数字人:内部知识助手 + 多角色分工
员工数字人是 3 类里最新、也是最容易做出价值的一类。它不对外服务、不烧直播时长、也不用视频推流,成本主要落在知识库和多角色训练上。
一次性投入:
| 子项 | 典型价格 | 工作内容 |
|---|---|---|
| 形象与多角色训练 | 3-10 万 | 财务助理/HR 助理/产品培训师等多个角色形象 |
| 知识库搭建(分部门) | 10-30 万 | 财务制度/HR 政策/产品手册/SOP 分部门入库 |
| 内部系统集成 | 5-15 万 | 对接钉钉/ERP/HR/CRM 等内部系统 |
| 权限矩阵与审计日志 | 2-5 万 | 谁能问什么、谁能看什么、访问记录留痕 |
月度成本:
会话次数费。内部员工使用量相对可控,日均活跃通常 30%-50% 员工、人均每天 3-8 次会话。月度成本在 3000-15000 元。
知识库维护。这块是员工数字人的核心持续成本。业务政策变化、SOP 更新、产品迭代都要及时进知识库,否则准确率会从 85% 一路掉到 60% 以下。合理的做法是配一个「知识库运营岗」(可以是兼职),每月 8-15 天工作量,成本 3000-8000 元。
多角色训练迭代。员工数字人往往不止一个角色——财务助理、HR 助理、产品培训师、销售话术教练分别是不同的形象和知识库配置。每加一个角色都要单独训练,年度预留 2-3 万的多角色扩展费。
年度合理账单:
| 规模档 | 一次性投入 | 月度成本 | 年度总投入 | 适合企业规模 |
|---|---|---|---|---|
| 单角色试点 | 8-15 万 | 3000-8000 元 | 12-25 万 | 50-200 人 |
| 3-4 角色业务级 | 20-40 万 | 8000-20000 元 | 30-64 万 | 200-500 人 |
| 集团级多角色矩阵 | 50-100 万 | 20000-50000 元 | 74-160 万 | 500 人以上、多部门/多子公司 |
员工数字人的 ROI 主要看两个指标:员工采纳率(有多少员工真在用,低于 40% 说明系统没跑起来)和求助解决率(首次求助能被解决的比例,低于 60% 说明知识库需要重建)。这两个指标持续 3 个月低于阈值,就说明项目没跑起来,不管多好看的形象都是花架子。想看更细的员工数字人能力清单可以对照 AI 数字员工能到什么程度 和 AI 数字员工的 ROI 怎么算。
六、3 档预算参考:5-15 万 / 15-50 万 / 50 万+
把 3 类场景合并成一张老板可以直接决策的表:
| 档位 | 覆盖场景 | 全年投入 | 适合企业类型 | 关键验收指标 |
|---|---|---|---|---|
| 轻量档 | 1 类单场景(如单店直播 or 单渠道客服 or 单角色员工) | 5-15 万 | 单店/单品牌/50-200 人企业 | 上线 3 个月内产生业务价值 |
| 中型档 | 1 类多场景或跨类别(如 3 平台矩阵 or 客服+员工双场景) | 15-50 万 | 连锁/中型电商/200-500 人企业 | 单位有效时长 ROI ≥ 真人 60% |
| 深度档 | 3 类打通、专属形象、集团级部署 | 50 万+ | 头部品牌/集团企业/500 人以上 | 品牌资产沉淀 + 多场景协同 ROI |
轻量档的核心风险是「买了不会用」。5-15 万的预算多数厂商只给标准化服务,不会派专门的运营顾问帮你把系统跑起来。老板签这一档必须自己想清楚「谁负责运营」——是市场部指定一个人还是外包给厂商代运营,否则大概率上线 3 个月就沦为摆设。
中型档是绝大多数中小企业的落地档。这一档的关键是「场景清单要收敛」——直播 + 客服 + 员工三个场景都想要,就变成三个中型档拼一起,钱不够用。合理的做法是先选 1 个主场景做到 100 分,再考虑加第二个。我们见过一家做美妆连锁的客户,一开始想「直播+客服+员工」全上,我们劝他们先做客服(因为客服有明确 ROI 可测),跑了 4 个月客服跑通、月均成本压到 1.5 万后再加直播场景,最后年度总投入 32 万,比一次全上省了 40% 且每一段都跑得动。
深度档要考虑「形象资产化」。50 万+ 的项目通常涉及专属克隆形象、多角色矩阵、跨部门共用。这时候要提前把形象的知识产权归属、跨平台迁移权限、二次分发权限在合同里全部写死。选错架构后面改动成本极高——真的见过一个客户第一年花 80 万做的形象,第二年想换平台发现「形象带不走」,只能重新做,白花 80 万。相关的 AI Agent 架构选型思路可以看 AI Agent 架构范式怎么选。
七、什么场景根本不适合上数字人:4 条硬红线
数字人不是万能药。有些场景硬上,钱花了效果差,还伤品牌。这 4 条硬红线,符合任意一条就先别上:
第一条:品牌调性依赖真人温度。高端珠宝、定制西装、私宅设计、心理咨询这类「情感权重高于效率权重」的场景,数字人的口播再流利也补不上「真人共情」的缺口。用户更多不是来「问问题」,是来「感觉被重视」的。这类场景强上数字人会拉低品牌感。
第二条:合规红线。医疗诊断、法律建议、金融理财推荐、教培课程涉及未成年这些场景,数字人涉及「无资质从业」「AI 生成内容合规」等合规风险。相关部门 2025 年下半年已经开始整治「数字医生」「数字律师」这类账号,硬上是给自己找麻烦。这一类要做也要做「辅助工具」而不是「主角色」——比如医疗场景可以做「候诊导览数字人」但不能做「诊断建议」。
第三条:技术门槛远超企业消化能力。年 IT 预算 100 万以下、没有专门数字化团队、老板不亲自盯的企业,做 30 万+ 的深度档数字人项目大概率失败。技术上能做,落地上跑不起来。这类企业先做轻量档、跑 6-12 个月熟悉打法,再考虑升档。
第四条:客户对触感极度敏感。B2B 高客单大项目销售、家装设计、婚礼定制这类场景,客户更看重「你有没有把我当真人对待」。用数字人做接待反而传递「我不重视你」的信号,转化率大概率是负的。我们劝退过一家做工业阀门的客户,他们想用数字人做售前咨询接待,我们直接告诉他们客户名单里 80% 是国企、上市公司采购总监,这类客户看到数字人对话大概率直接关闭对话框,反而不如把预算投在真人销售培训。这不是数字人不行,是这个场景的客户群体不匹配。
八、AI 数字人使用中的 3 个真实误区
签完合同、上线之后,最容易踩的 3 个使用误区:
误区一:「7×24 无休」被当成核心卖点。前面提过的,直播数字人 24 小时开播多数时段是「烧算力没流量」;客服数字人 24 小时在线,多数客户凌晨 3 点提出的问题往往是「情绪投诉」而不是「业务咨询」,处理不好还会激化矛盾。真正合理的做法是「重点时段全力覆盖 + 低谷时段基础值守」,而不是 24 小时匀速。
误区二:「转化率不如真人」被归因错了。数字人客服的转化率往往是真人的 60%-80%,很多老板一看数据就要求「优化到跟真人一样」。方向就错了——数字人的价值不是替代 1 个真人客服,是在真人成本下不来的场景(低价值咨询、凌晨咨询、多渠道并发)里创造新的服务能力。用「等真人转化率」的标尺量数字人,永远失望。
误区三:训练周期被严重低估。老板往往以为「买个数字人签合同就能用」,实际上:形象克隆 2-4 周、口播风格训练 2-4 周、知识库入库 2-6 周、话术库调优 2-4 周,全流程串下来 8-16 周才到可上线状态。签合同前一定要在合同里写清楚交付节奏,不然厂商会用「训练还在进行中」拖 3-6 个月,这几个月的年费照付、业务价值等于零。
想看更细的成本失控救火案例可以对照 企业 AI 成本失控怎么救,里面的方法论直接可以套用到数字人场景。
写在最后
关于 AI 数字人一年到底花多少,收尾 3 条铁律:
一,先想清楚要哪一类,再谈价。直播、客服、员工是 3 个不同的产品,成本差 5 倍以上。不想清楚就签合同,大概率买了不合适的一类。
二,直播时长、训练时长、平台矩阵扩展价,这 3 个数字必须写进合同。不写死这三个,第二年账单就是被动挨宰。
三,用「单位有效时长 ROI」而不是「省了几个真人」来评估。数字人不是替代真人,是在真人成本盖不住的场景里补位。用错标尺算错账,好项目也会被砍掉。
如果你正在做数字人项目的年度预算评估,或者手上有 2-3 份数字人厂商报价单需要横向对比,欢迎把现有的报价单和使用场景清单整理一下,我们可以一起看看里面有哪些「形象授权」「训练时长」「直播时长」的口径需要修,哪些「隐藏成本」还没写进去。








