开沿科技
13305079753想要报价 · 5 道题
方法论与思考

企业 AI 用云服务还是自建?数据合规、成本、长期性 3 维对比

开沿研发中心·2026-06-14·16 分钟阅读

一家做合同审核 SaaS 的 CTO 在白板前画了三天

去年年底,一家做合同审核 SaaS 的公司找到我们。他们的客户里有几家头部券商和保险公司,AI 审核功能在内测阶段反响很好,但要正式商用就卡住了——大客户的安全部门明确要求:合同文本不能出公网,模型不能调用境外 API,审计日志要本地留存三年以上。

这家公司的 CTO 在白板前画了三天架构图。一边是已经跑得很顺的云 API 方案,按 Token 计费,每个月几万块,团队只需要写业务代码;另一边是客户合规清单上画的红线,逼着他考虑要不要自己买 GPU、自己部署开源模型、自己维护一整套推理服务。他算过一笔账:如果今年只是把现有客户接住,云 API 完全够用;可一旦签下两三家头部金融客户,年化 Token 费用会涨到两百多万,而且没有任何谈判空间。

他最后问了我们一个问题:「我们这种阶段,到底是该咬牙自建,还是再撑一撑用云?」

这不是一个能一句话回答的问题。云服务和自建之间的差异,远不止「贵不贵」三个字。这篇文章想把这道题拆开讲清楚——从合规、成本、长期性三个维度,帮正在做这个决策的 CTO/CIO 看到全貌。

痛点:很多团队是被一份合规清单逼着选自建的

我们接触过几十家正在做 AI 落地的中大型企业,发现一个反复出现的模式:第一阶段大家都用云 API 起步,因为快、便宜、不用养团队;第二阶段开始纠结,要么是调用量涨到肉疼,要么是有客户/监管把合规要求拍到桌上;第三阶段被迫上自建,但因为前期没规划,要么硬件采购踩坑,要么团队接不住,最后变成「云和自建两套都跑、两份钱都花」的尴尬局面。

这一节我们不展开吐槽,直接进入正题,把决策的几个关键变量摆清楚。

云服务 vs 自建的本质:边际成本 vs 一次性投入

这一节先把最底层的财务结构讲明白,后面所有维度都建立在这个差异上。

云 AI 的财务特征是「线性边际成本」。 每多一次调用就多一份 Token 费用,模型升级、机房运维、卡的折旧都被分摊在单价里,你看到的只是一个干净的 API。优点是启动门槛极低,团队不用懂底层就能跑起来;缺点是当调用量大到某个阈值之后,单价再低也是巨大的支出。

自建的财务特征是「高一次性投入 + 低边际成本」。 GPU 服务器、机房、网络、运维人力一次性砸下去,单次推理的真实成本可以压得很低,但前提是你要把这些卡跑满。如果平均利用率只有 20%,那一次性投入摊到每次调用上的成本可能比云 API 还贵。

维度 云 AI 服务 自建 AI
初期投入 几乎为零,按用量付费 硬件 + 机房 + 团队,百万级起
边际成本 每次调用都付 Token 费 卡跑满后接近电费
拐点位置 调用量小、波动大时占优 调用量大、稳定时占优
团队要求 业务工程师就够 需要 MLOps、推理优化、模型工程师
模型选择 厂商提供什么用什么 想跑什么跑什么,包括微调
升级速度 厂商升级你跟着升 自己评估、自己迁移

读这张表的姿势是:不要只看左右两列哪个数字漂亮,要看你自己的业务长什么样。下面三节就是教你怎么把自己的业务对到这张表上。

合规维度:金融/医疗/政企的硬约束

合规这件事,是很多公司被迫上自建的第一动因,但它不是一个「自建就万事大吉」的话题。

第一类是数据出境约束。涉及个人信息、生物特征、健康医疗数据时,PIPL 和行业细则都明确要求境内存储和处理。如果你的云 AI 厂商用的是境外模型,或者推理节点不在境内,这一关就过不去。这种情况自建几乎是默认选项,相关的合规边界我们在 AI 合规与 PIPL 企业落地指南 里讲得比较细。

第二类是行业监管约束。金融、医疗、能源、政务这些行业,除了通用法规之外,还有行业自己的细则。比如金融机构的「数据不出域」、医院的「患者数据不出 HIS」、政务的「等保三级以上」。这些约束不会因为你用了「合规版」云服务就消失,往往要求物理隔离、专属硬件、独立审计。

第三类是客户合同约束。这是最容易被忽视的。你自己不是金融机构,但你的客户是——客户一句「你们的 AI 推理过程不能出我们的内网」,整个架构都要重做。SaaS 公司尤其要注意这一点,最好在产品早期就把私有化部署版本的可能性留出来。

行业 典型约束 云 AI 是否可行 推荐姿势
金融券商保险 数据不出域、独立审计 全自建 + 完整审计链
医疗 患者数据不出 HIS 院内自建小集群
政企央企 等保三级 + 国产化 部分场景 自建优先,云作辅助
教育消费品零售 一般合规 可行 云为主,敏感模块自建
互联网 SaaS 看客户要求 大部分可行 留好私有化口子

结论:如果你的业务踩在前三行里的任意一行,合规这一项就已经替你做了决定,不用再纠结成本——成本是有合规之后才需要算的题。数据安全的整体框架建议参考 AI Agent 数据安全企业落地AI Agent 权限审计 这两篇。

成本维度:调用量大小决定拐点

撇开合规,纯算账的话,云 vs 自建的拐点在哪?我们用过去两年帮客户做过的几十个测算,整理出一个粗略的经验区间。

年化 Token 调用费用 30-80 万:云 API 通常更划算。 这个量级下,云的便利性远大于差价。自建的话,光机房、运维、人力的固定成本就能吃掉省下来的钱,而且把团队精力从业务上拽走了。

80-150 万:开始进入纠结区。 这个阶段建议做精细化拆分——把高频、低难度的调用(比如客服 FAQ、文档摘要)放到自建的小模型上,把低频但难度高的(比如复杂推理、多步规划)留给云上的旗舰模型。也就是后面会讲的混合架构。

150-300 万:自建与云的 TCO 开始接近。 这个区间是决策最难的,因为只看现金流自建可能略贵一点,但把数据资产沉淀、议价能力、未来扩展性算进去,自建的战略价值开始显现。

500 万以上、调用稳定:自建优势明显。 此时云 API 的边际成本会成为持续的财务负担,而且你已经被厂商的定价策略绑住了。

年化 Token 费用 推荐策略 关键风险
< 80 万 全云 别过早自建
80-150 万 云 + 自建小模型 别两套都不专
150-300 万 混合架构,主体逐步迁自建 团队跟不上
> 500 万 自建为主,云作灾备和试错 模型迭代滞后

两个常见误区

第一个,只算 Token 单价不算 TCO。自建的真实成本里,硬件折旧只占 30-40%,剩下的是机房、电力、网络、运维人力、模型迭代、安全合规。很多团队拍脑袋算账只看 GPU 价格,上线之后才发现总成本比想象的高一倍。

第二个,用峰值算云的成本。云 API 的优势之一就是弹性,你不用为峰值买单。如果你的业务有明显的潮汐特征(比如 To C 应用的晚高峰、To B 应用的月底报表期),云的成本优势会比算静态平均值时显得更突出。开发成本的更细拆解可以看 AI Agent 开发成本拆解AI 数字员工 ROI

长期性维度:模型迭代 + 团队维护责任

这一维度最容易被低估,但实际是决定项目成败的关键。

模型迭代的速度比你想象的快。开源世界基本上每 2-3 个月就有一次代际更新,闭源旗舰模型也差不多这个节奏。云 API 模式下,你只要改个模型名字就用上了新版本;自建模式下,每一次升级都意味着:下载几十 GB 的权重、重新评测在你业务数据上的表现、重新做 prompt 适配、重新跑安全测试、重新部署、回滚预案。

团队是另一道隐性门槛。一个能把开源 70B 模型稳定跑在生产上的团队,至少需要:1 名懂分布式推理的工程师、1 名懂模型评测和微调的算法工程师、1 名 MLOps/SRE。这三个岗位在 2026 年的市场上都不便宜,且流动性都不低。如果团队规模本就紧张,再砍出三个 HC 去支撑自建,业务侧就会感到资源被吸走。

自建≠永久持有。我们看到的健康姿势是「自建一代,云上看下一代」——自己跑的是上一代经过验证的稳定模型,云上同时调用最新模型用于研发评测和功能预研,等下一代稳定之后再迁到自建上。这样既享受了云的速度,又保住了自建的成本和合规优势。

这种架构上的演进方式,和我们在 AI Agent 架构模式 里讲的多模型路由其实是同一套思路,多模型路由策略 里有具体的实现细节。

GPU 自建:单卡/多卡/集群的不同选择

一旦决定自建,硬件选型是绕不开的硬骨头。把常见的三档摆出来:

单卡工作站(5-15 万)。适合 7B-14B 级别的开源模型,做对话、文档问答、代码补全。常见配置是 4090 / L20 / RTX 6000 Ada 单卡 + 64-128G 内存 + 中等 SSD。优点是便宜、上手快、机房要求低;缺点是并发能力有限,一旦同时在线超过 20-30 人就明显卡。适合:50 人以下团队、内部使用、研发原型。

单台 8 卡整机(80-200 万)。8 卡 A800 / H800 / 国产昇腾整机,可以跑 32B-70B 级别的模型,并发能力大幅提升。这是大多数中大型企业自建的「主力机型」。适合:百人以上规模、对外服务、需要稳定并发。 选型时要注意 NVLink/NVSwitch 的拓扑、电源冗余、散热设计。

小型集群(300-800 万起)。多台 8 卡整机 + InfiniBand 互联,能跑超大模型推理和小规模微调。这个量级已经是「准 AI 中台」,需要专门的机房、专门的运维。适合:把 AI 当核心能力售卖的公司、有大规模微调需求的团队。

档位 适用模型 并发能力 投入区间 团队门槛
单卡工作站 7B-14B 20-30 人 5-15 万 1 人兼职
单台 8 卡 32B-70B 200-500 人 80-200 万 2-3 人
小型集群 70B+ / 微调 1000+ 300-800 万 5-8 人

两个采购避坑点

一是别迷信顶配。很多团队上来就盯着 H100/H200,但绝大多数企业的实际场景,A800/L20 甚至国产卡就够用,多花的钱完全可以投到第二台机器上做冗余。

二是二手卡可以考虑但要看场景。二手 A800 价格通常是新卡的 5-7 折,对预算紧张的研发场景很友好,但用在主力推理节点要谨慎,至少要从靠谱的服务器商手里拿、要求完整健康报告和质保。

混合架构:核心走自建、试错走云

实战里我们最常推荐的,不是「全云 or 全自建」二选一,而是混合架构。

核心业务走自建。高频、稳定、合规敏感的调用放到自建集群上,比如客服问答、文档审核、内部知识检索。这部分要求是「成本可控、合规可审、稳定可靠」。

长尾和试错走云。低频、波动大、需要最新模型能力的调用放到云上,比如战略分析、复杂推理、新功能预研。这部分要求是「能力前沿、弹性扩展」。

关键是要有一个统一的路由层。它根据请求类型、合规等级、模型能力要求,自动把流量分发到合适的后端,对业务代码屏蔽底层差异。这层做好之后,未来再调整云/自建的比例就不用动业务代码了。

这套架构的核心抽象,和 AI Memory 与 Tool Use、RAG企业级 AI 落地 8 步法 里讲的工程化路径是一脉相承的,落地 roadmap 可以参考 AI Agent 实施路线图

什么样的企业必须自建:5 个硬信号

如果下面五条里有任意一条命中,自建基本就是默认答案,不用再纠结:

  1. 行业监管明文要求数据不出域——金融、医疗、政企的硬约束,云用得再爽也得回到自建。
  2. 客户合同里写了私有化部署条款——尤其是 To B SaaS,大客户的红线就是你的红线。
  3. 年化 Token 费用稳定超过 300 万——拐点已经过了,自建的 TCO 优势会持续放大。
  4. AI 是产品核心壁垒不是辅助功能——如果 AI 直接构成你的护城河,模型权重、推理优化、数据闭环都不能让渡给第三方。
  5. 有强烈的模型微调和私有数据训练需求——云 API 的微调能力有限且贵,自建在这方面自由度大得多。

反过来,如果你只是想给团队加点 AI 工具、给产品加点 AI 功能、客户也不关心模型跑在哪里,那大概率不用自建——把钱花在业务上更合算。能力边界的判断可以对照 AI 数字员工能力盘点AI Agent 前置条件自检

决策表:一张表把方向定下来

你的情况 推荐方向 关键动作
行业有合规硬约束 自建为主 先做合规架构,再选硬件
客户要求私有化 自建为主 产品形态要支持私有化交付
年化 Token < 80 万 全云 别折腾自建,把精力留给业务
年化 Token 80-300 万 混合 先做路由层,再分高低频
年化 Token > 300 万 自建为主 团队先到位再砸硬件
团队 < 50 人无 AI 工程师 全云 自建养不起
AI 是产品核心壁垒 自建 算 ROI 时把战略价值计入
业务流量潮汐明显 云为主 + 自建保底 享受云的弹性
主要做对内提效 云为主 速度优先
主要做对外服务 看客户合规 合规优先

把这张表打印出来贴在白板上,比开三天会都管用。

结语

回到开头那位 CTO 的问题。我们最后给他的建议是:今年继续用云把业务跑起来,同时启动小规模自建做合规预研,等下半年签下第一家头部金融客户的时候,自建集群正好能交付。半年后他给我们发消息说,第一个金融客户的合规审查一次过——审计专员看到他们已经有了独立的自建推理环境,态度直接从「需要论证」变成了「合规友好」。

云 vs 自建从来不是非黑即白的选择题,而是一道关于「你公司处在哪个阶段、要去哪里、能调动什么资源」的综合题。靠谱的决策不是抄一个标准答案,而是把自己的业务画清楚、把约束摆明白、把资源算干净,剩下的方向自然会浮现。

如果这道题你已经想了好几个月还没头绪,欢迎找我们聊一聊——我们不一定能帮你省钱,但大概率能帮你少走几个弯。

常见问题

基于这个话题最常被问到的 4 个具体问题

Q1. 做企业 AI 的 GPU 服务器多少钱起?

如果只跑 7B-14B 级别的开源模型做对话和文档问答,单卡 4090/L20 的工作站方案大概 5-8 万就能搭起来;要跑 32B-70B 级别或者并发上来,单台 8 卡 A800/H800 整机会落在百万级;如果是带 InfiniBand 的小集群,初期投入要按 300-800 万估。这只是硬件,机房托管、电力、运维人力要再单独算。

Q2. 云 AI 一年用多少 Token 算贵?

经验值是这样:年化 Token 调用费用在 30-80 万以内,云 API 通常更划算,因为省下来的运维和迭代成本远大于差价;到了 150-300 万这个区间,自建与云的总拥有成本开始接近,需要算细账;超过 500 万一年,且调用结构稳定,自建的边际成本优势就比较明显了。但拐点不是只看金额,还要看并发峰值和模型类型。

Q3. 自建之后模型升级跟得上吗?

这是自建最容易被低估的代价。开源模型迭代速度按月算,每次升级都要重新评测、重新对齐业务数据、重新做安全测试,团队里至少要有 1-2 个能读论文、改训练代码的人。如果只是想要「永远用上最新模型」,云 API 体验会好很多;自建更适合「模型能力够用就行、稳定可控更重要」的场景。

Q4. GPU 二手买靠谱吗?

在合规要求不极端、预算紧张的场景下,二手 A100/A800 是一个被很多团队默默采用的方案,价格通常是新卡的 5-7 折。风险点主要是矿卡和拆机卡的寿命、保修缺失、以及部分型号的出口管制合规问题。建议只从有信誉的二手服务器商采购,要求提供完整的健康检测报告和一定期限的质保,关键岗位(如主推理节点)仍优先用新卡。

开沿研发中心

开沿研发中心

开沿科技的方法论与技术团队,把一线交付中的经验沉淀成可复用的方法。了解研发中心 →

4
深耕企业数字化交付
800+ 单
累计项目交付
600+ 家
服务企业客户
钉钉认证
官方认证服务商
把账算清楚

想让人帮你看看这份报价是不是合理

你手里如果已经有 1-3 份报价单,发我们核一下——半小时给你一份「合不合理 / 哪里可能藏坑 / 我们这套方法对照」的口头反馈,不留资、不接单。

5 道题精准报价