开沿科技
13305079753先填 5 道题
方法论与思考

中小企业要不要上数仓/数据湖?3 万营收和 3 亿营收的不同答案

开沿研发中心·2026-06-14·13 分钟阅读

去年我们接了一个做家居建材分销的客户,年营收 1.8 个亿,老板有天找过来说:「我们要上数据中台,预算先准备 50 万。」我们没急着接,先问了几个问题:你们现在有几套业务系统?跨系统取数现在怎么取?老板自己每天看几张报表?答案是:金蝶 K3、有赞商城、一套自研的售后工单系统,加起来三套;跨系统对账靠财务每周导 Excel 拼;老板自己每天看的就是销售日报和库存周转,IT 部门每周给做一次。聊到最后我们的建议是:先别上中台,先花 8 万搭一个轻量数仓,把这三套系统的关键单据每天拉到一起,再花 4 万把指标定义统一,能解决他 80% 的问题。后来这个项目做完,老板自己复盘说,最值钱的不是数仓本身,而是「指标定义统一」这一步——以前财务说的「销售额」和销售口里的「销售额」差 7%,吵了三年。

这类对话每个月会发生好几次。「数仓」「数据湖」「数据中台」「湖仓一体」这几个词在过去五年被讲烂了,但中小企业老板和 CTO 真正困惑的是更朴素的问题:我这个体量到底要不要建?建什么粒度的?花多少钱合适?不建会不会被 AI 时代淘汰?这篇文章不打算给一个万金油答案,而是把我们在十几个数据治理和数仓项目里踩过的坑、做过的取舍摊开来讲一遍,让你自己能判断。

一句话讲清数仓、数据湖、数据中台、湖仓一体

这四个词被混用得太厉害,先做个最简洁的区分:

概念 一句话本质 解决的问题 中小企业相关度
数据仓库(Data Warehouse) 把多源结构化数据汇总、清洗、按主题建模后供分析查询 跨系统取数、指标统一、报表加速
数据湖(Data Lake) 原样存储所有结构化+半结构化+非结构化数据,按需加工 海量原始数据归档、AI 训练语料 中低
数据中台 把数据资产封装成可复用服务给前台业务调用的产品矩阵 大企业内部多业务线复用数据能力
湖仓一体(Lakehouse) 在数据湖之上叠加数仓的事务、Schema、性能能力 既要数据湖的开放性又要数仓的查询性能

更口语化地说:数仓是「整理好的图书馆」,数据湖是「原貌堆放的仓库」,数据中台是「图书馆+检索系统+借阅服务+读者画像」一整套产品,湖仓一体则是在仓库里划出一块按图书馆标准管理的区域。中小企业绝大多数情况下需要的是图书馆——也就是数仓——而且是个轻量的、能跑就行的图书馆。

中小企业上数仓的 3 类典型动机

我们把过去三年接触的数仓需求归到三个动机里。如果你的诉求落在其中之一,上数仓就是值得的;如果三个都对不上号,多半你需要的不是数仓。

动机一:指标口径要统一。 这是 80% 中小企业建数仓的真实驱动力。同一个「客单价」,财务、销售、运营三个部门算出三个数,老板每次开会都要先花 20 分钟核对口径。指标平台或数仓里的指标定义层,本质就是把这些定义固化下来:销售额到底是含税还是不含税?是按下单时间还是按发货时间?退货怎么扣?一旦定义统一并落到 SQL 里,全公司用同一个出处的数。这件事不一定要上昂贵的数仓平台,但它需要一个集中的地方来承载。

动机二:跨系统取数太累。 多数中型企业会同时跑 3-6 套业务系统:ERP、CRM、商城、WMS、HR、财务。每次老板问「这个客户的全生命周期价值」,IT 要从三个库里捞数据,用 Excel 拼。数仓能把这件事变成一次性建模——客户主数据建好之后,所有围绕「客户」的指标都从同一张宽表里查。

动机三:AI 数据源要稳。 这个动机在 2024 年之后变得越来越普遍。要给销售上 AI 助手让它能回答「这个客户最近一年买了什么」,要给老板上经营分析 Agent,要给客服上知识库——这些 AI 应用如果直接连业务库,要么把业务库拖慢、要么因为业务库字段变更频繁导致 Agent 失效。把 AI 要用的数据沉淀到数仓里的稳定表,是工程上更安全的选择。我们在 AI Agent 数据安全与权限边界 那篇里专门讨论过这个隔离层的必要性。

什么样的企业其实不需要数仓

反过来讲。下面三种情形,我们都会建议客户先别动数仓:

  • 业务系统只有 1-2 套,且都自带 BI/报表功能。 一家用 SaaS CRM 跑全公司销售流程的 80 人企业,CRM 自带的看板已经能回答 90% 的问题,剩下 10% 用 SQL 直接查就行,没必要再搭一层。
  • 数据量极小,全公司核心表加起来不超过 1000 万行。 在这个量级,业务库的 OLAP 查询都够用,数仓的 ETL 链路反而引入了延迟和故障点。
  • 看数频次极低,老板和管理层一周看一次报表足够。 数仓的价值之一是「随问随查」,如果根本没有这种诉求,做一份周报 Excel 就解决了,建数仓属于过度工程。

我们见过最让人惋惜的浪费,是一家年营收 4000 万的公司花了 30 万上了某品牌的数据中台,上线之后老板每月登录两次,看的还是那两张报表,最后归到「先放着不用了」。这种情形可以参考我们之前写的 数字化预算优先级与踩坑,本质都是把钱花错了顺序。

上数仓的 3 个进阶台阶

中小企业不需要一上来就 All-in 湖仓一体,可以按下面三个台阶逐步进化:

台阶 形态 适用规模 单次投入 维护成本/年
台阶一:业务库直查+BI BI 直连业务库或读库,写复杂 SQL/视图 营收 3000 万以下、1-2 套系统 2-8 万 1-3 万
台阶二:简易数仓 云数仓(如 ClickHouse/Doris/StarRocks/MaxCompute)+ 调度工具,做 ODS-DWD-DWS 三层 营收 3000 万-3 亿、3-6 套系统 8-25 万 3-10 万
台阶三:湖仓一体 对象存储+开放表格式+多引擎查询,承载结构化+半结构化数据,支持 AI 训练 营收 3 亿以上、6+ 系统、有 AI 训练需求 30-80 万 10-30 万

绝大多数中小企业卡在台阶一到台阶二之间。台阶一最大的问题是 BI 报表稍微复杂一点就把业务库 CPU 打满,台阶二的好处是计算与业务库解耦。从台阶二往台阶三跳跃需要满足两个条件:要存储大量半结构化数据(日志、图片、合同 PDF 等),且公司有专职的数据工程团队。如果还在「DBA 兼任数据工程师」的阶段,老老实实待在台阶二即可。

成本对照:自建 vs SaaS 数仓 vs 数据中台外包

「上数仓要花多少钱」是最常被问的问题。我们用一张表给出 100 人左右企业的大致区间,仅供砍价时心里有数:

方案 首年总投入 次年起年化 上线周期 适合谁
全自建(开源组件) 15-40 万 8-20 万 3-6 个月 有 1 名以上数据工程师
云厂商 SaaS 数仓+乙方实施 12-30 万 6-15 万 1-3 个月 大多数中小企业的甜点
数据中台外包打包项目 50-200 万 15-50 万 6-12 个月 集团型企业或上市公司
自研系统外挂数据服务 8-20 万 4-10 万 1-2 个月 已有自研系统、想内嵌轻数仓

外包数据中台是「贵且容易烂尾」的高发区。一方面是项目周期长,业务变化把需求改得面目全非;另一方面是中台理念本身要求组织配套(数据 PM、数据治理委员会、指标负责人),中小企业很难撑得起。我们在 数据迁移踩坑实录 那篇里也提到过:很多中台项目卡在「数据治理」环节迟迟出不来。

我们自己接数仓项目,单人天报价在 1800-3000 元区间,一个台阶二级别的项目通常 30-50 人天能跑通,再加上后续每月 5-10 人天的运维。这是个体力活,没法用「9.9 一键搭建」糊弄过去。

先治理还是先建数仓?

这是个鸡生蛋问题。理论上应该先把主数据治理好再建数仓——客户编码统一、商品编码统一、组织架构对齐——但现实是,没数仓的时候你根本看不见治理需要做什么,等数仓搭起来跑出第一张报表数据明显不对,治理的方向才浮出水面。

我们的经验是「两边交叉推进」:

  1. 数仓先搭起来,但只做最小可用模型。 先把 3-5 个最核心的事实表(订单、客户、商品、库存、回款)和它们的维度建起来,不要一上来就建 200 张表的全域模型。
  2. 第一次跑数据出来肯定有问题。 商品编码对不上、客户去重失败、组织架构层级错乱——这些都是治理任务,把它们作为输入交给业务系统去修。
  3. 业务系统修一轮、数仓重新跑一轮,迭代 2-3 次。 每一轮治理的边界都很清晰,不会被「先把所有问题列出来」吓退。

如果你死磕「治理 100% 干净再上数仓」,大概率会陷入两年都做不完的泥潭。

AI Agent 接数仓 vs 接业务库

这是 2024-2026 年新出现的话题,也是数仓价值的新维度。我们把两种接法放到一起对比:

维度 AI Agent 接业务库 AI Agent 接数仓
响应速度 受业务库负载影响,OLAP 查询慢 列存数仓秒级响应
对业务系统的冲击 高频扫表会拖慢下单、开单 完全隔离,业务库无感
数据时效性 实时 T+1 或小时级(看 ETL 频率)
字段稳定性 业务系统升级时字段会变 数仓建模层有稳定契约
权限管控 复用业务库账号,粒度粗 数仓侧可以做行列级权限
适用场景 单条记录查询、操作类工具 跨表分析、统计类问答

理想的架构是分流:操作类(「帮我把这单的物流状态查一下」)走业务库 API,分析类(「过去半年各渠道的回款账期对比」)走数仓。让 AI Agent 一股脑去读业务库,是不少 POC 项目踩过的坑——上线两周客服业务库被拖到 CPU 90%,最后只能紧急加一层缓存。我们在 为什么 AI 项目卡在 POC 那篇里讨论过类似的工程化短板。

AI Coding 时代的新变化:以前定制一个轻量数仓项目,建模、ETL、调度、监控全靠人手敲代码,30-50 人天打底。这两年我们用 Claude Code 和 Cursor 来辅助建模和写 ETL,同样的项目能压缩到 15-25 人天,省下来的成本可以直接折回给客户。这不是营销话术,是真实在跑的工作方式,详细做法在 AI Coding 如何改写软件交付成本结构 里有展开。这件事的意义是:原本只有大企业玩得起的数仓定制,现在中型企业也能用得起。

决策树:你的公司现在该走哪条路

把上面的判断串成一张可执行的决策树:

  1. 年营收 < 3000 万 且 业务系统 ≤ 2 套? 不要建数仓。把钱花在业务系统补字段、BI 报表上。
  2. 年营收 3000 万 - 3 亿 且 业务系统 3-6 套?
    • 跨系统对账每周都要折腾 → 走台阶二,预算 8-25 万。
    • 主要痛点是指标口径不统一 → 先做指标平台/指标字典,2-5 万。
    • 主要诉求是 AI Agent 接数据 → 必须走数仓,不能让 Agent 直读业务库。
  3. 年营收 > 3 亿 或 业务系统 > 6 套?
    • 有专职数据团队 → 评估台阶三湖仓一体。
    • 没有专职团队 → 仍然先做台阶二,组建团队再升级。
  4. 正在考虑数据中台外包? 先问自己三个问题:内部有没有数据 PM?有没有指标负责人?业务部门愿不愿意把指标定义权交出来?三个都「没有」,劝你别上中台。

可以配合我们之前的 企业 AI 落地八步法BI 报表工具选型 一起读,把数据基建和上层应用串成一条线。

写在最后

「要不要上数仓」从来不是一道纯技术题,而是一道「现在的钱花在这里值不值」的经营题。3 万营收(如果你真的还在这个量级)肯定不需要;3 亿营收且系统多、AI 诉求强,多半绕不开。中间地带的企业要做的,不是被卷进「数仓-数据湖-中台-湖仓一体」的概念升级竞赛里,而是诚实地回答:我现在最痛的是哪一个具体场景?最小可用的解法是什么?为这个解法多花一倍钱能拿回什么?

我们做了这么多年数据治理和数仓项目,最大的体会是:数据基建的投资回报永远滞后于业务的实际诉求。先把业务跑顺、把口径定清、把人养出来,数仓自然会在某一刻成为「不得不上」的选择。在那之前,慢一点没关系。

常见问题

基于这个话题最常被问到的 4 个具体问题

Q1. 100 万营收的公司也要上数仓吗?

几乎不需要。100 万营收量级通常只有一套核心业务系统(比如一个 SaaS CRM 或一个进销存),数据量在百万行以内,业务库自己跑报表完全够用。把钱花在数仓上,不如把钱花在「让业务系统先把字段录全、流程跑顺」上。等业务系统超过 3 个、跨系统对账每周都要折腾一次的时候,再考虑数仓也不迟。

Q2. 数据湖一定要用 Hadoop 吗?

不是。十年前数据湖几乎等于 Hadoop 生态(HDFS+Hive+Spark),现在主流方案已经是「对象存储 + 开放表格式(Iceberg/Hudi/Delta Lake)+ 计算引擎按需挑」,不需要自己维护 Hadoop 集群。中小企业如果真要上数据湖,直接用云厂商的对象存储加托管查询引擎,比自建 Hadoop 省一个数量级的运维成本。

Q3. 数据中台和数据仓库到底什么区别?

数据仓库是技术组件,负责把多个业务系统的数据汇总、清洗、建模、对外提供查询;数据中台是组织+产品概念,强调把数据封装成可复用的「服务」给前台业务调用,通常包含数仓、指标平台、标签平台、数据 API 网关一整套。中小企业大多数情况下只需要数仓,不需要中台那一整套治理团队。

Q4. AI Agent 直接读业务库会拖垮系统吗?

看场景。低频、小范围的查询(比如销售问「这个客户上个月成交额多少」)业务库完全扛得住;高频、扫全表、跨多表 JOIN 的查询(比如「过去 12 个月按区域+产品线+渠道交叉透视」)确实会把业务库拖慢,影响下单和开单。安全的做法是:把要给 AI 用的高频查询沉淀成数仓里的宽表或物化视图,AI Agent 读数仓不读业务库。

开沿研发中心

开沿研发中心

开沿科技的方法论与技术团队,把一线交付中的经验沉淀成可复用的方法。了解研发中心 →

4
深耕企业数字化交付
800+ 单
累计项目交付
600+ 家
服务企业客户
钉钉认证
官方认证服务商
把方法用起来

想就你公司当前的状况,聊一下下一步从哪切

看完文章你应该能判断大方向。如果想就具体场景再细聊「第一步先做哪个 / 现有系统能不能复用 / 大概多长周期」,可以加我们顾问微信——30 分钟,免费方案诊断。

看客户案例