某汽车零部件厂的设备科长去年做了一件事:把车间里 8 台核心冲压机和 12 台 CNC 加上了振动和温度传感器,配了一套 AI 预测维护平台。一年下来,他给老板交的账是这样的——非计划停机时间减少了约三到四成,但平台和传感器的硬件投入加上一年的服务费,差不多吃掉了节省下来停机损失的六成。剩下那四成,他自己也承认,「算上我们工程师陪跑的时间,基本是平账」。
这就是 AI 设备预测维护(AI PdM)在制造业的真实样子:它不是骗局,但也远没有方案商 PPT 里说的那么神。本文不卖平台,只聊一件事:哪些场景下 AI 预测维护真能落地,哪些场景下趁早别碰,以及在 AI Coding 这一波技术变化里,小制造企业还有没有低成本切入的路。
AI 预测维护的承诺 vs 现实:投入产出比的真相
方案商常用的话术是:「让设备故障可预测,停机减少 50%+,维修成本下降 30%+」。这些数字在某些极端案例里确实出现过,但放到大多数中小制造企业身上,是过度承诺。
我们接触过的制造业项目里,AI 预测维护的真实回报大致是这样:
| 项目阶段 | 常见投入区间 | 现实回报 | 回本周期 |
|---|---|---|---|
| 试点(5-20 台关键设备) | 几十万到一百多万 | 非计划停机减少 20-35% | 12-24 个月 |
| 一期规模化(50-200 台) | 几百万 | 停机减少 25-40%,维修成本降 10-20% | 18-30 个月 |
| 全厂铺开(500 台+) | 上千万 | 综合 OEE 提升 3-8 个百分点 | 24-36 个月 |
注意几个关键词:「非计划停机」「关键设备」「OEE 几个百分点」。这意味着——AI 预测维护更适合那些「停一次损失巨大、设备本身贵、备件交期长」的关键产线,对普通的、停了换一台就行的设备,投资回报并不划算。
下面拆 5 类已经被验证过、有真实落地案例的场景。
场景 1:振动传感器 + AI(旋转机械适用)
这是 AI PdM 里最成熟的一类。任何带转动部件的设备——电机、风机、泵、减速机、主轴、压缩机——振动信号都是黄金数据。轴承磨损、不对中、不平衡、齿轮缺齿,在振动频谱上都有相对清晰的特征。
为什么 AI 能在这里发挥价值?因为传统的频谱分析需要老师傅看波形图判断,而 AI 模型可以从大量历史数据里自动学到不同故障模式的特征,并提前数天到数周给出预警。
适用边界:
- 设备价值高(单台几十万以上)、停机损失大
- 转速稳定,工况相对单一
- 故障样本能凑出几十到上百例,或能用迁移学习从同类设备借
不太适合:
- 工况频繁切换的设备(比如经常变速变载的)
- 老旧设备本身振动基线就乱
- 一年坏一两次、随便修修就好的设备
振动 + AI 是目前商业化最成熟的方向,方案商也多。但要注意硬件选型:低成本的 MEMS 振动传感器和高端的压电式传感器,在采样频率和精度上差很多,能不能抓到早期故障的细微征兆,往往就差在这里。
场景 2:温度/电流监测 + AI(连续生产线)
化工、冶金、食品、塑料、印染这类连续流程行业,关键参数往往是温度、压力、电流、流量。这些数据 DCS/PLC 里本来就有,做 AI 预测维护的边际成本很低——不用大规模布新传感器,重点在数据打通和算法。
典型应用是「软测量 + 异常检测」:
| 监测对象 | 关键信号 | AI 能做的事 |
|---|---|---|
| 大功率电机 | 三相电流、绕组温度 | 提前预警绝缘老化、过载、缺相 |
| 工业炉/反应釜 | 多点温度曲线 | 识别衬里磨损、催化剂失活的早期信号 |
| 减速箱/齿轮箱 | 油温、油液状态 | 预测润滑系统衰减 |
| 输送系统 | 电机电流模式 | 提前发现卡阻、皮带打滑 |
这类场景的难点不在传感器,而在数据中台与历史数据归档。很多工厂的 DCS 数据要么只存一两周就被覆盖,要么存在不同系统里格式各异,AI 模型训练拿不到长周期的高质量数据。
如果你的工厂已经在做 钉钉与用友 ERP 的数据打通 或 钉钉与金蝶集成,可以顺势把 MES、PLC、IoT 数据也纳入 钉钉与异构系统的数据同步架构,为 AI 模型铺好数据底座。
场景 3:声音异常检测(CNC 加工)
CNC、注塑机、冲压机这类设备,资深操作工经常能凭「声音不对」判断刀具磨损或机械异常。这套经验现在可以被 AI 模型部分学到。
声学异常检测的典型场景:
- CNC 主轴和刀具的磨损/崩刃预警
- 注塑机液压系统的早期异响识别
- 冲压机连续模具的偏移与开裂征兆
- 空压机阀片故障的早期识别
技术原理上,这一类用的是无监督异常检测——不需要给所有故障打标签,只要让模型学会「正常的声音长什么样」,偏离正常分布就报警。
真实坑:
- 车间环境噪声极大,单台设备的麦克风要选近场+定向,否则信噪比根本不够
- 同一型号设备在不同位置、不同基础上的「正常基线」差异很大,模型需要逐台微调
- 当车间引入新设备或换班次工艺时,老模型可能瞬间失效
这一类场景的 ROI 强烈依赖刀具/模具的单价:刀具一把几千上万、断刀连带损坏工件几万的,值得做;普通低值刀具,传统的功率监测加阈值报警足够。
场景 4:图像质检顺带做缺陷分析
很多制造企业上 AI 视觉是冲着质检去的——找划痕、找瑕疵、找尺寸偏差。但视觉质检系统跑久了,你会发现它顺带能做一件事:通过缺陷分布反推设备状态。
举例:
- 注塑件某个固定位置反复出现飞边 → 可能是模具该保养了
- 冲压件批量出现某方向毛刺 → 模具偏移或刀口磨损
- 涂装表面规律性流痕 → 喷枪雾化或机器人姿态问题
- 焊接件焊缝外观分布异常 → 焊枪损耗或参数漂移
把视觉质检数据和设备维护系统打通,就能形成「缺陷模式 → 设备根因」的反向闭环。这其实是 AI 在制造业里被低估的一类用法,因为它复用了已有的质检硬件,边际成本只是算法和打通。
更广的视角可以参考我们之前写的 制造业 AI 场景与 ERP/MES 关系 和 金属加工行业的 MES/ERP 实战,里面有不少和 PdM 互补的场景。
场景 5:故障日志文本分析
很多老厂积累了十几二十年的设备维修台账、工单、点检记录,全是非结构化文字。这堆数据过去除了存档没人看,现在大模型起来之后,可以用 RAG + 文本分析的方式挖出价值。
能做的事:
| 用法 | 价值 |
|---|---|
| 历史维修工单聚类 | 找出反复出问题的设备/部位 |
| 故障描述 → 根因推荐 | 老工人退休前的经验沉淀 |
| 备件消耗模式分析 | 优化备件库存与采购节奏 |
| 工单文本异常预警 | 一线写的「最近声音有点闷」之类的早期信号自动提取 |
这一类的好处是几乎零硬件投入,难点在于让大模型在工厂语境下不胡说。我们之前在 企业知识库 RAG 实战 里讲过的那些原则——切片策略、答案带出处、回答边界——在工厂日志场景下同样重要,否则一线工程师试两次发现答案不靠谱就会弃用。
模型选型上,制造企业普遍关心数据不出厂的问题,本地化部署的国产模型是更现实的选择,相关取舍可以看 国产大模型企业级横评 和 PIPL 与 AI 合规。
5 大坑:项目失败的真实原因
我们复盘过不少没跑起来的 AI 预测维护项目,失败原因高度集中在这 5 个地方:
| 坑 | 表现 | 解法 |
|---|---|---|
| 数据质量差 | 传感器型号杂、采样不一致、漂移没标定 | 一期就定标准,宁可少做几台也别凑合 |
| 标注成本高 | 故障样本稀少,专家时间贵 | 优先用无监督 + 半监督,少依赖大规模标注 |
| 工程师不信 | 误报多、解释性差,被一线拒绝 | 跑「人机并行」三到六个月再切换决策权 |
| 工厂网络差 | 车间网络不稳,云端模型动不动断连 | 关键推理放边缘侧,云端只做训练和回看 |
| 边缘算力贵 | 单台设备要配工业网关 + GPU 算太重 | 共享一台边缘节点带多台设备,按区域聚类 |
特别要展开讲一下「工程师不信」。在制造业里,老师傅的经验权威是几十年积累的,一个新来的 AI 系统报警,第一年大概率被忽略甚至嘲笑。这是人之常情,不是态度问题。解决的办法不是开会强压,而是让 AI 在前几个月安静地跑,准确报警的案例由项目组私下记录,三个月后用真实数据找师傅复盘——这一步走过去,整个项目才算真正活下来。
这部分的设计逻辑,跟我们在 AI Agent 落地 8 步路线图 和 AI Agent 评测与红队 里讲的「先评测、再放权」是一致的。
落地前提:3 类企业适合做、3 类别做
不是所有制造企业都该上 AI 预测维护。下面这张表是我们给客户做诊断时常用的判断框架:
| 适合做 | 别做 |
|---|---|
| 关键设备单台价值高(百万以上),停机损失大 | 设备便宜、坏了能快速替换 |
| 工艺连续、节拍快,停机连带损失大 | 离散小批量、可灵活调度的车间 |
| 已有一定数字化基础(MES/SCADA/PLC 数据可取) | 连基础数据都没接通的工厂 |
| 备件交期长(进口件、定制件) | 备件全国当天可达 |
| 安全风险高(高压、高温、化学) | 工艺简单、人为巡检足够 |
| 设备型号集中,可复用模型 | 设备型号极度杂乱,每台都要单独调 |
很多老板看完会说:「我们似乎不太典型,但又想试」。这时候我们一般建议先做一个 3-6 个月的微试点——挑 5-10 台最关键的设备,先布传感器、攒数据、跑基础阈值告警,跑半年后再决定是否上完整 AI 模型。这套节奏可以参考 AI Agent 实施路线图 中的阶段化打法。
AI Coding 让小制造企业也够得着的真实路径
过去做一套设备预测维护系统,IT 团队要懂数据采集、信号处理、机器学习、可视化、运维一整条链路,没有 5-10 人的团队根本玩不转。现在 AI Coding 工具——Claude Code、Cursor、Codex 这一类——正在改变这件事。
我们看到一些十几人 IT 团队的制造企业,已经在用这种方式:
- 底层数据采集:直接采购成熟的工业 IoT 网关,不重造轮子
- 后端服务和数据管线:用 AI Coding 工具做软件交付,让 1-2 个工程师写出过去 5 个人才能写的代码量
- 模型层:开源算法 + 业务调优,配合 AI Memory/Tool Use/RAG 的组合策略 让模型记住工厂上下文
- 多模型路由:振动用专门的时序模型、日志用大模型、视觉用视觉模型,参考 AI 多模型路由策略 控制成本
这种打法的关键不是「AI 替代人」,而是「让原本只够维持运转的小 IT 团队,能干起过去外包都不一定干得明白的事」。背后是 Claude Code 与 Cursor 等工具在企业里的真实形态 和 AI Coding 工具横评 共同推动的——但前提是团队得真正用起来,相关方法论可以看 AI Coding 团队上手指南。
另一个常被忽略的好处是:自研让你掌握自己的设备语义和模型迭代节奏,不至于哪天供应商涨价或停服了,整个系统就报废。涉及到模型部署和数据安全的具体取舍,可以看 云原生 vs 自建 AI 部署 和 AI Agent 数据安全。
决策卡
下面这张卡片,是我们和制造业 IT/设备主管聊过几十次之后压缩出来的判断流:
你要做 AI 设备预测维护吗?
1) 关键设备单台值 50 万+ 吗?
- 是 → 继续
- 否 → 传统巡检 + 简单阈值告警足够,慎入
2) 一次非计划停机损失能到 10 万+ 吗?
- 是 → 继续
- 否 → ROI 不够,慎入
3) PLC/SCADA/MES 数据能取到吗?
- 是 → 继续
- 否 → 先做数据底座,6-12 个月后再谈
4) IT/设备团队里至少有 1 个人懂数据吗?
- 是 → 可以启动 5-10 台微试点
- 否 → 先招人或找轻量化外部团队陪跑
5) 老板愿意给 12-24 个月窗口期吗?
- 是 → 走标准化的微试点 → 一期 → 规模化节奏
- 否 → 别启动,AI PdM 不是 3 个月见效的项目
如果你已经走到了「规模化」阶段,建议同步把 AI Agent 权限审计 和 AI Agent 架构模式 一并纳入设计,避免后期返工。涉及到选供应商的部分,可以看 AI Agent 厂商选型 和 AI Agent 开发成本拆解,避免被噱头带偏。
结语
AI 设备预测维护不是「能不能做」的问题,而是「值不值得做、什么时候做、做到什么程度」的问题。它真实落地的企业,往往都有一个共同点:不指望 AI 一次性解决所有问题,而是把它当成数字化转型里的一个阶段性能力,跟传感器、跟数据中台、跟一线师傅的经验配合起来用。
如果你正在评估这件事,第一步不是约方案商,而是回到自己的车间——挑出那 3-5 台你最舍不得它停的设备,先问问自己:它们的故障,我们到底有没有可量化的数据基础?这个问题答清楚了,AI 才有用武之地。






