员工把客户对话喂给 AI 算不算违反个保法？

要看三件事：一是有没有取得「单独同意」或满足其他合法性基础，二是 AI 服务方有没有签数据处理协议（DPA），三是处理目的是否在初次收集时告知过的范围内。如果只是用 AI 做内部辅助分析、且 AI 服务部署在可控环境中（私有化或国产合规云），通常可以通过补充告知与 DPA 解决；如果是把对话原文上传给境外通用大模型，几乎一定踩线。

用海外大模型给客户做事违法吗？

不一定违法，但风险极高。海外头部大模型服务在国内并未取得《生成式 AI 服务管理办法》要求的备案，且数据要出境，缺少标准合同、安全评估等机制。如果只是个人查资料、不涉及个人信息或商业秘密，灰度可控；一旦把客户姓名、手机号、合同条款、财务数据贴进去，等于同时踩个保法、数据安全法、出境管理三条。企业层面建议直接禁用，改走国产合规模型。

私有化部署是不是就一定合规？

不是。私有化部署主要解决「数据不出企业」的问题，但合规还要看：模型本身有没有备案（开源模型自己微调后对外提供服务也要备案）、训练数据来源是否合法、是否做了算法透明与未成年人保护、是否做了安全评估。私有化部署是合规的「必要不充分条件」，可以挡住出境与共享类风险，挡不住训练数据违法、未做安全评估这类问题。

金融客户能不能用 AI Agent？

可以，但路径比一般行业严。金融行业除了个保法、数据安全法，还叠加银保监、人行的算法治理与数据分级要求。常见做法是：客户敏感字段（账号、余额、身份证）在进模型前先脱敏或用本地小模型处理，只把脱敏后的语义层送到大模型；模型选国产备案模型且私有化部署；所有 AI 决策保留可解释日志、留人工复核环节。开沿在金融客户的 AI 项目里，合规评估的工作量通常占整个项目的 20% - 30%。

企业用 AI 怎么不踩个保法？数据收集、模型训练、出境的 3 道坎

去年底有家做职业教育的客户找过来，说想上一套 AI 客服 Agent，把售前咨询、学员答疑、续费提醒都交给 AI。需求很清楚，预算也准备好了，但聊到第三轮，他们法务部门提了一个问题：「学员的姓名、手机号、学习记录喂给 AI，算不算《个人信息保护法》里说的『自动化决策』？要不要单独同意？万一被监管查到怎么办？」整个会议室就僵住了——技术部门说没问题，法务部门说不能签，CEO 夹在中间不知道听谁的。最后这个项目延期了两个月，专门做合规论证。这不是个案。2026 年我们接触的 AI Agent 咨询里，至少 60% 卡在合规论证而不是技术选型。

很多企业一上手就想比较几家海外头部大模型哪个效果好，等到准备签合同了才想起来：数据要出境吗？训练数据合法吗？员工对话能不能存？这种倒着走的顺序，轻则项目延期返工，重则上线后被监管约谈。这篇文章想做的事很简单：把企业用 AI 必须过的三道合规坎讲清楚，再给 5 类高风险场景的判断、国产 vs 海外的路径差异，最后落到一份可操作的 SOP。

一、为什么 AI 在 2026 年成了合规重灾区

2025 年下半年到 2026 年上半年，国内对 AI 的监管框架基本搭齐了。早年间企业用个 SaaS、买个云服务，合规主要看《网络安全法》和《个人信息保护法》两块；2026 年再上 AI，至少要同时看四份文件：《个人信息保护法》（PIPL，2021）、《数据安全法》（DSL，2021）、《生成式 AI 服务管理办法》（2023）、《算法推荐管理规定》（2022）。再加上行业性的金融数据安全规范、医疗健康数据规范、教育用户信息规范，叠在一起就是一张密度不低的网。

更麻烦的是，AI 把原来三个独立的环节绑成了一根链条：数据收集→模型训练→输出使用。任何一个环节出问题，整条链都会受牵连。传统软件你买个 ERP，数据进了数据库就完事；AI 不一样，员工聊天的每一句话都可能流向训练样本、流向云端推理、流向第三方 API。监管也是这么看的——他们不只盯着「你用了什么 AI」，而是盯着「你的数据走过哪些路径」。

合规维度	传统软件	AI Agent / 大模型应用	监管重点
数据收集	业务表单输入	业务表单 + 对话语料 + 行为日志	单独同意、最小必要、目的限制
数据处理	本地数据库或单一云	多模型推理、多 API 调用	处理者识别、数据处理协议
数据训练	不涉及	持续用业务数据微调	训练数据合法性、算法透明
数据流向	闭环可控	可能涉及跨境推理	出境评估、标准合同
输出可控	确定性结果	概率性结果，可能产生错误信息	算法可解释、人工复核

监管的口径是清楚的：你不能把责任甩给模型厂商。哪怕你用的是阿里云通义、字节豆包、智谱清言这些已经备案的国产模型，作为数据控制者，企业仍然要承担收集、存储、使用、共享全链路的合规责任。模型厂商提供的是工具，不是免责声明。

二、坎 1：数据收集——员工和客户数据喂给 AI 前要做的 3 件事

第一道坎是最容易被忽略的，因为大部分企业以为「我数据本来就有，喂给 AI 又不是重新收集」。错。把原本用于 CRM 的客户数据，用来训练或推理 AI，在个保法语境下属于「改变处理目的」，需要重新评估合法性基础。

第一件事是更新隐私政策与告知同意。 原来你的隐私政策可能只写了「用于产品推荐、客户服务」，现在多了「用于 AI 模型训练、智能客服、自动化决策」。这一段必须明示写进去，且对于敏感个人信息、自动化决策、跨境传输这三类场景，要单独同意——不能用一句「我已阅读并同意」打包。

第二件事是数据分级与最小必要。 进模型的数据不是越多越好。一个典型的反例：客户咨询 AI 时，企业把整张客户档案（包括身份证号、银行卡号、家庭地址）作为上下文塞进去，理由是「让 AI 答得更准」。这种做法在 2026 年的监管口径下，几乎等于自首。正确路径是按字段分级，敏感字段在进模型前脱敏或剔除；只有业务必需的字段才进入推理上下文。

第三件事是数据处理协议（DPA）。 你和模型厂商、SaaS 厂商之间必须有书面的 DPA，明确：数据用途仅限于推理、不用于训练、保留期限、安全措施、违约责任。很多企业用 API 时只签了商务合同，没签 DPA，等于把合规的口子留在那里。

数据类型	进 AI 前的处理动作	合规依据
身份证号、银行卡号	强制脱敏或剔除	个保法第 28 条敏感信息
手机号、邮箱	哈希或部分掩码	个保法最小必要原则
客户聊天记录	取得二次同意、设置保留期	个保法第 14 条目的变更
员工绩效数据	单独同意 + 工会沟通	劳动法 + 个保法叠加
财务、合同条款	商业秘密分级，禁止上云	数据安全法 + 反不正当竞争法
行为日志、点击流	去标识化后可进训练	个保法第 51 条去标识化

这一层的工作量经常被低估。开沿在做过的 AI Agent 项目里，光是数据分级和告知同意改造，平均要占整个项目周期的 15% - 25%，但这一步不做扎实，后面所有合规工作都站不住脚。

三、坎 2：模型训练——用客户数据训练自有模型的边界

第二道坎专门针对「我们想训练自己的模型」这种诉求。2026 年很多企业有了基本认知：通用大模型不够懂业务，要用自己的客户数据、业务数据做微调。这个方向没错，但合规边界要画清楚。

核心问题是：用客户数据训练模型，模型本身就成了一种「数据资产」。即使你删掉了原始数据，模型权重里仍然嵌入着这些数据的统计特征，监管把这个叫做「数据记忆」。如果模型会复现训练数据中的敏感信息（比如 prompt 一句话，模型把某个客户的手机号背出来），那就是泄漏，且是结构性泄漏，没法靠删数据库解决。

用客户数据训练的合规底线有三条：

第一，明示同意。隐私政策里不能只写「用于服务改进」，必须明示「用于 AI 模型训练，且训练后的模型可能用于其他客户的服务」。如果客户不接受这一条，他的数据就不能进训练集——这意味着你要做数据隔离，不能图省事一锅炖。

第二，去标识化与差分隐私。进训练集前，姓名、手机号、身份证号、地址等直接标识符要去除，间接标识符（生日、邮编、职业组合）要评估重识别风险。预算够的话，加上差分隐私机制，能进一步降低记忆风险。

第三，模型评估与红队测试。训练完上线前，必须做记忆测试和敏感信息泄漏测试。开沿做客户的私有模型项目时，会让红队团队用 200 - 500 条诱导 prompt 试图让模型吐出训练数据，通过率必须低于约定阈值才允许上线。

训练场景	合规复杂度	典型周期	备注
用公开数据做行业微调	低	2-4 周	主要看数据源版权
用脱敏后的业务数据微调	中	4-8 周	需要数据治理与 DPA
用客户原始对话训练	高	8-16 周	需明示同意 + 红队测试
训练后对外提供服务	极高	12-24 周	需算法备案 + 安全评估

最后一行特别提醒：如果你训练完的模型还要对企业外部（哪怕是你的客户）提供生成式服务，按 2023 年办法，需要在网信办做算法备案和安全评估。这一步漏掉，后面就是约谈和下架风险。

这里要插一段开沿的视角。AI 辅助编程这两年让定制成本不再等比例贵——以前做一套带 RAG 检索、向量索引、推理网关的 AI 系统，从架构设计到代码落地动辄三五个月；现在借助自研工程工具链，同样规模的工程量能压到原来的 40% - 60%。但合规论证这部分不会因为 AI 辅助编程变快而变快。法务的工作量、监管的评估周期、客户的同意收集，都还是线性的人月。换句话说，AI 项目的瓶颈从「能不能做出来」迁移到「能不能合规上线」。

四、坎 3：数据出境——用海外模型/SaaS 的真实风险

第三道坎是出境。海外头部大模型效果好，企业自然想用。但 2026 年的现实是：所有数据出境路径都需要走「安全评估」「标准合同」或「认证」三条路径之一，由国家网信部门统一管理。

实际操作里，企业用海外模型主要踩两类坑：

第一类是默认出境。 员工在公司里随手用海外大模型帮忙写邮件、改方案、做翻译，看似无害，实际上每一次 API 调用都是数据出境。如果输入里含有客户信息、合同条款、财务数据，就是个保法 + 数据安全法 + 出境管理三条同时碰。很多企业不是不知道，而是「没人专门管这件事」，从员工自发使用变成事实违规。

第二类是套壳服务。 国内某些 SaaS 厂商接的是海外大模型的 API，但宣传时只强调「我们用的是海外头部大模型」，不明说数据要走美国。企业方采购时只看了功能演示，没看数据流向图，等数据已经过去半年了才发现问题。

模型	部署地	出境涉及	适合场景
海外头部大模型（美系厂商）	美国/全球	是	不涉及个人信息的内部探索，且需出口管理
通义千问 / 豆包 / 文心一言	国内	否	涉及个人信息的业务场景
智谱 GLM / Kimi / DeepSeek	国内	否	同上，已完成算法备案
Llama / Qwen 等开源自部署	企业内网	否（如不联网）	完全私有化场景

**判断口诀其实很简单：**只要业务涉及中国境内自然人的个人信息，默认走国产已备案模型；要用海外模型，必须先评估出境路径，并和法务部门书面确认。把这条写进 IT 准入规范，能挡掉 80% 以上的风险。

五、5 类高风险场景：医疗、金融、教培、HR、客服

合规风险不是均匀分布的。下面 5 类场景，我们建议任何 AI Agent 项目启动前先做一次专门评估。

**医疗健康类：**患者诊疗记录、检验数据、健康档案都属于敏感个人信息，且叠加《医疗卫生机构网络安全管理办法》和《人口健康信息管理办法》。AI 给患者做问诊辅助、影像分析，必须满足三级等保以上，且不能脱离医生的最终决策权。建议优先私有化部署 + 国产模型。

**金融类：**账户、余额、交易、身份信息都是 PI + 重要数据双重身份。金融机构用 AI 还要满足《商业银行互联网贷款管理暂行办法》《人身保险销售行为管理办法》对算法可解释、人工复核的要求。AI Agent 决策结果必须可解释、可审计、可回溯。海外模型基本走不通。

**教育培训类：**未成年人信息是最高敏感等级，处理 14 岁以下未成年人信息必须取得监护人同意。教培行业用 AI 做学情分析、个性化推荐，要特别小心未成年人保护。建议把未成年人数据做专门隔离，单独的合规通道。

**人力资源类：**员工绩效、简历、晋升数据涉及《劳动法》《妇女权益保障法》对就业歧视的要求。AI 用于招聘筛选、绩效评估属于「自动化决策」，必须给员工拒绝、解释、申诉的权利。开沿见过几个企业因为 AI 简历筛选被员工投诉的案例，处理起来比合规论证麻烦得多。

**智能客服类：**看起来是最常见、最低风险的场景，实际上踩坑最多。客户对话里夹带的个人信息、商业敏感词，如果直接进通用大模型，几乎一定有问题。建议做意图识别和实体抽取的前置过滤，敏感字段在进模型前剔除或脱敏。

场景	主要风险	推荐路径	评估周期建议
医疗 AI 辅助诊断	敏感信息 + 决策权	私有化 + 国产备案	8-12 周
金融 AI 风控/客服	算法可解释 + 出境	私有化 + 国产备案 + 留痕	8-16 周
教培 AI 学情分析	未成年人保护	数据隔离 + 监护人同意	6-10 周
HR AI 招聘筛选	自动化决策 + 反歧视	人工复核 + 申诉机制	4-8 周
智能客服	数据出境 + 敏感词	前置脱敏 + 国产模型	4-6 周

六、国产模型 vs 海外模型的合规路径差异

很多企业问：是不是用国产模型就万事大吉？也不是。国产模型解决的是数据出境、算法备案、安全评估这几条「硬门槛」，但合规链路上的其他动作——告知同意、数据分级、训练数据合法性、人工复核——一个都不能少。

差异主要在三点：备案、出境、可解释。国产已备案模型把这三件大事的底层做了，企业只要在自己的应用层做好数据治理就行；海外模型则要从零开始论证全链路，工作量大很多。

维度	国产已备案模型	海外模型
算法备案	厂商已完成	需要论证或避开
安全评估	厂商已完成	需出境安全评估
数据出境	不涉及	必须走三条路径之一
接口稳定性	国内可达性高	需要解决网络出口
中文效果	持平甚至更好	普遍稍弱
总合规成本	低	高

实务上，开沿给客户的建议通常是：业务核心场景用国产模型保稳，非核心、不涉个人信息的探索场景可以用海外模型。比如内部技术研究、英文文档翻译、对外营销文案生成，用海外模型问题不大；但凡涉及客户、员工数据，回到国产。

七、私有化部署是不是合规万能药

「我们做私有化部署，所有数据都在自己机房，应该没问题了吧？」这是过去一年我们听过最多的一句话。答案是：私有化部署能挡住一类问题，挡不住所有问题。

私有化部署解决的核心问题是「数据不出企业边界」，所以出境、第三方共享、模型厂商记忆这几类风险都能直接规避。但私有化部署仍然要面对：

训练数据合法性：你私下用爬虫抓的数据训练私有模型，数据来源不合法照样有问题。
算法备案：如果私有模型还要对外提供生成式服务（哪怕是给自己的客户用），照样要做算法备案。
告知同意：员工或客户的数据进模型前，告知同意一步不能少。
安全保护：私有化部署的机房等保、运维审计、访问控制要做扎实，否则比上云还危险。

私有化部署是「必要不充分」的合规手段。它降低了合规论证的边界，但企业内部的数据治理仍然要做。开沿的几个金融、医疗客户走的就是「私有化部署 + 国产开源底座 + 自有数据微调 + 内部红队测试」这条路径，整体合规论证周期通常在 8 - 14 周。

八、合规 SOP：从需求评估到上线运维的清单

把前面 7 节的内容压成一份可执行清单，方便法务、IT、CIO 直接拿去用：

需求评估阶段（第 1 - 2 周）

业务方填写《AI 应用合规评估表》，说明数据来源、处理目的、模型选型
法务初判：是否涉及个人信息、敏感个人信息、重要数据、未成年人
数据流向图：从收集→处理→训练→推理→输出，标注每一段的数据形态
是否涉及出境，初步选择国产 or 海外路径

方案设计阶段（第 2 - 4 周）

数据分级：按敏感程度分 4 级，对应不同处理动作
隐私政策更新草案，新增 AI 训练与自动化决策段落
与模型厂商签订 DPA，明确不用于训练、保留期限、违约责任
如涉自动化决策，设计人工复核与申诉通道

开发部署阶段（第 4 - 12 周）

实施数据前置脱敏、敏感词过滤
接口层留痕：所有 prompt、response 加密留存 6 - 12 个月
私有化部署机房通过等保三级或以上
红队测试：模拟敏感信息诱导、prompt 注入、越狱攻击

上线运维阶段（持续）

每月数据治理评审，新增字段重新分级
每季度算法影响评估（DPIA），书面留档
每半年外部合规审计或法律函证
客户投诉渠道与监管沟通对接人明确到岗

这份 SOP 不是模板，是骨架。具体到你的行业、模型、规模，里面每一条都要细化。开沿见过的现实是：把这份骨架填实的企业，AI Agent 接业务出结果可衡量、监管约谈零次；省略其中两三条的企业，要么上线延期要么上线后返工。哪种更划算，账并不难算。

九、写在最后

AI 合规不是一份写完归档的报告，是一条要一直维护的链路。监管在持续更新，模型能力在持续变化，业务在持续扩展，三方齐头并进，合规也只能跟着动。

最后给三句话的建议：第一，启动 AI 项目前先做合规评估，不要等到要签合同才找法务；第二，把 SOP 写进流程，让每一个新的 AI 应用都有人接、有标准评、有据可查；第三，海外模型不是不能用，但要分场景、签协议、有备案，绝不能放任员工自发使用。

跨过这三道坎的企业，AI Agent 才是真正的生产力工具；没跨过去的，只是潜伏在抽屉里的下一封监管函。

延伸阅读：AI Agent 数据安全：企业落地的真实账 · AI Agent 上线前置自检清单 · AI Agent 厂商怎么选 · 企业 AI 成本失控的 5 个原因 · AI 辅助编程与软件交付

企业用 AI 怎么不踩个保法？数据收集、模型训练、出境的 3 道坎

一、为什么 AI 在 2026 年成了合规重灾区

二、坎 1：数据收集——员工和客户数据喂给 AI 前要做的 3 件事

三、坎 2：模型训练——用客户数据训练自有模型的边界

四、坎 3：数据出境——用海外模型/SaaS 的真实风险

五、5 类高风险场景：医疗、金融、教培、HR、客服

六、国产模型 vs 海外模型的合规路径差异

七、私有化部署是不是合规万能药

八、合规 SOP：从需求评估到上线运维的清单

九、写在最后

常见问题

开沿研发中心

三块业务同一支团队，可单独做也可组合落地

钉钉全流程服务

软件定制开发

开沿 AI 员工

想就你公司当前的状况，聊一下下一步从哪切？

这篇属于一个完整阅读路径

企业知识库要花多少钱？3 档预算 + 真实 ROI 怎么算

全球只有 4%-9% 的企业能算清 AI 的账？4 份权威调研里的企业 AI 落地真相

AI 项目为什么卡在 PoC？6 个落地失败原因

顺着这个话题继续读

AI Agent 上线后怎么审计？权限、留痕、回滚的 8 件事必须做

企业云盘 4 家横评：坚果云 / 亿方云 / 联想 Filez / 华为 WeLink 云盘

什么是 RAG？企业知识库不是把文档丢给 AI，而是先管住知识边界