某家做企业服务的销售总监最近抱怨:上个月销售部门进了八百多条线索,分给十几个销售跟进,月底复盘时发现转化的二十多单里,有近一半来自当初被销售标为「C 类暂缓」的线索,反而那些被标为「A 类高优」的客户大多卡在比稿、走流程、等预算批复。他翻销售的跟进记录,发现 A 类标签的判断依据五花八门——有的看公司规模,有的看对方头衔,有的纯粹是「聊得来」。同样一条线索,给三个销售看会打出三个完全不同的优先级。这不是销售不专业,是人工打分这件事本身的承载力到顶了。
把这套判断交给 AI 来做,听起来很合理,但真正落地的销售总监会很快发现:模型给的分数和销售的直觉经常对不上,销售不信任分数就不会照着跟进,分数没人用就拿不到反馈数据,模型也就没法迭代——这是一个先有鸡还是先有蛋的死循环。要解开这个结,需要先把「为什么人工打分会失真」想透。
人工打分失真的三个根因
人工给线索打分本质上是销售在脑子里跑一个简化版的概率模型,但人脑这个模型有三个硬伤。第一是经验偏见——一个跟过制造业大客户的销售,看到任何制造业线索都会下意识打高分,哪怕这条线索是个三十人的小厂;一个被中小企业反复拖单的销售,看到员工数小于五十就直接归为 C 类。这种偏见在团队层面会放大,因为销售经理通常也是从某条赛道打出来的,他的偏见会通过分配规则进一步固化。
第二是信息不全。销售打分时通常只看 CRM 里那几个字段:公司名、行业、规模、来源。但真正决定转化的信息往往不在这些字段里——客户最近有没有融资动作、关键决策人最近有没有跳槽、对方公司最近有没有上类似产品的新闻。这些信息散落在公开网络、企查查、行业群里,销售没时间一条条查。
第三是时间滞后。线索进系统的那一刻是评分的最佳时机,但销售通常要等到第一通电话之后才会打分,这中间可能已经过了三五天。线索的「热度」是有半衰期的,一条官网咨询的线索,48 小时内跟进和 72 小时后跟进,转化率差距可能在两到三倍。等销售有空打分时,热度已经凉了一半。
| 失真根因 | 表现 | 业务后果 |
|---|---|---|
| 经验偏见 | 不同销售对同一线索打出 A/B/C 三个标签 | 资源错配,跟进策略混乱 |
| 信息不全 | 只看 CRM 既有字段,外部信号缺失 | 高潜客户被误判为低优 |
| 时间滞后 | 打分动作发生在首次接触之后 | 错过线索热度窗口期 |
线索打分的四个维度
把打分这件事拆开看,无论是人脑还是 AI,本质上都是在评估四个维度。客户画像是基础层,包括行业、规模、所在产业链位置、组织成熟度——这些是相对静态的属性,决定了对方有没有可能买、买得起。行为信号是动态层,包括官网访问深度、白皮书下载、咨询渠道、注册试用、参加线上活动——这些信号反映对方此刻的兴趣强度。
沟通质量是过程层,需要从销售和客户的对话中提取——客户是不是问到了价格、是不是提到了竞品、是不是开始拉同事进群、是不是要求出方案。这些信号过去只能靠销售主观判断,现在 LLM 可以读完沟通记录给出相对客观的评估。时序紧迫度是触发层,比如客户提到「我们 Q3 一定要上线」「下个月预算就要冻结了」「领导让我这周内汇报方案」,这类信号一旦出现,打分权重要立即上调。
| 维度 | 数据来源 | 适合的处理方式 |
|---|---|---|
| 客户画像 | CRM 字段、企查查、官网爬取 | 规则引擎 / 简单分类模型 |
| 行为信号 | 埋点、营销系统、官网日志 | 时序模型 / 衰减加权 |
| 沟通质量 | 通话录音、IM 记录、邮件 | LLM 语义抽取 |
| 时序紧迫度 | 沟通记录中的时间锚点 | LLM + 规则触发器 |
四个维度的权重并不固定,要看企业自身业务节奏。客单价高、决策链长的 to B 业务,画像维度权重要高一些;客单价低、决策快的标准化产品,行为信号和时序紧迫度更重要。
三种主流路径:规则引擎、机器学习、LLM 综合判断
第一种路径是规则引擎,老牌 CRM 自带的打分功能基本都是这一路——预设一堆 if-else,比如「员工数大于 200 加 10 分」「下载过白皮书加 5 分」「邮箱后缀是 gmail 减 8 分」。规则引擎的好处是透明、可解释,销售一眼能看懂为什么这条线索被打到 80 分。坏处是规则需要人工维护,业务一变就得改一遍,而且规则之间的耦合关系一旦超过二十条就没人能讲清楚整体逻辑了。
第二种路径是机器学习模型,常见的是逻辑回归、梯度提升树这一类。把历史成交和未成交的线索标注好,训练一个二分类器,输出一个 0 到 1 之间的概率值。机器学习的优势是能挖掘出人想不到的特征组合——比如「咨询时间在工作日下午 3-5 点 + 来源是搜索引擎 + 留了座机号」这三个条件凑在一起转化率特别高,规则引擎设计者很难凭直觉发现。劣势是黑盒、需要数据量、需要标注,而且模型给出 0.73 这种分数销售根本没法消化。
第三种路径是LLM 综合判断,把客户画像、行为日志、沟通记录拼成一段上下文给 LLM,让它输出一个评分和一段理由。LLM 的强项是处理非结构化数据、能给出可读的解释、能跨维度做综合判断。弱项是慢、贵、不稳定——同一条线索今天打 78 分明天可能打 82 分。
三种路径不是互斥的。开沿在帮客户落地 AI 销售助手时,发现真正能用起来的方案几乎都是三种路径的组合——规则引擎做硬筛和兜底,机器学习模型做主分数,LLM 做解释和异常检测。关于这种组合架构的深层考虑,可以参考 AI Agent 架构模式 中的多模块协作部分。
方案一:钉钉 / SaaS CRM 自带打分——能用但浅
第一类企业,CRM 数据沉淀很少,销售流程标准化程度不高,又想快速看到效果。这类企业最现实的选择是用钉钉智能 CRM 或者外部 SaaS CRM 自带的打分功能。这类内置打分通常基于规则引擎,配置几个关键字段的权重就能跑起来,不需要数据科学团队,不需要额外预算。
能解决的问题是基础的优先级排序——把明显的低质线索(个人邮箱、临时手机号、咨询内容是问招聘)过滤掉,把明显的高质线索(企业邮箱、明确职位、咨询内容是问方案)顶到列表前面。不能解决的问题是细颗粒度的差异化——一条来自八百人电商公司的咨询和一条来自八百人医疗公司的咨询,内置打分基本会给出一样的分数,但实际转化路径完全不同。
适合的场景是:线索总量不大(月入千条以下)、销售团队不超过二十人、产品线相对单一、还没有专门的数字化团队。不适合的场景是:客单价高、决策链复杂、需要多角色协同跟进的 to B 大客户业务。如果纠结自建还是采购,可以参考 CRM 自建还是采购:6 个判断维度 给出的决策框架。
方案二:AI Agent + 自有客户数据——深度但需要数据基础
第二类企业,已经积累了几年的销售数据,CRM 字段相对完整,有沟通记录、有跟进日志、有成交结果。这类企业适合上 AI Agent 方案——基于自有数据训练打分模型,结合 LLM 读沟通记录做综合判断,把结果回写到 CRM。
这种方案的核心不是模型本身,而是数据基础。一条线索从进系统到成交(或丢单)的全链路数据是不是连贯,关键节点是不是有时间戳,沟通记录是不是结构化保存——这些前置工作没做好,AI Agent 跑出来的分数还不如规则引擎。所以这条路真正的工作量在前期数据梳理,模型搭建反而是相对轻的部分。
| 落地环节 | 工作量占比 | 常见卡点 |
|---|---|---|
| 数据梳理与回填 | 40-50% | 历史字段不规范、销售备注不完整 |
| 模型训练与调参 | 15-20% | 样本不均衡、标注质量不一 |
| 业务流程对接 | 20-25% | CRM 字段权限、回写接口稳定性 |
| 销售培训与反馈 | 10-15% | 销售习惯固化、不愿改流程 |
开沿做的 AI Agent 销售助手有一个不太常被提及的实践——让 AI 在打分的同时给出三句话的「跟进建议」,比如「该客户最近在拉同事进群讨论,建议本周内主动约一次方案讲解」。这句建议比那个分数更有价值,因为它直接告诉销售下一步该干什么。关于 AI Agent 在销售场景的更多用法,可以参考 销售 AI 助手实战指南。
方案三:混合架构——规则兜底 + AI 调权 + 销售反馈闭环
第三类企业,已经踩过纯规则引擎的坑(规则越加越多最后没人能改),也试过纯 AI 模型的坑(销售不信任分数不照做),最终走向混合架构。这套架构的核心思路是:用规则保证下限、用 AI 拉高上限、用销售反馈做闭环。
具体怎么搭。第一层是规则兜底——所有线索先过一遍硬规则,把明显的垃圾线索过滤掉,把符合 ICP 的线索打上基础分。这一层保证再差也不会出大错。第二层是AI 调权——机器学习模型在基础分上做加减,LLM 读沟通记录做最终修正,输出一个 0-100 的综合分数加上一段解释。第三层是销售反馈——销售跟进后必须在 CRM 里填一个三选项:「分数偏高」「分数合理」「分数偏低」,这个反馈每周聚合一次,反向修正模型权重。
这套架构的关键是反馈闭环。没有反馈,AI 调权就是在拍脑袋;销售不填反馈,是因为没有看到反馈带来的好处——所以要让销售在他自己的客户列表里能看到「上周你反馈过的分数偏高的客户,本周分数已经调低了」这种可视化变化。当销售感觉到他的反馈真的在影响系统,他才会愿意花十秒钟点那个三选项。
这种闭环设计的本质和 AI 数字员工的 ROI 模型 中提到的「人机协作飞轮」是一回事——AI 提效率、人补盲点、反馈喂数据,三个动作缺一个就跑不起来。
落地前提:CRM 数据完整度 + 销售愿意配合反馈
任何 AI 打分方案落地前,先看两件事。CRM 数据完整度——不是字段有多少,而是关键字段的填写率有多高。如果「成交金额」「丢单原因」「关键决策人头衔」这几个字段的填写率不到 60%,先别想 AI,先把 CRM 用起来。这是个看似简单实则要命的前提,很多公司花几十万上 AI 销售工具最后发现训练数据根本不够干净。
销售愿意配合反馈——AI 打分要持续准,必须有结果反馈喂回模型。如果销售连基本的跟进备注都不愿意写,期待他们提供高质量的分数反馈是不现实的。这个前提的解决方案不是 AI 而是管理——把反馈动作做到极简(一键三选项而不是写文字)、把反馈结果可视化、把反馈数据和销售自己的客户列表联动起来。关于 AI 项目落地前必须确认的客观条件,可以系统性参考 AI Agent 落地前自检清单。
怎么验证 AI 打分准不准:A/B 对照 + 转化漏斗对比
AI 打分上线后最容易出现的尴尬是——没人知道它到底准不准。销售按自己的习惯跟,转化结果归功于销售自己;AI 给的分数挂在那里成了摆设。要验证 AI 打分的真实价值,需要一套对照机制。
最直接的办法是 A/B 对照。把每天新进的线索按某个规则一分为二,A 组按 AI 打分排序分配跟进优先级,B 组按销售习惯分配。跑两到三个月,对比两组的转化率、平均成交周期、平均客单价。这个对比要细到漏斗每一层——不只是看最后成交多少单,还要看从「首次联系」到「需求确认」、从「需求确认」到「方案出具」、从「方案出具」到「成交」每一层的转化率差异。AI 打分可能在最后一层没拉开差距,但在前两层节省了销售大量的无效跟进时间。
| 验证指标 | A 组(AI 排序) | B 组(销售排序) | 解读 |
|---|---|---|---|
| 首次有效沟通率 | 65-75% | 50-60% | AI 帮筛掉了一批无效线索 |
| 需求确认转化率 | 35-45% | 30-40% | 差异可能不大 |
| 最终成交率 | 12-18% | 10-15% | 差异在样本量大时显著 |
| 平均跟进时长 | 缩短 20-30% | 基准 | AI 减少低优线索耗时 |
如果两到三个月跑下来 A 组指标全面领先,AI 打分就站住了。如果只在某几层领先,就要分析模型对哪类信号特别敏感、对哪类信号失灵,针对性调整权重。
决策树:你现在适合走哪条路?
| 你的情况 | 推荐方案 | 投入区间 |
|---|---|---|
| 线索月入千条以下、销售团队 5-20 人、CRM 用了不到一年 | 钉钉 / SaaS CRM 自带打分 + 简单规则配置 | 几千到几万元/年 |
| CRM 数据沉淀 2 年以上、销售流程标准化、有数字化预算 | AI Agent 深度方案 + 自有数据训练 | 数十万元起 |
| 已踩过规则或纯 AI 的坑、销售团队成熟、愿意做闭环 | 混合架构 + 反馈闭环 | 数十万到百万级 |
| ICP 还没想清楚、CRM 字段填写率不到 60% | 先别上 AI,先做数据治理 | 几乎是零外部成本,但人力成本不低 |
四个自检问题,按顺序问自己。第一,过去一年成交客户的画像我们能不能说清楚(行业、规模、决策链、典型预算区间)?第二,CRM 里关键字段的填写率有没有超过 70%?第三,销售团队愿不愿意每周花十分钟给系统反馈?第四,业务方向半年内会不会有大调整?前两个问题任何一个回答「不」,先做基础工作;后两个问题回答「不」,AI 打分方案要慎重考虑落地节奏。
结语
AI 给销售线索打分这件事,本质上不是技术问题,是「人脑判断的不确定性」和「数据驱动的可重复性」之间的协作问题。打分模型再准,销售不信、不用、不反馈,分数就是孤岛。销售再勤奋,没有 AI 帮他筛掉低质线索、提醒他抓住热度窗口,他的产能也会被无效跟进吃掉。两边都不是替代关系,而是把各自擅长的那部分交出来——AI 处理结构化的、可量化的、重复的判断;销售处理细微的、关系的、临场的判断。
真正难的不是搭模型,是让销售在每次跟进结束后愿意花十秒钟告诉系统「这条线索 AI 打的分对不对」。这个十秒钟拿不到,再贵的 AI 项目也只是一份漂亮的演示文档。从这个意义上说,AI 销售线索打分能不能落地,最后考验的是销售管理的颗粒度,而不是 AI 的能力。






