技术白皮书

概率预测系统(Probabilistic Forecasting System)

—— 不确定性下的智能决策引擎

文档版本 发布日期 作者 适用领域
v1.0 2026-04-18 AI Technical Architecture Group 金融风控 / 供应链 / B2B销售 / 工业物联网

摘要

传统预测系统输出单一数值(如“下周销量=1000件”),在真实世界中往往因忽略不确定性而导致决策失误。概率预测系统(Probabilistic Forecasting System,简称PFS) 输出完整的概率分布,量化预测的不确定性,为风险决策、库存优化、资源调度提供科学依据。

本文提出一套端到端的概率预测技术架构,涵盖数据预处理、概率模型族(含时序模型、回归模型、深度学习模型)、不确定性量化方法、评估指标体系,以及B2B场景下的落地实践。


1. 背景与问题定义

1.1 确定性预测的局限性

问题 示例
无法表达置信度 “下周销量1000件”——实际可能是800~1200,也可能是500~2000
极端值风险被隐藏 预测均值正常,但5%概率发生灾难性缺货
决策无法分层 激进vs保守策略需要不同分位数

1.2 概率预测的价值

从“告诉我会发生什么”到“告诉我可能发生什么,以及每种可能的概率”

  • ✅ 量化风险

  • ✅ 支持置信区间决策

  • ✅ 实现库存、预算、人力的概率优化


2. 核心概念与定义

2.1 定义

概率预测系统(PFS) 是一类输出预测结果的概率分布(而非单一点估计)的预测系统,能够给出任意目标值出现的概率、预测区间、分位数以及完整的密度函数。

2.2 典型输出形式

输出类型 示例
预测区间 “90%概率下,下周销量在[850, 1150]之间”
分位数 “Q50=1000, Q10=850, Q90=1150”
概率密度函数 “销量=950的概率为0.8%”
累积分布函数 “销量≤900的概率为15%”
情景概率 “缺货概率=8%,爆仓概率=3%”

2.3 与确定性预测的本质区别

维度 确定性预测 概率预测
输出 单一数值 概率分布
不确定性表达 完整量化
风险决策支持
模型类型 点估计模型 分布估计模型

3. 技术架构

PFS采用五层架构,形成从数据到决策的完整链路。

text
原始数据 → 数据层 → 特征层 → 概率预测层 → 决策层
                              │
              ┌───────────────┼───────────────┐
              ▼               ▼               ▼
         时序概率模型    回归概率模型    深度学习概率模型
              │               │               │
              └───────────────┼───────────────┘
                              ▼
                        不确定性量化
                              │
                              ▼
                    概率评估与校准

3.1 数据层(Data Layer)

  • 时序数据(销量、流量、温度)

  • 横截面数据(用户属性、产品属性)

  • 事件数据(促销、天气、节假日)

3.2 特征层(Feature Layer)

  • 时间特征(周期、趋势、季节性)

  • 外生特征(价格、营销、竞品)

  • 交互特征

3.3 概率预测层(Probabilistic Forecasting Layer)

3.3.1 时序概率模型

模型 特点 适用场景
概率ARIMA 经典、可解释 稳定时序
GARCH 波动率建模 金融波动
贝叶斯结构时序(BSTS) 因果推断+不确定性 含干预事件的时序
Prophet(概率版) 易用、鲁棒 商业KPI预测

3.3.2 回归概率模型

模型 不确定性来源 输出形式
分位数回归 不同分位数分别建模 任意分位数
贝叶斯线性回归 参数后验分布 预测分布
高斯过程回归 函数空间先验 均值和方差

3.3.3 深度学习概率模型

模型 架构特点 输出形式
DeepAR (Amazon) RNN + 似然参数输出 负二项/高斯分布参数
N-BEATS 残差+可解释性 点估计+区间
Transformer (概率版) Attention + 分位数输出 多分位数
贝叶斯神经网络 Dropout近似贝叶斯 预测分布

3.4 不确定性量化层(Uncertainty Quantification)

PFS区分并量化三种不确定性来源:

不确定性类型 来源 是否可降低
偶然不确定性(Aleatoric) 数据本身噪声
认知不确定性(Epistemic) 模型知识不足 是(更多数据)
分布不确定性(Distributional) 数据分布变化 部分可检测

总预测方差 = 偶然方差 + 认知方差 + 分布漂移方差

3.5 决策层(Decision Layer)

将概率分布转化为具体业务动作:

  • 库存优化:基于分位数设置安全库存(如Q95)

  • 风控审批:违约概率 > 阈值则拒绝

  • 销售目标:P50为保底目标,P75为挑战目标

  • 资源调度:按预测区间配置弹性资源


4. 评估指标体系

概率预测需要专门的评估指标,单一RMSE/MAPE不再适用。

4.1 分位数评估

指标 公式 含义
分位数损失(Quantile Loss) ρ_τ(y - ŷ) 非对称损失,低估/高估惩罚不同
Winkler Score 区间宽度 + 超出惩罚 预测区间质量

4.2 分布评估

指标 含义 理想值
CRPS(Continuous Ranked Probability Score) 累积分布与真实值的距离 越小越好
对数似然(Log-Likelihood) 真实值在预测分布下的概率 越大越好

4.3 校准度评估

指标 含义 理想值
概率积分变换(PIT) 均匀性检验 均匀分布
校准曲线 预测概率 vs 实际频率 对角线

4.4 评估指标体系图

text
概率预测评估
    ├── 准确度(CRPS、分位数损失)
    ├── 校准度(PIT、校准曲线)
    ├── 锐度(预测区间宽度)
    └── 计算效率(训练/推理时间)

5. 典型应用场景

5.1 供应链需求预测

业务问题:下月某SKU备货量

确定性预测:10000件 → 要么缺货,要么积压

概率预测输出

  • P10 = 8000(保守备货)

  • P50 = 10000(基准备货)

  • P90 = 13000(激进备货)

决策:设置安全库存为P95 = 12500件,缺货概率控制在5%以内

5.2 B2B销售线索评分

业务问题:某线索在未来30天内成单的概率

概率预测输出

  • 成单概率 = 23%

  • 成单金额分布:Q50=5万,Q90=12万

决策:概率 > 20% 且金额 > 3万 → 分配SDR跟进

5.3 工业设备故障预警

业务问题:未来7天内设备故障概率

概率预测输出

  • 故障概率 = 8%(24h)、18%(72h)、35%(7d)

决策:72h概率 > 15% → 触发预防性维护工单

5.4 金融风控

业务问题:贷款申请违约概率

概率预测输出

  • PD = 4.2%(违约概率)

  • EAD = 85%(违约时风险敞口)

  • LGD = 35%(违约时损失率)

决策:EL = PD × EAD × LGD = 1.25% → 定价覆盖率


6. 与确定性预测的对比实验(示例)

维度 确定性预测(点估计) 概率预测(分布)
预测值 1000 Q50=1000, Q90=1300
实际值 1250 1250
绝对误差 250
是否在区间内 无法判断 ✅ 在90%区间内
备货建议 1000件 保守备1250件(P90)
缺货概率 无法给出 约10%

7. 实施路线图(MVP → 成熟)

阶段一:基础分位数预测(1~2周)

  • 选择1~2个核心业务指标

  • 使用分位数回归或LightGBM分位数版本

  • 输出P10、P50、P90

阶段二:时序概率模型(2~4周)

  • 引入DeepAR或Prophet概率版

  • 输出完整预测区间

  • 建立CRPS评估体系

阶段三:不确定性量化 + 校准(4~6周)

  • 区分偶然/认知不确定性

  • 实现PIT校准诊断

  • 添加模型不确定性校准层

阶段四:决策自动化(持续)

  • 将分位数直接接入库存/风控/调度系统

  • 建立反馈闭环,定期重校准


8. 常见挑战与应对

挑战 应对策略
数据稀疏 使用分层贝叶斯模型,借力全局信息
分布漂移 引入在线学习 + 漂移检测(如DDM)
计算开销 分位数直接输出(如LightGBM)vs 完整分布(MCMC采样权衡)
业务接受度 从“预测区间”开始,逐步引入概率概念

9. 总结

概率预测系统(PFS) 是确定性预测的下一代范式。

它不是“更复杂的预测模型”,而是更诚实的预测系统——承认不确定性、量化不确定性、利用不确定性做出更优决策。

对于供应链、金融、B2B销售、工业运维等需要风险决策的领域,PFS将从“锦上添花”变为“基础设施”。

确定性预测告诉你平均值,概率预测告诉你全部可能性。


附录

A. 推荐工具与库

工具 适用场景
Prophet(Meta) 商业KPI快速概率预测
DeepAR(Amazon/GluonTS) 大规模时序概率预测
LightGBM(分位数) 表格数据分位数回归
Pyro / NumPyro 贝叶斯概率编程
scikit-learn(GPR) 高斯过程回归

B. 推荐阅读

  • Gneiting, T., & Katzfuss, M. (2014). Probabilistic Forecasting

  • Amazon Science: DeepAR: Probabilistic Forecasting with Autoregressive Recurrent Networks

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注