统计学基础：彻底搞懂P值

P 值就是一件事是偶然发生的概率！

P值001.png

今天我们把假设检验、显著性水平、P值、临界值、拒绝域这几个最容易混淆，但在量化研究里又必须掌握的统计概念，一次性讲透、讲明白。

“p值” 具体代表什么含义？
- 是 percent（百分比）？
- 是 possibility（可能性）？
- 还是 preference（偏好）？
  ……

虽然“p-value”这个词经常被提及，但很多人即使听到它，也常常无法给出明确回答。

p-value 中，“p” 是 probability（概率）的缩写——即：在原假设（null hypothesis）成立的前提下，观察到当前样本结果（或更极端结果）的可能性大小。

一、从一个真实量化场景开始

我们先从一个你每天都会遇到的量化场景说起。

你在做因子研究，最近在测试一个新的反转因子。本来你只是随便看看，没抱太大希望。结果跑出来的回测让你大吃一惊：
这个因子连续12个月超额收益为正，月度胜率超过70%，IC稳定在0.03以上，分组收益从第1组到第10组严格单调，多空夏普接近2。

这时候你心里一定会问：
这个表现，到底是因子真的有效，还是纯粹运气好？

按照教科书的理想市场理论，收益率是随机游走的，因子收益应该围绕0上下波动。但在真实量化里，我们不能只信教科书，我们要信数据、信统计、信假设检验。

当一个结果极端到几乎不可能靠随机出现时，我们就有理由判断：
它不是运气，而是真实有效的信号。

而做出这个判断的工具，就是我们今天的核心内容——假设检验与P值。

二、什么是假设检验？核心：原假设 vs 备择假设

首先讲假设检验最基础的一对概念：原假设和备择假设。

我直接给你最专业、最标准、最适合量化的定义：

原假设（H₀）
我们一开始预设的、想要推翻的假设。它代表“无效果、无差异、纯随机”。
在量化里，原假设永远是：
这个因子无效、收益为0、表现全靠运气。
备择假设（H₁）
我们希望证明、想要接受的假设。它代表“有效果、有差异、真实存在”。
在量化里，备择假设就是：
这个因子有效、存在真实超额收益。

为什么统计学会这么设计？
因为证伪比证实更严谨、更可靠。
你想证明一个因子永远有效，几乎不可能；但你想证明“它不可能只是运气”，只需要看它发生的概率有多低。

举个量化例子：
你想证明一个价值因子有效。
你不能一上来就说“它有效”，你必须先假设**“它无效”。
然后用数据去冲击这个假设。
如果数据强到让“无效”这个说法完全站不住脚，我们就拒绝原假设**，相信因子有效。

这就是假设检验的完整逻辑。

三、显著性水平 α：我们能容忍的“犯错概率”

接下来讲第二个关键概念：显著性水平。

它的符号是 α，最常用的数值是 0.05，也就是5%。

我给你一句最直白的解释：
显著性水平，就是我们愿意承担的“把运气当成有效因子”的最大犯错概率。

如果原假设成立的概率，低于我们设定的5%，我们就认为：
这件事在统计上太罕见了，不可能发生，因此拒绝原假设。

简单记：
α = 0.05 = 5%
是量化研究里最通用的标准。

四、P值：量化里最重要的一个统计量

现在到了整节课的核心——P值。

我先给你专业定义，再给你通俗解释：
P值，是在“原假设成立”的前提下，出现当前观测结果，或更极端结果的概率。

放到量化里，这句话翻译成人话就是：
P值 = 这个因子表现这么好，纯粹是运气的概率。

P值越小，说明运气成分越低，因子越靠谱；
P值越大，说明大概率只是随机波动。

我们再回到最开始的例子：
一个完全无效的随机因子，出现“连续12个月正收益、IC稳定、分组单调”的概率是多少？
极低，可能远低于0.05。
这个概率，就是P值。

所以判断规则非常简单：

P ＜ 0.05：运气概率极低 → 拒绝原假设 → 因子显著有效
P ≥ 0.05：运气概率不低 → 不拒绝原假设 → 因子不显著

我给大家一个口诀，一辈子都忘不了：
p小拒原，p大不拒。

五、临界值、拒绝域、显著性水平：三位一体

很多同学会被这三个词绕晕，我用一句话把它们讲清楚：

临界值、拒绝域、显著性水平，是同一个东西的三种面貌。

临界值：一条线，一个数值（比如t值=2）
拒绝域：临界值以外的区域
显著性水平：拒绝域对应的概率面积

在量化里怎么用？
我们计算因子的t值、ICIR，如果它超过临界值、进入拒绝域，就说明结果极端，我们就拒绝原假设。

记住一句话：
定了α，就定了临界值，也就定了拒绝域。
α越小，越严格，越难拒绝原假设。

六、单侧检验 vs 双侧检验：量化该怎么选？

在实际使用中，还有一个小细节：单侧和双侧检验。

单侧检验：只关心“因子收益>0”“IC>0”
量化选股90%用单侧，α直接用0.05。
双侧检验：关心“收益≠0”，可能正可能负
这时α要分成两边，每边α/2=0.025。

你只需要记住：
做选股因子、择时信号，一律用单侧检验。

七、一个最关键的误区：不拒绝≠证明正确

我必须强调一个统计里最严肃的结论：

不拒绝原假设 ≠ 证明原假设是对的。

P值大于0.05，只能说明：
当前数据不够强，不足以推翻“因子无效”的假设。
不代表这个因子一定无效。

统计只负责“推翻”，不负责“证明”。
这一点做量化的同学一定要刻在脑子里。

八、总结

最后我们用三句话总结今天的全部内容：

假设检验：先假设因子无效（原假设），再用数据判断能不能推翻它。
显著性水平α：我们能接受的犯错概率，常用0.05。
P值：因子表现靠运气的概率，P＜0.05→显著有效，P≥0.05→不显著。

一句话收尾：
在量化里，P值就是运气值。P越小，信号越真。