我们运用统计上的显著性来检验因子是否有效。但是简单地使用统计检验得到的因子有时并不一定是靠“实力”, 还有很大一部分“运气”成分。我们把显著性水平设为 α,如果我们检测 100 个因子,至少有 1 个因子显著的概率 高达 1 − (1 − 5%)^100 = 99.4%!因此,单纯检验每一个因子存在缺陷,我们需要引入多重检验的方法,同时检验多个假设(hypothesis)。
一、多重检验(multiple testing)
1.1 核心思想
多重检验的核心思想可分为两种。一种是为了控制家族错误率(Family-wise Error Rate, FWER),方法包含 Bonferroni 方法和 Holm 方法。另一种是为了控制错误发现率 (False Discovery Rate, FDR),方法包括 BHY 方法。 控制错误发现率相比于控制家族错误率来说要求更宽松。
1.2 Bonferroni 方法
1.3 Holm 方法
1.4 BHY 方法
BHY 方法如何控制错误发现率的严格证明可参考 Benjamini, Y. and Y. Hochberg (1993). Controlling the False Discovery Rate: A Practical and Powerful Approach to Multiple Testing. Journal of the Royal Statistical Society, Series B, Vol. 57, 289 –300.
二、回归检验(regression testing)
2.1 变量定义
2.2 步骤推导
2.2.1 去均值(Demean)与因子处理
2.2.2 回归模型
2.2.3 Bootstrap 检验
2.2.4 完整步骤
对所有 M 个因子分别正交化(demean),然后使用 Bootstrap 重采样进行反复多次的大量实验。每个实验中,单 独使用 M 个正交化后的因子和所有资产收益率回归,得到每个因子的 αi(pricing error )绝对值中位数的最小值。 大量 Bootstrap 实验便得到了经验分布。根据原样本计算所有因子的统计值,p 值最小的就作为第一个被选出来的 显著因子。在接下来的步骤中,使用第一个选出来的因子正交化其余 M-1 个因子。然后用第一个选出来的因子和 正交化之后的每个剩余因子独立对所有资产进行回归分析,得到考虑了每个剩余因子的 pricing error 绝对值的中位 数的最小值。大量 Bootstrap 实验便得到了经验分布。根据原样本计算所有剩余因子的统计值,p 值最小的就作为 第二个被选出来的显著因子。以此类推。
完整版论文请参照 Harvey, C. R. and Y. Liu (2015b). Lucky Factors. Working paper, available at https: //jacobslevycenter.wharton.upenn.edu/wp-content/uploads/2015/05/Lucky-Factors.pdf.