中金公司《高频因子手册》分享
  迪仔 22天前 111 0

一 概述

市场对日频及以上频率的量价因子研究由来已久,也比较成熟。相对而言,高频因子研究较为新颖,拥挤度较低,有效性也较高。中金公司的研报《量化多因子系列12:高频因子手册》比较系统的介绍了高频因子的构建及表现,对于我们挖掘高频因子有较好的指导作用。

1.1 高频因子的优势

高频因子主要是以股票日内交易价量、逐笔成交、逐笔委托以及分钟k线等数据为基础构建的。捕捉日内交易行为,维度更高,能刻画更精细的市场行为。相对中低频因子,高频因子的优势在于(1)信息含量更为丰富。高频数据量比低频数据大几个量级,描述的是更为精细的市场行为。(2)因子拥挤度低。高频因子数据量大,处理起来更为复杂,拥挤度相对较低。(3)因子相关性低。高频因子维度更多,处理方式更为丰富,相关性也较低。高频因子的难点在于数据维度大,噪声高,因子挖掘对信息处理能力和处理效率都有较高要求,通常可以使用机器学习模型处理。
fig1.png

1.2 高频因子的构建

中金公司的研报《量化多因子系列12:高频因子手册》介绍了79个高频因子,按构建方式可以分为8大类:动量反转、波动性、高阶特征、流动性、量价相关性、筹码分布、拥挤度和成交行为因子。最终根据因子表现每一类构建出一个复合因子。因子构建使用日度数据,本身频率为日频,当换仓频率为周度或月度时需要将日度数据聚合至每一期期末使用。共有四种处理方法:每期取最后一个有效值,后缀为“_o”;每期取当期算术平均,后缀为“_m”;每期取 z-score 标准分:“_z”;每期取当期标准差:“_std”。
fig2.png

1.3 高频数据类型

高频因子使用的数据属于level2数据,包括快照(10档盘口数据)、逐笔委托、逐笔成交数据。相对level1数据来讲,level2数据展示了更加深度的报价和订单量(level1数据仅有5档),还包含了市场上眉笔交易指令对应的委托和成交,颗粒度最细。理论上通过逐笔数据可以重构订单薄从而获得全部买卖盘口信息。此外可以通过快照数据合成分钟级别的k线。分钟k线、快照数据、逐笔数据从数据的维度和复杂度依次上升。
fig3.png

1.4 高频因子测试及评价

对于因子测试及评价,研报对高频价量因子进行 IC 检验和分组回测检验,展示不同因子的有效性水平。并对各类因子在全市场、沪深 300、中证 500 和中证 1000 进行 IC 检验与分组回测检验,分析不同因子收益率预测的稳定性、单调性、有效性和与其他常见因子的相关性。测试结果显示高频因子有效比例较高,在全市场范围内多个因子周度年化多空收益夏普超5.0,多头信息比率超3.0,因子池中近 3 成因子月度IC均值绝对值超 5%,月度ICIR超 0.65。但与低频价量因子类似,高频因子表现随股票池平均市值增加有效性明显呈线性下降。
下篇文章将具体介绍各类高频因子的构建方式和表现。

最后一次编辑于 22天前 0

暂无评论

推荐阅读