主动买卖,是为了衡量成交是受买方驱动还是卖方驱动。我们使用批量成交划分法来区分买方成交量和卖方成交量,方法如下:
关键创新:用 t 分布实现 “连续映射”。 传统方法(如逐笔对比挂单价)是离散判断(要么主动买,要么主动卖),而这里通过 t() 函数实现了连续划分:当价格变动为正且大时,t() 输出接近 1,主动买入金额接近总成交额;当价格变动为负且大时,t() 输出接近 0,主动买入金额接近0。
批量成交划分法以价格变动作为自变量,为了防止不同个股价格水平不同而在函 数对应法则的适用性上产生变化,做价格变化相对于价格标准差的标准化处理。但 值得注意的是价格变化是指数级别上的变动,以价格上升的过程为例,价格变动将 呈指数级增加,后期价格变动更大,估计主动买入占比更大,但实际从变动幅度上 来看应和之前价格变动稍小的占比水平一致。
为解决价格指数变动的问题,可以以价格一阶导,即收益率作为自变量,一方面其保留了价格变动方向和变动幅度上对主动买卖占比的刻画,另一方面在时间序列上不会存在受价格高低影响的占比估计误差。
由此,我们构建T分布主动占比因子
因子构建过程如下:
𝑁 为因子构建时所包含的全部时间段。
下图展示了该因子在20190101-20221231沪深300 30分钟频数据上的表现:
下图展示了该因子在20190101-20221231中证500 30分钟频数据上的表现:
下图展示了该因子在20190101-20221231中证1000 30分钟频数据上的表现:
基于这个思路,研报构建了一些因子变式:
1.标准正态分布主动占比因子
因子构建过程如下:
下图展示了该因子在20190101-20221231沪深300 30分钟频数据上的表现:
下图展示了该因子在20190101-20221231中证500 30分钟频数据上的表现:
下图展示了该因子在20190101-20221231中证1000 30分钟频数据上的表现:
2.置信正态分布主动占比因子
A 股存在涨跌停限制,个股价格变动幅度一般在-10%到 10%之间,当价格变动到达涨跌停限制甚至溢出时,可以认为是统计上的一次异常变动,以统计下标准正态分布95%置信水平 系数 1.96 为标准,做收益率线性变换后的值到主动买入占比的映射:
因子构建过程如下:
下图展示了该因子在20190101-20221231沪深300 30分钟频数据上的表现:
下图展示了该因子在20190101-20221231中证500 30分钟频数据上的表现:
下图展示了该因子在20190101-20221231中证1000 30分钟频数据上的表现:
3. 均匀分布主动占比因子
不论是𝑡分布还是正态分布,从分布刻画上看,对相同价格变动单位,均认为在价格正向或负向变动初始对主动买卖占比影响更大,即价格变动对主动买卖力量衰退式影响,但真实的分布还存在均匀影响、递增式影响的可能,故本因子研究均匀影响下的估计情况。由于 A 股存在涨跌停限制,个股价格变动幅度一般在-0.1到0.1之间,做原收益率从-0.1至0.1到0至1之间的线性变换:
因子构建过程如下:
但是鉴于股票池中不同股票的涨跌停幅度不同,我将构建过程改为minmax法。
下图展示了该因子在20190101-20221231沪深300 30分钟频数据上的表现:
下图展示了该因子在20190101-20221231中证500 30分钟频数据上的表现:
下图展示了该因子在20190101-20221231中证1000 30分钟频数据上的表现:
参考迪仔老师的建议,我研究了一下成交额本身的分布情况,结果如下:
我发现数据本身更接近对数正态分布,因此我加上了在对数正态分布下的主动成交占比因子。
下图展示了该因子在20190101-20221231沪深300 30分钟频数据上的表现:
下图展示了该因子在20190101-20221231中证500 30分钟频数据上的表现:
下图展示了该因子在20190101-20221231中证1000 30分钟频数据上的表现:
总结来看,正态分布下因子在中证1000股票池中表现相对较好。