《分布估计下的主动成交占比》研报复现
  18958283423 14天前 71 3

主动买卖,是为了衡量成交是受买方驱动还是卖方驱动。我们使用批量成交划分法来区分买方成交量和卖方成交量,方法如下:
image.png
image.png
关键创新:用 t 分布实现 “连续映射”。 传统方法(如逐笔对比挂单价)是离散判断(要么主动买,要么主动卖),而这里通过 t() 函数实现了连续划分:当价格变动为正且大时,t() 输出接近 1,主动买入金额接近总成交额;当价格变动为负且大时,t() 输出接近 0,主动买入金额接近0。

批量成交划分法以价格变动作为自变量,为了防止不同个股价格水平不同而在函 数对应法则的适用性上产生变化,做价格变化相对于价格标准差的标准化处理。但 值得注意的是价格变化是指数级别上的变动,以价格上升的过程为例,价格变动将 呈指数级增加,后期价格变动更大,估计主动买入占比更大,但实际从变动幅度上 来看应和之前价格变动稍小的占比水平一致。

为解决价格指数变动的问题,可以以价格一阶导,即收益率作为自变量,一方面其保留了价格变动方向和变动幅度上对主动买卖占比的刻画,另一方面在时间序列上不会存在受价格高低影响的占比估计误差。

由此,我们构建T分布主动占比因子
因子构建过程如下:
image.png
𝑁 为因子构建时所包含的全部时间段。

下图展示了该因子在20190101-20221231沪深300 30分钟频数据上的表现:
image.png
image.png
image.png

下图展示了该因子在20190101-20221231中证500 30分钟频数据上的表现:
image.png
image.png
image.png

下图展示了该因子在20190101-20221231中证1000 30分钟频数据上的表现:
image.png
image.png
image.png

基于这个思路,研报构建了一些因子变式
1.标准正态分布主动占比因子
因子构建过程如下:
image.png

下图展示了该因子在20190101-20221231沪深300 30分钟频数据上的表现:
image.png
image.png
image.png

下图展示了该因子在20190101-20221231中证500 30分钟频数据上的表现:
image.png
image.png
image.png

下图展示了该因子在20190101-20221231中证1000 30分钟频数据上的表现:
image.png
image.png
image.png

2.置信正态分布主动占比因子
A 股存在涨跌停限制,个股价格变动幅度一般在-10%到 10%之间,当价格变动到达涨跌停限制甚至溢出时,可以认为是统计上的一次异常变动,以统计下标准正态分布95%置信水平 系数 1.96 为标准,做收益率线性变换后的值到主动买入占比的映射:
因子构建过程如下:
image.png

下图展示了该因子在20190101-20221231沪深300 30分钟频数据上的表现:
image.png
image.png
image.png

下图展示了该因子在20190101-20221231中证500 30分钟频数据上的表现:
image.png
image.png
image.png

下图展示了该因子在20190101-20221231中证1000 30分钟频数据上的表现:
image.png
image.png
image.png

3. 均匀分布主动占比因子
不论是𝑡分布还是正态分布,从分布刻画上看,对相同价格变动单位,均认为在价格正向或负向变动初始对主动买卖占比影响更大,即价格变动对主动买卖力量衰退式影响,但真实的分布还存在均匀影响、递增式影响的可能,故本因子研究均匀影响下的估计情况。由于 A 股存在涨跌停限制,个股价格变动幅度一般在-0.1到0.1之间,做原收益率从-0.1至0.1到0至1之间的线性变换:
因子构建过程如下:
image.png

但是鉴于股票池中不同股票的涨跌停幅度不同,我将构建过程改为minmax法。

下图展示了该因子在20190101-20221231沪深300 30分钟频数据上的表现:
image.png
image.png
image.png

下图展示了该因子在20190101-20221231中证500 30分钟频数据上的表现:
image.png
image.png
image.png

下图展示了该因子在20190101-20221231中证1000 30分钟频数据上的表现:
image.png
image.png
image.png

参考迪仔老师的建议,我研究了一下成交额本身的分布情况,结果如下:
image.png
image.png
image.png
image.png
image.png

我发现数据本身更接近对数正态分布,因此我加上了在对数正态分布下的主动成交占比因子。

下图展示了该因子在20190101-20221231沪深300 30分钟频数据上的表现:
image.png
image.png
image.png

下图展示了该因子在20190101-20221231中证500 30分钟频数据上的表现:
image.png
image.png
image.png

下图展示了该因子在20190101-20221231中证1000 30分钟频数据上的表现:
image.png
image.png
image.png

总结来看,正态分布下因子在中证1000股票池中表现相对较好。

最后一次编辑于 14天前 0

我爱马齿苋

现在市面炒股软件上的主动买卖标志是各自估计的吗?

2025-08-20 16:13:50      回复

我爱马齿苋

不是交易所给的信息?

2025-08-20 16:14:16 回复

18958283423

如果是tick级数据,那么就是最精确的,但是有时候我们只能拿到一段时间集合的数据,那么我们就要进行估计

2025-08-22 09:03:35 回复

推荐阅读
  18958283423   2025年07月28日   107   0   0 学习资源