上一篇文章我们对单品种时序策略建模的整体流程做了介绍。从这篇文章开始,我们逐一对每个步骤进行较为细致的探讨,看看如何从最底层构建完整的时序模型框架。 一般来说,在机器学习的各个环节中,数据的重要性大于特征,特征的重要性大于模型。所谓"GarbageIn,GarbageOut",数据的好坏决定了模型预测的上限。这一篇我们细致探讨一下数据处理中的一些常见操作。 一k线合成 以期货为例,我们看到的所有的行情数据都来源于交易所的tick级切片数据,为500毫秒对盘口报价的一个切片。通常包含的数据有:...
当前市场上的量化策略常见的为多因子截面,主要应用于股票市场。而期货市场、数字货币等因标的数量的限制,不容易构造有效的截面,以单品种时序策略为主。比如技术指标等规则类策略,机器学习类策略较少。本篇我们探索用机器学习的方法为单品种时序策略建模,并逐步构建完整的量化策略。 根据机器学习的处理流程,可以按以下步骤来做:数据准备-标签标注-特征构建-模型构建-回测与上线几大步骤。 一数据准备 以期货为例,我们可以从数据供应商那里下载行情数据,基本为不同时间间隔的k线。期货k线数据通常包含价格的高开低...
上一篇文章我们介绍了高频因子的流动性因子、量价相关性因子,这一篇继续介绍筹码分布因子,并在因子分析的基础上加入策略回测。 研究环境利用聚宽因子分析API,构建因子函数类;研究在日内高频分钟级数据中挖掘构建高频因子,对该因子进行有效性检验,并利用回测平台进行回测。 一筹码分布因子 1.1因子介绍 第六大类因子为筹码分布因子。筹码分布旨在刻画股票持有人的持仓成本分布情况。筹码分布能够直观地展示不同价格区间上的持仓数量,从而帮助投资者判断市场的平均持仓成本。如果大部分筹码集中在较低的价格区间,说...
上一篇文章我们介绍了高频因子的高阶特征因子,这一篇继续介绍流动性因子、量价相关性因子,并在因子分析的基础上加入策略回测。 研究环境利用聚宽因子分析API,构建因子函数类;研究在日内高频分钟级数据中挖掘构建高频因子,对该因子进行有效性检验,并利用回测平台进行回测。 一流动性因子 1.1因子介绍 第四大类因子为流动性因子。流动性刻画股票交易所需要的时间和成本,一般来说,流动性较差的个股通常有更高的预期收益,这是对流动性风险的风险补偿。因此,流动性因子通常表现为流动性越低,未来收益越高的特征(也会...
上一篇文章我们介绍了高频因子的波动率类因子,这一篇继续介绍高阶特征因子,并在因子分析的基础上加入策略回测。 研究环境利用聚宽因子分析API,构建因子函数类;研究在日内高频分钟级数据中挖掘构建高频因子,对该因子进行有效性检验,并利用回测平台进行回测。 一高阶特征因子 1.1构建方法 第三大类因子为高阶特征因子。高阶特征利用股票高阶矩与其未来收益建立联系,刻画日内价格分布以及快速变化的特征,能够有效反映价格的除动量和波动率这样一阶和二阶特征外更高阶的特征。  将分...
上一篇文章我们介绍了高频因子的动量反转类因子,这一篇继续介绍波动率因子,并在因子分析的基础上加入策略回测。 研究环境利用聚宽因子分析API,构建因子函数类;研究在日内高频分钟级数据中挖掘构建高频因子,对该因子进行有效性检验,并利用回测平台进行回测。 一波动率因子 1.1波动率因子构建 第二大类因子为波动率因子。波动率因子刻画了股票价格或股票收益在过去一段时间的不确定性程度,高波动率通常反映其不确定性程度较高,未来收益表现可能相对较弱。  将传统的收益波动、振...
上一篇文章中我们对高频因子的优势和类型做了简要介绍,从这篇文章开始,我们将对每一大类因子做介绍,并从中选取具体一例因子,实现从数据构建到测试评估的整个过程。 研究环境利用聚宽因子分析API,构建因子函数类;研究在日内高频分钟级数据中挖掘构建高频因子,并对该因子进行有效性检验。 一、动量反转因子 1.1动量反转因子 第一类因子为动量反转因子。动量反转因子通常由过去一段时间的特定类型的涨跌幅构造,其因子收益一方面可能来源于非理性投资者的行为偏差造成的错误定价,另一方面也可能来源于承担特定风险获得...
一概述 市场对日频及以上频率的量价因子研究由来已久,也比较成熟。相对而言,高频因子研究较为新颖,拥挤度较低,有效性也较高。中金公司的研报《量化多因子系列12:高频因子手册》比较系统的介绍了高频因子的构建及表现,对于我们挖掘高频因子有较好的指导作用。 1.1高频因子的优势 高频因子主要是以股票日内交易价量、逐笔成交、逐笔委托以及分钟k线等数据为基础构建的。捕捉日内交易行为,维度更高,能刻画更精细的市场行为。相对中低频因子,高频因子的优势在于(1)信息含量更为丰富。高频数据量比低频数据大几个量...