1.概述 在计算完因子数据之后,进行下一步的模型训练之前,通常需要对因子数据进行预处理,以及中性化处理。其中预处理比较简单,一般就是3倍MAD截断,zscore标准化,缺失值填充为0。中性化稍微复杂一些,本文将从市值中性化开始介绍如何进行市值中性化,下一篇将介绍如何进行行业中性化。 2.市值中性化 2.1市值中性化的必要性与逻辑 市值中性化是因子中性化处理中最常见且重要的一种,其核心目的是剔除因子值中由于市值(Size)因素引起的系统性影响,使得因子能够更纯粹地反映其自身的信息,从而提升因...
开篇:什么是量化投资? 想象你是一个经验丰富的菜市场买菜高手。每次买菜时,你都有自己的一套"规则": 西红柿要挑红润饱满的 价格比平时低20%时大量采购 避开周末人多的时候去买 量化投资就是把这套"买菜经验"用代码写出来,让电脑帮你在股市里"买菜"。 传统投资靠感觉和经验,量化投资靠的是数据+规则+纪律执行。就像用GPS导航代替问路一样,虽然偶尔会绕路,但长期看更靠谱。 为什么从双均线开始? 双均线策略是量化投资的"九九乘法表",简单但包含了完整的投资逻辑: 趋势判断:短期均线长期均线...
1.概述 行业中性化(IndustryNeutralization)旨在从因子中剔除行业所带来的系统性偏差,使因子能够更真实地反映个股的特质(idiosyncraticcharacteristics)。许多因子天然地与特定行业相关联,比如市盈率因子在金融行业普遍较低,而在科技行业可能较高。 行业中性化通常通过分行业去均值或引入行业哑变量回归等方式实现,处理后因子值在行业间趋于均衡,从而避免策略因行业偏好而产生非预期的暴露。经过行业中性化处理的因子,更具普适性和解释力,在多因子模型、因子排序及回...
<fontcolor="brown"一、背景</font Alpha101 <br Verycoarsely,onecanthinkofalphasignalsasbasedonmean-reversionormomentum. <fontcolor="red"大致来说,Alpha信号可基于均值回归或动量来理解。</font  量化交易作为金融市场的重要组成部分,在过去几十年中经历了显著的发展与演变。在这一领域,Alph...
<fontcolor="firebrick"一、背景</font Alpha101 <br Weemphasizethatthe101alphaswepresentherearenot‘toy’alphasbutreal-lifetradingalphasusedinproduction. <fontcolor="red"101个阿尔法因子并非用于理论研究的“玩具”因子,而是在实际交易中使用的真实因子。</font  此前,在《Alp...
上一篇文章我们介绍了高频因子的动量反转类因子,这一篇继续介绍波动率因子,并在因子分析的基础上加入策略回测。 研究环境利用聚宽因子分析API,构建因子函数类;研究在日内高频分钟级数据中挖掘构建高频因子,对该因子进行有效性检验,并利用回测平台进行回测。 一波动率因子 1.1波动率因子构建 第二大类因子为波动率因子。波动率因子刻画了股票价格或股票收益在过去一段时间的不确定性程度,高波动率通常反映其不确定性程度较高,未来收益表现可能相对较弱。  将传统的收益波动、振...
1.概述 这两天看到一个开源项目,[TradingAgents项目GitHub](https://github.com/TauricResearch/TradingAgents)还挺火的,下来来玩了玩,给大家分享下。  这涨星的速度还是可以的。 2.安装 安装就看github上的readme页有介绍。  先把各个库安装好,如果没有安装conda的,需要先安装下conda。 环境安装好之后,还需要设置KEY,一共有两个  Alpha101因子体系如同量化投资领域的一座宝藏,其中101个因子构成了众多投资策略的"地基",始终备受关注。 此前的两篇文章已深入拆解这些因子的设计逻辑及其预测市场走势的底层原理,可参考以下链接获取深度解析: [<fontcolor="pu...
概述 因为高频数据量非常大,若要进行多年度的回测需要大量的时间计算,所以我采用先计算因子值,计算完之后再执行回测,本篇主要分享可以优化的方向以及一些高频数据预处理的发现。 1.高频因子特点 相比低频因子IC半衰期更短 需要更高频的调仓(如日频),带来换手率的增加,但基金业绩表明,即使高频因子的换手率更高,但高频因子的信息收益在合适的控制下仍然高于高换手率的成本 Level2级的数据资讯更多但同时也有更大的噪声 本系列将依照高频数据低频...
<fontcolor="brown"一、背景</font <fontcolor="red"谁是西蒙斯?</font  2019年,我天天对着堆成山的财务报表加班,眼睛都快看花了。Excel和财务软件上跳动的数字突然变得陌生——难道我的人生就要永远困在这些冰冷的账目里?难道我就这样替人做利润表一辈子,自己的财务人生却还是空白? 想起大学时炒股的“黑历史”,看了两本技术指标书后,啥也不懂就瞎买,最后被割得干干净净,成了妥妥的韭菜。但心里一直藏着个梦想:...
1.概述 前段时间搭好了一个多因子框架,从几十个因子里面挑出了5个表现比较好的因子,先进行了MLP的训练,但是因为因子数据太少,模型基本上没学习到什么东西,迭代一次,损失就不再下降了。于是决定采用随机森林模型来训练,这个系列将把自己学习模型过程中的经验分享出来,与大家一同交流。大家都知道,随机森林是由若干决策树组成的,所谓几十个臭皮匠,顶个诸葛亮。那么本文就先分享决策树模型,我们将从零开始实现完整的代码。 2.决策树 我们以下面这个例子为例,假如我们要租房,需要根据西区还是东区以及房间的数量来...
<fontcolor="brown"一、开篇</font <fontcolor="orange"Lifeisshort,youneedPython!</font <fontcolor="red"人生苦短,我用Python!</font  文科生学习量化投资,确实存在诸多门槛。在前文提及的数理、代码、金融、交易这四个维度里,我觉得数理当属最为关键且难度最高的部分。毕竟里面有线性代数、统计、概率论、计量经济这些硬核内容,咱可以先Pass这部分。...
引言 招商证券的这份研究报告代表了传统金融机构在人工智能应用领域的重要探索。作为AI系列研究的第二篇,该报告聚焦于多模型集成技术在量价Alpha策略中的应用,为量化投资提供了一套完整的技术解决方案。 通过深入研读,我发现这份报告最大的价值在于其模型选择的系统性思考和集成策略的实用性设计,为行业提供了宝贵的方法论参考。 --- 第一部分:为什么需要多模型集成? 1.1传统单一模型的根本局限 在量化投资领域,单一模型面临着无法克服的结构性缺陷: 预测精度的天花板效应 即使是最先进的单...
-----想定制魔改qlib因子计算和改用小型数据文件的,希望有帮助----- 今年深圳课上接触到的alphagen,最吸引人的部分是:仅通过表达式就可以快速生成相应因子可在表达式层面高效开展因子探索。意识到引入这个部分对我当前投研数据工作会是一个很大提升。初步了解这部分内容是使用qlib实现的而qlib使用的是MongoDB数据库。初步了解MongoDB后决定暂时放弃(目前只做股票日间交易,A股全市场daily数据1GB左右目前的parquet够用)。 细化一下研究工作域边界和内容:研究q...
一、引言 在量化分析领域,因子库的有效构建与管理是实现精准投资决策的核心环节。为满足因子数据存储与高效分析的需求,选择合适的数据库至关重要。本文专注于本地MongoDB数据库的搭建,以及Python在该数据库配置与因子数据处理中的应用,旨在为量化分析过程中因子库的本地化配置提供系统性的解决方案。  二、MongoDB用于多因子分析的优势 传统的关系型数据库就像一个个整齐排列的小格子房间,每个房间的大小、形状都得提前规定好,东西得规规矩矩地放进去。而Mongo...
上一篇文章我们介绍了高频因子的波动率类因子,这一篇继续介绍高阶特征因子,并在因子分析的基础上加入策略回测。 研究环境利用聚宽因子分析API,构建因子函数类;研究在日内高频分钟级数据中挖掘构建高频因子,对该因子进行有效性检验,并利用回测平台进行回测。 一高阶特征因子 1.1构建方法 第三大类因子为高阶特征因子。高阶特征利用股票高阶矩与其未来收益建立联系,刻画日内价格分布以及快速变化的特征,能够有效反映价格的除动量和波动率这样一阶和二阶特征外更高阶的特征。  将分...
1.概述 笔者最近搭建了一套因子库,参考的是《20230522-招商证券-AI系列研究之一:端到端的动态Alpha模型》附录中的因子,但因子数量还是有限,于是决定引入一些常见的因子库,本文将分享如何用cursor来帮我们快速生成alpha101因子。 2.cursor安装与激活 从官网下载cursor,新注册的用户有免费的使用次数,如果次数用完,可以到某宝上去购买账户,也可以自己充值。  安装好之后,就可以在右边打开对话框,进行对话式编程了,选择@可以指定代码...
1.概述 平时大家搭建自己的因子库,肯定要会涉及到行情数据的下载,因子库的计算入库等工作,股票数据相对来说数量比较大,更新一次需要不少时间,本文将分享如何通过多线程的方式加快数据的下载,以此为例,也可以扩展到其他大数据任务的计算中。 本文使用Tushare作为数据源,下载A股市场所有股票的日线数据(open,high,low,close,vol),我们将分析串行跟并行两种方法在时间效率上的表现。 2.串行下载 串行下载是最直观的实现方式,按顺序逐个处理每只股票的数据下载请求。注册好tushar...