因子积累的探索与踩坑 1.1探究的原因 因为XGB或者MLP等等吧,模型如果需要有好的效果,最核心的不是模型参数或复杂度,而是因子的非线性复杂度要高。核心还是因子。一般作为普通投资者来说,最简单的就是研报复现以及公共平台的因子获取,虽然已经没什么超额了,但也属于“没得选的选择”,所以先试试看吧。本次记录的就是研报复现和平台获取因子的过程。 1.2研报复现的过程 找了上个月最新的一篇研报,叫《20250602-东北证券-盈利偏度和估值偏度因子》,这篇研报主要讲的是:传统偏度研究多聚焦在收...

  ELVES   2025年08月01日   166   0   1 数据API数据清洗数据存储量化策略

探讨因子的本质与检验方法 1.1探究的原因 因子、标签、特征是什么关系,我们买的到底是什么? 因子到底是什么,研究因子如何区别民科还是具备科学的方法? 因子如此重要如何正确的科学检验?因子分布如何看等等 GPlean到底该学什么因子?最后产出什么因子? 论坛都有各种复现和生成因子,不仅有中金的因子手册还有阿尔法101等等,但是归根结底因子到底是什么,其检验和实战意义暂时还没人讨论,在此我讲下我的一些理解,希望大家纠错,共同进步。 1.2因子、标签、特征的关系 1.首先是按照我们做机器学...

  ELVES   2025年06月20日   271   2   0 多因子模型因子大赛

1.1背景 这几天踩了不少数据的坑,趁热打铁总结一下,也希望能帮大家少走点弯路。数据清洗这块,很多人觉得是琐事,其实它对最终策略效果的影响非常大。模型的好坏,很多时候不是算法决定的,而是你喂进去的数据质量决定的。下面我举几个例子,大家就懂了: 1.数据不清洗,就像你要做个火爆肥肠结果菜都没洗,味道能对吗?哈哈哈。 2.第一次拿到因子数据,乍一看数值有点大,就想着直接log一下压缩,结果模型训练完发现还是在学风格因子,整段预测方向跑偏。 3.有些字段比如ROE、净利润增长率,值是0或者极端异常,模...

背景 最近在小安老师建议下做端到端阿尔法模型的构建复现,踩了不少坑,也有一些收获。这篇文章是结合招商证券那篇《端到端的动态Alpha模型》研报的第一部分,以及我自己的实践经验整理出来的,顺便附了我画的图来梳理结构。 一、线性因子模型逐渐失效了? 研报里其实讲得很清楚,线性模型的问题并不只是过时这么简单,而是它在理论假设上就有点站不住脚。比如APT模型假设资产收益率和因子之间是线性关系,而且残差是独立同分布的、无异方差的。但现实中的金融市场,残差往往具有强烈的异方差性和截面相关性。 这也...