探讨因子的本质与检验方法 1.1探究的原因 因子、标签、特征是什么关系,我们买的到底是什么? 因子到底是什么,研究因子如何区别民科还是具备科学的方法? 因子如此重要如何正确的科学检验?因子分布如何看等等 GPlean到底该学什么因子?最后产出什么因子? 论坛都有各种复现和生成因子,不仅有中金的因子手册还有阿尔法101等等,但是归根结底因子到底是什么,其检验和实战意义暂时还没人讨论,在此我讲下我的一些理解,希望大家纠错,共同进步。 1.2因子、标签、特征的关系 1.首先是按照我们做机器学...
1.1背景 这几天踩了不少数据的坑,趁热打铁总结一下,也希望能帮大家少走点弯路。数据清洗这块,很多人觉得是琐事,其实它对最终策略效果的影响非常大。模型的好坏,很多时候不是算法决定的,而是你喂进去的数据质量决定的。下面我举几个例子,大家就懂了: 1.数据不清洗,就像你要做个火爆肥肠结果菜都没洗,味道能对吗?哈哈哈。 2.第一次拿到因子数据,乍一看数值有点大,就想着直接log一下压缩,结果模型训练完发现还是在学风格因子,整段预测方向跑偏。 3.有些字段比如ROE、净利润增长率,值是0或者极端异常,模...
背景 最近在小安老师建议下做端到端阿尔法模型的构建复现,踩了不少坑,也有一些收获。这篇文章是结合招商证券那篇《端到端的动态Alpha模型》研报的第一部分,以及我自己的实践经验整理出来的,顺便附了我画的图来梳理结构。 一、线性因子模型逐渐失效了? 研报里其实讲得很清楚,线性模型的问题并不只是过时这么简单,而是它在理论假设上就有点站不住脚。比如APT模型假设资产收益率和因子之间是线性关系,而且残差是独立同分布的、无异方差的。但现实中的金融市场,残差往往具有强烈的异方差性和截面相关性。 这也...