ELVES - PandaAI社区

# 因子积累的探索与踩坑

因子积累的探索与踩坑 1.1探究的原因因为XGB或者MLP等等吧，模型如果需要有好的效果，最核心的不是模型参数或复杂度，而是因子的非线性复杂度要高。核心还是因子。一般作为普通投资者来说，最简单的就是研报复现以及公共平台的因子获取，虽然已经没什么超额了，但也属于“没得选的选择”，所以先试试看吧。本次记录的就是研报复现和平台获取因子的过程。 1.2研报复现的过程找了上个月最新的一篇研报，叫《20250602-东北证券-盈利偏度和估值偏度因子》，这篇研报主要讲的是：传统偏度研究多聚焦在收...

ELVES 2025年08月01日 166 0 1 数据API 数据清洗数据存储量化策略

探讨因子的本质与检验方法

探讨因子的本质与检验方法 1.1探究的原因因子、标签、特征是什么关系，我们买的到底是什么？因子到底是什么，研究因子如何区别民科还是具备科学的方法？因子如此重要如何正确的科学检验？因子分布如何看等等 GPlean到底该学什么因子？最后产出什么因子？论坛都有各种复现和生成因子，不仅有中金的因子手册还有阿尔法101等等，但是归根结底因子到底是什么，其检验和实战意义暂时还没人讨论，在此我讲下我的一些理解，希望大家纠错，共同进步。 1.2因子、标签、特征的关系 1.首先是按照我们做机器学...

ELVES 2025年06月20日 271 2 0 多因子模型因子大赛

精线性因子到端到端模型的尝试（二）：提供数据集+训练代码

1.1背景这几天踩了不少数据的坑，趁热打铁总结一下，也希望能帮大家少走点弯路。数据清洗这块，很多人觉得是琐事，其实它对最终策略效果的影响非常大。模型的好坏，很多时候不是算法决定的，而是你喂进去的数据质量决定的。下面我举几个例子，大家就懂了： 1.数据不清洗，就像你要做个火爆肥肠结果菜都没洗，味道能对吗？哈哈哈。 2.第一次拿到因子数据，乍一看数值有点大，就想着直接log一下压缩，结果模型训练完发现还是在学风格因子，整段预测方向跑偏。 3.有些字段比如ROE、净利润增长率，值是0或者极端异常，模...

ELVES 2025年05月23日 206 0 0 数据清洗机器学习中频交易多因子模型机器学习模型

精线性因子到端到端模型的实战系列（一）开篇

背景最近在小安老师建议下做端到端阿尔法模型的构建复现，踩了不少坑，也有一些收获。这篇文章是结合招商证券那篇《端到端的动态Alpha模型》研报的第一部分，以及我自己的实践经验整理出来的，顺便附了我画的图来梳理结构。一、线性因子模型逐渐失效了？研报里其实讲得很清楚，线性模型的问题并不只是过时这么简单，而是它在理论假设上就有点站不住脚。比如APT模型假设资产收益率和因子之间是线性关系，而且残差是独立同分布的、无异方差的。但现实中的金融市场，残差往往具有强烈的异方差性和截面相关性。这也...

ELVES 2025年05月16日 281 0 1 机器学习多因子模型策略讨论机器学习模型量化策略