机器学习
机器学习标签描述

背景 最近在小安老师建议下做端到端阿尔法模型的构建复现,踩了不少坑,也有一些收获。这篇文章是结合招商证券那篇《端到端的动态Alpha模型》研报的第一部分,以及我自己的实践经验整理出来的,顺便附了我画的图来梳理结构。 一、线性因子模型逐渐失效了? 研报里其实讲得很清楚,线性模型的问题并不只是过时这么简单,而是它在理论假设上就有点站不住脚。比如APT模型假设资产收益率和因子之间是线性关系,而且残差是独立同分布的、无异方差的。但现实中的金融市场,残差往往具有强烈的异方差性和截面相关性。 这也...

1.1背景 这几天踩了不少数据的坑,趁热打铁总结一下,也希望能帮大家少走点弯路。数据清洗这块,很多人觉得是琐事,其实它对最终策略效果的影响非常大。模型的好坏,很多时候不是算法决定的,而是你喂进去的数据质量决定的。下面我举几个例子,大家就懂了: 1.数据不清洗,就像你要做个火爆肥肠结果菜都没洗,味道能对吗?哈哈哈。 2.第一次拿到因子数据,乍一看数值有点大,就想着直接log一下压缩,结果模型训练完发现还是在学风格因子,整段预测方向跑偏。 3.有些字段比如ROE、净利润增长率,值是0或者极端异常,模...

引言 招商证券的这份研究报告代表了传统金融机构在人工智能应用领域的重要探索。作为AI系列研究的第二篇,该报告聚焦于多模型集成技术在量价Alpha策略中的应用,为量化投资提供了一套完整的技术解决方案。 通过深入研读,我发现这份报告最大的价值在于其模型选择的系统性思考和集成策略的实用性设计,为行业提供了宝贵的方法论参考。 --- 第一部分:为什么需要多模型集成? 1.1传统单一模型的根本局限 在量化投资领域,单一模型面临着无法克服的结构性缺陷: 预测精度的天花板效应 即使是最先进的单...

上篇[基于《AI系列研究之二:多模型集成量价Alpha策略》理论分析](https://www.pandaai.online/community/article/90) 本篇文章会对其中各部分进行代码研究 项目需求分析与技术架构设计 业务需求梳理 项目的核心目标是构建一个多模型股票预测系统,具体需求包括: 数据层面的要求: 股票池:全A股票市场,但需要剔除ST、ST股票、退市股票以及上市不满三个月的新股 数据源:使用数据库中的日线量价数据,包含高开低收价格、成交量以及市值信息 预测目标:T+1日至T+11日的复权日内VWAP价格收益率 数据预处理:采用3倍MAD截断、zscore标...

  Co   7小时前   4   0   0 Pythonc#机器学习机器学习模型

1.引言 招商证券发布的这篇研究报告《AI系列研究之一:端到端的动态Alpha模型》探讨了一种基于深度神经网络的动态Alpha因子模型,旨在解决传统线性Alpha模型的局限性。这项研究不仅展示了机器学习在量化金融领域的应用,也为投资决策提供了新的思路和方法。本文将详细分析报告中提出的模型架构、实验设计、创新点以及实际效果。 2.传统因子投资框架及其局限性 2.1传统多因子Alpha模型的构建流程 传统的多因子Alpha模型构建一般包括以下步骤: 单因子研究与筛选 因子预处理(异常值处理、标准...

上篇[基于《AI系列研究之一:端到端的动态Alpha模型》理论分析](https://www.pandaai.online/community/article/77) 本篇文章会对其中各部分进行代码研究 大概流程划分为下 ![1.png](1) 数据清洗 目的 保证输入数据的质量,剔除不符合要求的样本。 减少后续特征工程和模型训练的偏差。 过滤掉ST和退市股,可避免模型学到噪声或极端异常;空值剔除确保计算指标和归一化不出错。 python defget_all_stocks(self,e...

  Co   22天前   97   0   4 机器学习Python历史数据