各类机器学习模型常见的应用场景 1.1机器学习在量化交易当中的底层逻辑 -量化交易的核心是通过数据,统计,找出市场的规律,从而预测市场走势, 常见的规律有线性规律与非线性规律, 而机器学习就像一个“数据翻译官”,能从海量金融数据中找出非线性规律 核心逻辑:用历史数据训练模型,让模型学会“识别”数据中的模式(如价格波动、因子相关性等),再用这些模式预测未来市场变化,辅助交易决策。 1.2二级标题 1.二、常见模型原理与应用场景 1.决策树(DecisionTree) 原理: 像“层层问答”的流程图,通过不断问问题(如“价格是否突破20日均线?”“成交量是否放大?”)将数据分成不同类别。 ...
因子积累的探索与踩坑 1.1探究的原因 因为XGB或者MLP等等吧,模型如果需要有好的效果,最核心的不是模型参数或复杂度,而是因子的非线性复杂度要高。核心还是因子。一般作为普通投资者来说,最简单的就是研报复现以及公共平台的因子获取,虽然已经没什么超额了,但也属于“没得选的选择”,所以先试试看吧。本次记录的就是研报复现和平台获取因子的过程。 1.2研报复现的过程 找了上个月最新的一篇研报,叫《20250602-东北证券-盈利偏度和估值偏度因子》,这篇研报主要讲的是:传统偏度研究多聚焦在收...
1.概述 前段时间搭好了一个多因子框架,从几十个因子里面挑出了5个表现比较好的因子,先进行了MLP的训练,但是因为因子数据太少,模型基本上没学习到什么东西,迭代一次,损失就不再下降了。于是决定采用随机森林模型来训练,这个系列将把自己学习模型过程中的经验分享出来,与大家一同交流。大家都知道,随机森林是由若干决策树组成的,所谓几十个臭皮匠,顶个诸葛亮。那么本文就先分享决策树模型,我们将从零开始实现完整的代码。 2.决策树 我们以下面这个例子为例,假如我们要租房,需要根据西区还是东区以及房间的数量来...
探讨因子的本质与检验方法 1.1探究的原因 因子、标签、特征是什么关系,我们买的到底是什么? 因子到底是什么,研究因子如何区别民科还是具备科学的方法? 因子如此重要如何正确的科学检验?因子分布如何看等等 GPlean到底该学什么因子?最后产出什么因子? 论坛都有各种复现和生成因子,不仅有中金的因子手册还有阿尔法101等等,但是归根结底因子到底是什么,其检验和实战意义暂时还没人讨论,在此我讲下我的一些理解,希望大家纠错,共同进步。 1.2因子、标签、特征的关系 1.首先是按照我们做机器学...
上篇[基于《AI系列研究之二:多模型集成量价Alpha策略》理论分析](https://www.pandaai.online/community/article/90) 本篇文章会对其中各部分进行代码研究 项目需求分析与技术架构设计 业务需求梳理 项目的核心目标是构建一个多模型股票预测系统,具体需求包括: 数据层面的要求: 股票池:全A股票市场,但需要剔除ST、ST股票、退市股票以及上市不满三个月的新股 数据源:使用数据库中的日线量价数据,包含高开低收价格、成交量以及市值信息 预测目标:T+1日至T+11日的复权日内VWAP价格收益率 数据预处理:采用3倍MAD截断、zscore标...
引言 招商证券的这份研究报告代表了传统金融机构在人工智能应用领域的重要探索。作为AI系列研究的第二篇,该报告聚焦于多模型集成技术在量价Alpha策略中的应用,为量化投资提供了一套完整的技术解决方案。 通过深入研读,我发现这份报告最大的价值在于其模型选择的系统性思考和集成策略的实用性设计,为行业提供了宝贵的方法论参考。 --- 第一部分:为什么需要多模型集成? 1.1传统单一模型的根本局限 在量化投资领域,单一模型面临着无法克服的结构性缺陷: 预测精度的天花板效应 即使是最先进的单...
1.1背景 这几天踩了不少数据的坑,趁热打铁总结一下,也希望能帮大家少走点弯路。数据清洗这块,很多人觉得是琐事,其实它对最终策略效果的影响非常大。模型的好坏,很多时候不是算法决定的,而是你喂进去的数据质量决定的。下面我举几个例子,大家就懂了: 1.数据不清洗,就像你要做个火爆肥肠结果菜都没洗,味道能对吗?哈哈哈。 2.第一次拿到因子数据,乍一看数值有点大,就想着直接log一下压缩,结果模型训练完发现还是在学风格因子,整段预测方向跑偏。 3.有些字段比如ROE、净利润增长率,值是0或者极端异常,模...
背景 最近在小安老师建议下做端到端阿尔法模型的构建复现,踩了不少坑,也有一些收获。这篇文章是结合招商证券那篇《端到端的动态Alpha模型》研报的第一部分,以及我自己的实践经验整理出来的,顺便附了我画的图来梳理结构。 一、线性因子模型逐渐失效了? 研报里其实讲得很清楚,线性模型的问题并不只是过时这么简单,而是它在理论假设上就有点站不住脚。比如APT模型假设资产收益率和因子之间是线性关系,而且残差是独立同分布的、无异方差的。但现实中的金融市场,残差往往具有强烈的异方差性和截面相关性。 这也...
上篇[基于《AI系列研究之一:端到端的动态Alpha模型》理论分析](https://www.pandaai.online/community/article/77) 本篇文章会对其中各部分进行代码研究 大概流程划分为下  数据清洗 目的 保证输入数据的质量,剔除不符合要求的样本。 减少后续特征工程和模型训练的偏差。 过滤掉ST和退市股,可避免模型学到噪声或极端异常;空值剔除确保计算指标和归一化不出错。 python defget_all_stocks(self,e...
1.引言 招商证券发布的这篇研究报告《AI系列研究之一:端到端的动态Alpha模型》探讨了一种基于深度神经网络的动态Alpha因子模型,旨在解决传统线性Alpha模型的局限性。这项研究不仅展示了机器学习在量化金融领域的应用,也为投资决策提供了新的思路和方法。本文将详细分析报告中提出的模型架构、实验设计、创新点以及实际效果。 2.传统因子投资框架及其局限性 2.1传统多因子Alpha模型的构建流程 传统的多因子Alpha模型构建一般包括以下步骤: 单因子研究与筛选 因子预处理(异常值处理、标准...
<br $\rmWe\,\,define\,\,a\,\,function\,\,{\mathcal{O}(k)}\,\,similar\,\,to\,\,the\,\,Riemann\,\,Zeta\,\,function\,\,\zeta(s)$ $$\mathcal{O(k)}=\displaystyle\lim_{n\to+\infty}\sum_{\tau=2}^n\frac1{\tau^{k}}\,\,\,\,\,\,\,\,\,\,\,\forall\,s\in\mathbb{...
2025-04-07
2025-07-31
2025-07-24
2025-07-25
2025-08-26