Python
Python标签描述

1.概述 在计算完因子数据之后,进行下一步的模型训练之前,通常需要对因子数据进行预处理,以及中性化处理。其中预处理比较简单,一般就是3倍MAD截断,zscore标准化,缺失值填充为0。中性化稍微复杂一些,本文将从市值中性化开始介绍如何进行市值中性化,下一篇将介绍如何进行行业中性化。 2.市值中性化 2.1市值中性化的必要性与逻辑 市值中性化是因子中性化处理中最常见且重要的一种,其核心目的是剔除因子值中由于市值(Size)因素引起的系统性影响,使得因子能够更纯粹地反映其自身的信息,从而提升因...

  AlphaSmith   2025年06月06日   146   2   2 新手入门数据清洗Python经验分享

开篇:什么是量化投资? 想象你是一个经验丰富的菜市场买菜高手。每次买菜时,你都有自己的一套"规则": 西红柿要挑红润饱满的 价格比平时低20%时大量采购 避开周末人多的时候去买 量化投资就是把这套"买菜经验"用代码写出来,让电脑帮你在股市里"买菜"。 传统投资靠感觉和经验,量化投资靠的是数据+规则+纪律执行。就像用GPS导航代替问路一样,虽然偶尔会绕路,但长期看更靠谱。 为什么从双均线开始? 双均线策略是量化投资的"九九乘法表",简单但包含了完整的投资逻辑: 趋势判断:短期均线长期均线...

接上一篇:Alphagen学习笔记(1.Qlib因子生成部分)。接下来尝试简化和重写qlib因子生成(更准确说应该是“因子计算”),即:1.替换成本地parquet文件行情数据2.再按表达式计算出因子值。 行情和因子值在各个模块中传递顺序为从左至右:data—loader—stock_data。 ![图片2.png](1) 小白编程还是要多用deepseek。我刚开始采用胡乱试的办法,把以上各个模块扔进对话框,先帮我解释一下代码,然后阐明接下来工作目标是要把mongodb行情数据替换成本地c...

1.概述 行业中性化(IndustryNeutralization)旨在从因子中剔除行业所带来的系统性偏差,使因子能够更真实地反映个股的特质(idiosyncraticcharacteristics)。许多因子天然地与特定行业相关联,比如市盈率因子在金融行业普遍较低,而在科技行业可能较高。 行业中性化通常通过分行业去均值或引入行业哑变量回归等方式实现,处理后因子值在行业间趋于均衡,从而避免策略因行业偏好而产生非预期的暴露。经过行业中性化处理的因子,更具普适性和解释力,在多因子模型、因子排序及回...

  AlphaSmith   2025年06月07日   116   1   2 新手入门数据清洗Python经验分享

报告原文下载链接:https://pan.baidu.com/s/1ab9uNgS2Ydhimlu1jf5raA提取码:hgei 本篇研报以趋势资金为切入点:通过日内分钟级别的成交量来识别趋势资金,再通过对应的价、量数据推测其交易行为,构建有效的选股因子。该因子主要利用了市场的无效性,根据A股市场散户占比高,定价效率较低的特征,得出主力资金行为更容易产生超额收益机会这一结论,并将将主观交易经验(如“跟庄策略”)转化为可量化的指标。 由于获取数据上的限制,我在复现研报时只采用了2024-03-...

上一篇文章我们介绍了高频因子的动量反转类因子,这一篇继续介绍波动率因子,并在因子分析的基础上加入策略回测。 研究环境利用聚宽因子分析API,构建因子函数类;研究在日内高频分钟级数据中挖掘构建高频因子,对该因子进行有效性检验,并利用回测平台进行回测。 一波动率因子 1.1波动率因子构建 第二大类因子为波动率因子。波动率因子刻画了股票价格或股票收益在过去一段时间的不确定性程度,高波动率通常反映其不确定性程度较高,未来收益表现可能相对较弱。 ![pic1.png](1) 将传统的收益波动、振...

量化算子工具类使用文档 本文档汇总介绍了量化算子工具类(公式版)中所有函数的功能、输入/输出说明以及使用示例。所有函数均以静态方式提供,调用时直接使用函数名称,无需添加类名前缀。 示例中均采用如下调用格式,例如: python 返回收盘价序列 CLOSE python 返回CLOSE(收盘价)和VOLUME(成交量)的20日滚动相关性系数序列 CORRELATION(CLOSE,VOLUME,20) python 返回收盘价、最高价、最低价三者的均值序列 (CLOSE+HIGH+LOW)/3 --- 基础因子 |因子名|说明| |-|-| |CLOSE|收盘价| |OPE...

最近几年在做量化研究时,我有一个很深的感受:A股市场正在发生一些根本性的变化。以前那种靠题材炒作、概念驱动的投资方式越来越难赚钱了,反而是一些基本面扎实的公司开始受到资金青睐。 这种变化背后有两个很重要的推手。第一个是外资的持续流入。我记得2016年刚开始关注北上资金的时候,很多人还把它当作一个短期的资金流向指标来看。但现在回头看,外资买入的逻辑其实很清晰:ROE高、现金流好、行业地位稳固的龙头公司。这些公司可能不是最sexy的,但确实是最赚钱的。 第二个推手是监管层面的变化。2020年的退...

  alphonse   2025年06月16日   81   1   0 新手入门策略讨论Python经验分享

报告原文下载链接:https://pan.baidu.com/s/1xPDtXF138Q6bGZ4CxoTd7g提取码:dy4o 在这篇研报中,标签为每日开盘价、每日收盘价、每日换手率、指数隔夜涨跌幅等未经加工的底层市场数据。特征为传统隔夜涨跌幅、隔夜涨跌幅绝对值、超额隔夜涨跌幅、超额换手率、滚动相关性等从原始标签中提取或计算出的尚未验证预测能力的中间变量。因子为传统隔夜因子、隔夜跳空因子、新因子MIF等对收益率有显著解释力的特征。 本篇研报的核心与上一篇研报相同,都是利用A股市场的非有效性...

报告原文下载链接:https://pan.baidu.com/s/1yShAqy_AY8aB8Vx4RvgvNg提取码:lvi0 和上次一样,我们先来分析标签、特征和因子分别是什么。在这篇研报中,标签有股票代码、每日开盘价、每日收盘价、交易者结构等未经加工的底层市场数据。特征有交易者结构(大小单)、交易占比(如小单交易占比=小单成交金额/总成交金额)、过去20日累计涨跌幅(Ret20)、过去240日累计涨跌幅(Ret240)、剔除最近40日的过去200日涨跌幅(Ret240_40)等从原始标签...

  18958283423   29天前   65   0   0 Python量化策略

最近在研究时间序列分析时,读到一篇关于相空间粗粒化的论文,让我对符号动力学产生了浓厚兴趣。作为量化交易者,我们总是在寻找市场转折点——从上涨转向下跌,从震荡转向趋势,从高波动转向低波动。传统的技术分析往往基于价格的绝对数值,但符号动力学提供了一个全新的视角:不要纠结于具体的价格,而是要关注状态的转换逻辑。 这个思路很有意思,让我想起做高频交易时的一个困惑:同样是上涨10个tick,在不同的市场状态下意义完全不同。如果我们能够准确识别和预测状态转换,是否就能在关键时刻抓住机会? 为什么要关注状...

以下是依据两篇研报因子的文字描述,通过deepseek/pandaai解读生成的Python代码实现,保留了AI生成过程和注释。意识到很多学员用户也正在做这个工作,为节约人力算力能源,在量变学院社群分享一下。 ![image.png](1) ![1748494420354.png](2) 这里是上篇《中金价量》的部分: 通过网盘分享的文件:alpha191中金量价_dspandaai(上).docx 链接:https://pan.baidu.com/s/1O9pvVkP_C_N54kbwAN...

  Cai   2025年05月29日   132   0   0 新手入门学习资源Python代码分享

1.概述 前段时间搭好了一个多因子框架,从几十个因子里面挑出了5个表现比较好的因子,先进行了MLP的训练,但是因为因子数据太少,模型基本上没学习到什么东西,迭代一次,损失就不再下降了。于是决定采用随机森林模型来训练,这个系列将把自己学习模型过程中的经验分享出来,与大家一同交流。大家都知道,随机森林是由若干决策树组成的,所谓几十个臭皮匠,顶个诸葛亮。那么本文就先分享决策树模型,我们将从零开始实现完整的代码。 2.决策树 我们以下面这个例子为例,假如我们要租房,需要根据西区还是东区以及房间的数量来...

引言 招商证券的这份研究报告代表了传统金融机构在人工智能应用领域的重要探索。作为AI系列研究的第二篇,该报告聚焦于多模型集成技术在量价Alpha策略中的应用,为量化投资提供了一套完整的技术解决方案。 通过深入研读,我发现这份报告最大的价值在于其模型选择的系统性思考和集成策略的实用性设计,为行业提供了宝贵的方法论参考。 --- 第一部分:为什么需要多模型集成? 1.1传统单一模型的根本局限 在量化投资领域,单一模型面临着无法克服的结构性缺陷: 预测精度的天花板效应 即使是最先进的单...

  Co   2025年06月03日   119   1   0 c#Python经验分享机器学习机器学习模型

上篇[基于《AI系列研究之二:多模型集成量价Alpha策略》理论分析](https://www.pandaai.online/community/article/90) 本篇文章会对其中各部分进行代码研究 项目需求分析与技术架构设计 业务需求梳理 项目的核心目标是构建一个多模型股票预测系统,具体需求包括: 数据层面的要求: 股票池:全A股票市场,但需要剔除ST、ST股票、退市股票以及上市不满三个月的新股 数据源:使用数据库中的日线量价数据,包含高开低收价格、成交量以及市值信息 预测目标:T+1日至T+11日的复权日内VWAP价格收益率 数据预处理:采用3倍MAD截断、zscore标...

  Co   2025年06月03日   85   1   1 c#Python机器学习机器学习模型

一、引言 在量化分析领域,因子库的有效构建与管理是实现精准投资决策的核心环节。为满足因子数据存储与高效分析的需求,选择合适的数据库至关重要。本文专注于本地MongoDB数据库的搭建,以及Python在该数据库配置与因子数据处理中的应用,旨在为量化分析过程中因子库的本地化配置提供系统性的解决方案。 ![imag001.JPG](1) 二、MongoDB用于多因子分析的优势 传统的关系型数据库就像一个个整齐排列的小格子房间,每个房间的大小、形状都得提前规定好,东西得规规矩矩地放进去。而Mongo...

上一篇文章我们介绍了高频因子的波动率类因子,这一篇继续介绍高阶特征因子,并在因子分析的基础上加入策略回测。 研究环境利用聚宽因子分析API,构建因子函数类;研究在日内高频分钟级数据中挖掘构建高频因子,对该因子进行有效性检验,并利用回测平台进行回测。 一高阶特征因子 1.1构建方法 第三大类因子为高阶特征因子。高阶特征利用股票高阶矩与其未来收益建立联系,刻画日内价格分布以及快速变化的特征,能够有效反映价格的除动量和波动率这样一阶和二阶特征外更高阶的特征。 ![pic1.png](1) 将分...

1.概述 笔者最近搭建了一套因子库,参考的是《20230522-招商证券-AI系列研究之一:端到端的动态Alpha模型》附录中的因子,但因子数量还是有限,于是决定引入一些常见的因子库,本文将分享如何用cursor来帮我们快速生成alpha101因子。 2.cursor安装与激活 从官网下载cursor,新注册的用户有免费的使用次数,如果次数用完,可以到某宝上去购买账户,也可以自己充值。 ![image.png](1) 安装好之后,就可以在右边打开对话框,进行对话式编程了,选择@可以指定代码...

一、引言 在A股量化投资中,构建完善的因子库对于策略研发和回测效率至关重要。传统基于CSV文件存储因子数据存在冗余、跨周期计算效率低和扩展性差等问题,而通过建立数据库式的因子库,可以显著提升数据管理和检索效率。本项目旨在基于AkShare和MongoDB构建一个A股的价格-成交量因子库,将常见的技术指标和量价指标按日保存,为选股和策略开发提供数据支持。借助开源工具,我们可以批量获取数据、自动清洗和计算因子,并方便地存入数据库,为后续的回测与分析打下基础。 二、技术架构与依赖工具 2.1该项目采用...

1.概述 平时大家搭建自己的因子库,肯定要会涉及到行情数据的下载,因子库的计算入库等工作,股票数据相对来说数量比较大,更新一次需要不少时间,本文将分享如何通过多线程的方式加快数据的下载,以此为例,也可以扩展到其他大数据任务的计算中。 本文使用Tushare作为数据源,下载A股市场所有股票的日线数据(open,high,low,close,vol),我们将分析串行跟并行两种方法在时间效率上的表现。 2.串行下载 串行下载是最直观的实现方式,按顺序逐个处理每只股票的数据下载请求。注册好tushar...

  AlphaSmith   2025年06月05日   78   2   1 新手入门Python经验分享数据存储