数据清洗
数据清洗标签描述

1.概述 在计算完因子数据之后,进行下一步的模型训练之前,通常需要对因子数据进行预处理,以及中性化处理。其中预处理比较简单,一般就是3倍MAD截断,zscore标准化,缺失值填充为0。中性化稍微复杂一些,本文将从市值中性化开始介绍如何进行市值中性化,下一篇将介绍如何进行行业中性化。 2.市值中性化 2.1市值中性化的必要性与逻辑 市值中性化是因子中性化处理中最常见且重要的一种,其核心目的是剔除因子值中由于市值(Size)因素引起的系统性影响,使得因子能够更纯粹地反映其自身的信息,从而提升因...

  AlphaSmith   2025年06月06日   146   2   2 新手入门数据清洗Python经验分享

1.概述 行业中性化(IndustryNeutralization)旨在从因子中剔除行业所带来的系统性偏差,使因子能够更真实地反映个股的特质(idiosyncraticcharacteristics)。许多因子天然地与特定行业相关联,比如市盈率因子在金融行业普遍较低,而在科技行业可能较高。 行业中性化通常通过分行业去均值或引入行业哑变量回归等方式实现,处理后因子值在行业间趋于均衡,从而避免策略因行业偏好而产生非预期的暴露。经过行业中性化处理的因子,更具普适性和解释力,在多因子模型、因子排序及回...

  AlphaSmith   2025年06月07日   116   1   2 新手入门数据清洗Python经验分享

概述 因为高频数据量非常大,若要进行多年度的回测需要大量的时间计算,所以我采用先计算因子值,计算完之后再执行回测,本篇主要分享可以优化的方向以及一些高频数据预处理的发现。 1.高频因子特点 相比低频因子IC半衰期更短![螢幕擷取畫面20250622150117.png](1) 需要更高频的调仓(如日频),带来换手率的增加,但基金业绩表明,即使高频因子的换手率更高,但高频因子的信息收益在合适的控制下仍然高于高换手率的成本 Level2级的数据资讯更多但同时也有更大的噪声 本系列将依照高频数据低频...

1.1背景 这几天踩了不少数据的坑,趁热打铁总结一下,也希望能帮大家少走点弯路。数据清洗这块,很多人觉得是琐事,其实它对最终策略效果的影响非常大。模型的好坏,很多时候不是算法决定的,而是你喂进去的数据质量决定的。下面我举几个例子,大家就懂了: 1.数据不清洗,就像你要做个火爆肥肠结果菜都没洗,味道能对吗?哈哈哈。 2.第一次拿到因子数据,乍一看数值有点大,就想着直接log一下压缩,结果模型训练完发现还是在学风格因子,整段预测方向跑偏。 3.有些字段比如ROE、净利润增长率,值是0或者极端异常,模...

一、引言 在A股量化投资中,构建完善的因子库对于策略研发和回测效率至关重要。传统基于CSV文件存储因子数据存在冗余、跨周期计算效率低和扩展性差等问题,而通过建立数据库式的因子库,可以显著提升数据管理和检索效率。本项目旨在基于AkShare和MongoDB构建一个A股的价格-成交量因子库,将常见的技术指标和量价指标按日保存,为选股和策略开发提供数据支持。借助开源工具,我们可以批量获取数据、自动清洗和计算因子,并方便地存入数据库,为后续的回测与分析打下基础。 二、技术架构与依赖工具 2.1该项目采用...