量化策略研究报告:基于 XGBoost 与 Optuna 优化的选股模型
一、 策略基本信息
- 策略类型:机器学习多因子选股(截面回归/分类)
- 核心算法:XGBoost (Extreme Gradient Boosting)
- 优化工具:Optuna(自动超参数搜索)
- 目标变量 (Label):
FUTURE_RETURNS(close, 1)(预测下一日的收益率) - 回测区间:2025-01-01 至 2025-02-28(约 2 个月样本外测试)
二、 策略构建逻辑 (Workflow Analysis)
根据工作流图,策略分为以下五个关键环节:
- 特征工程 (Feature Engineering):
- 输入基础行情数据(如
close)。 - 计算预测目标:未来 1 日收益率。
- 通过特征构建节点生成输入向量。
- 输入基础行情数据(如
- 超参数搜索 (Optuna):
- 利用 Optuna 节点对 XGBoost 进行调优,试验次数设置为 100 次。
- 搜索方向为“最小化”(推测为最小化预测误差 MSE)。
- 模型训练 (XGBoost):
- 决策树数量:100;最大深度:3;学习率:0.1。
- 使用了 L1/L2 正则化以防止过拟合。
- 因子构建与分析:
- 模型输出预测值作为“因子值”。
- 调仓周期:1 个交易日(日频调仓)。
- 分组数量:5 组(五分位数法)。
- 股票池:全 A 股(剔除 ST 后,最新数据展示中仍含有 *ST 股票,需注意筛选逻辑)。
三、 绩效表现分析 (Performance Review)
根据回测看板数据,该策略在 2025 年初表现出了极强的进攻性。
1. 核心指标
| 指标名称 | 数值 | 评价 |
|---|---|---|
| 年化收益率 | 85.71% | 极高,属于高激进型策略 |
| 夏普比率 | 2.8271 | 优异,收益风险比非常理想 |
| 最大回撤 | 4.74% | 控制极好,在 85% 年化背景下极具吸引力 |
| IC 均值 (Rank IC) | 0.0124 | 因子具有一定的预测能力,但并不算极强 |
| 换手率 | 100.00% | 极高,每日全仓换股,需关注交易成本 |
2. 分组收益分析
- 单调性表现:从“分组收益”表看,第 3 组(分前 3) 的年化收益最高(108.04%),而非逻辑上的第 1 组或第 5 组。这说明因子在极值端的线性单调性尚有提升空间,可能存在“中间强、两头弱”的情况。
- 多空表现:多空组合(Group 1 - Group 5)的收益为负(-8.6%),这反映出目前定义的 Group 5 或 Group 2 的表现其实优于 Group 1。
四、 策略优势与潜在风险
优势:
- 极高的风险调整后收益:夏普比率接近 3,回撤极低,说明模型在测试区间内精准捕捉到了市场风格。
- 流程自动化:引入 Optuna 自动调优,减少了人工调参的随机性。
- 低波动性:年化波动率控制在 24% 左右,对于一个高收益策略来说非常稳定。
潜在风险与改进建议:
- 生存偏差与剔除逻辑:最新数据显示池子里包含
*ST吉药和ST宏达。在实际操作中,ST 股的涨跌停限制和流动性风险可能导致回测收益无法实盘化。 - 交易成本侵蚀:100% 的日换手率意味着极高的印花税和佣金。建议在“因子分析”节点中加入千分之一或二的交易摩擦,观察净收益是否还能维持。
- 测试区间过短:2 个月的回测(且是 2025 年初的单边或高波动行情)不足以证明策略的稳健性。建议将回测区间至少覆盖一个完整的牛熊周期(如 2023-2025)。
- 因子的线性单调性:目前多空收益为负,说明因子的方向(正向还是负向预测)与实际收益存在偏差。建议调整“因子方向”参数或优化特征工程。
五、 结论
该策略是一个典型的高频机器学习量化策略,在 2025 年初的特定行情下表现惊人。其核心竞争力在于 XGBoost 捕捉非线性关系的能力。
下一步行动建议:
重点测试交易手续费对收益的影响,并尝试将调仓周期延长至 3-5 天,观察在降低换手率的情况下,夏普比率是否依然稳健。

