量化策略研究报告：基于 XGBoost 与 Optuna 优化的选股模型

二、策略构建逻辑 (Workflow Analysis)

根据工作流图，策略分为以下五个关键环节：

特征工程 (Feature Engineering)：
- 输入基础行情数据（如 close）。
- 计算预测目标：未来 1 日收益率。
- 通过特征构建节点生成输入向量。
超参数搜索 (Optuna)：
- 利用 Optuna 节点对 XGBoost 进行调优，试验次数设置为 100 次。
- 搜索方向为“最小化”（推测为最小化预测误差 MSE）。
模型训练 (XGBoost)：
- 决策树数量：100；最大深度：3；学习率：0.1。
- 使用了 L1/L2 正则化以防止过拟合。
因子构建与分析：
- 模型输出预测值作为“因子值”。
- 调仓周期：1 个交易日（日频调仓）。
- 分组数量：5 组（五分位数法）。
股票池：全 A 股（剔除 ST 后，最新数据展示中仍含有 *ST 股票，需注意筛选逻辑）。

根据回测看板数据，该策略在 2025 年初表现出了极强的进攻性。

单调性表现：从“分组收益”表看，第 3 组（分前 3） 的年化收益最高（108.04%），而非逻辑上的第 1 组或第 5 组。这说明因子在极值端的线性单调性尚有提升空间，可能存在“中间强、两头弱”的情况。
多空表现：多空组合（Group 1 - Group 5）的收益为负（-8.6%），这反映出目前定义的 Group 5 或 Group 2 的表现其实优于 Group 1。

生存偏差与剔除逻辑：最新数据显示池子里包含 *ST吉药 和 ST宏达。在实际操作中，ST 股的涨跌停限制和流动性风险可能导致回测收益无法实盘化。
交易成本侵蚀：100% 的日换手率意味着极高的印花税和佣金。建议在“因子分析”节点中加入千分之一或二的交易摩擦，观察净收益是否还能维持。
测试区间过短：2 个月的回测（且是 2025 年初的单边或高波动行情）不足以证明策略的稳健性。建议将回测区间至少覆盖一个完整的牛熊周期（如 2023-2025）。
因子的线性单调性：目前多空收益为负，说明因子的方向（正向还是负向预测）与实际收益存在偏差。建议调整“因子方向”参数或优化特征工程。

该策略是一个典型的高频机器学习量化策略，在 2025 年初的特定行情下表现惊人。其核心竞争力在于 XGBoost 捕捉非线性关系的能力。

下一步行动建议：

重点测试交易手续费对收益的影响，并尝试将调仓周期延长至 3-5 天，观察在降低换手率的情况下，夏普比率是否依然稳健。

截屏20260404 21.19.24.png

截屏20260404 21.21.06.png