因子挖掘功能(非线性因子机器学习探索)
  风清扬 3小时前 6 0

机器学习心得

1.1 快速创建机器学习

  • 点击「创建工作流」→ 选「官方模板」,找到「因子大赛-非线性因子-xgboost示例模板」,查看直接加载基础流程。6ab6443767d099253d4810f89022f01c.png
  • 在「公式输入」里写你自己的选股特征公式,然后用模板默认参数先跑一遍,再把工作流改个好记的名字54404636e40eed4597c5f1a54c406022.png

1.2 调参让模型更准更稳

  1. 先跑通再调:先用默认参数跑完整流程,看结果(收益、分层表现),再针对性改参数。
  2. 核心参数通俗调法(对应你框的XGBoost节点):

◦ 决策树数量:默认100。

◦ 模型太“笨”(收益低)→ 加到200-300,让它多学一点;

◦ 模型太“飘”(训练好、测试差)→ 减到50-80,别学太细。

◦ 最大深度:默认2。

◦ 想抓更复杂规律→ 调到3-4;

◦ 怕学过头→ 保持2或降到1,别超过6。

◦ 学习率:默认0.005。

◦ 想快点收敛→ 调到0.01-0.05;

◦ 怕震荡/过拟合→ 降到0.001-0.003,配合多加点树。

◦ 最小子树权重:默认1。

◦ 数据噪声大→ 调到3-5,让模型别盯着小噪音不放;

◦ 数据干净→ 保持1就行。

◦ Gamma:默认0。

◦ 过拟合明显→ 调到0.1-1,让树少分裂点;

◦ 欠拟合→ 保持0。

◦ 子样本/列采样比例:默认0.7/0.8。

◦ 过拟合→ 都降到0.5-0.6,让模型每次学不同数据/特征;

◦ 欠拟合→ 升到0.8-0.9,多给点信息。

◦ L1/L2正则化:L1默认0,L2默认20。

◦ 过拟合严重→ L2调到30-50,L1加0.1-1;

◦ 欠拟合→ L2降到10-15,L1保持0。

◦ 训练设备:算力够就切GPU,跑得更快;算力有限就用CPU。4423ca20fea8fce1404ad01dce8cfc67.pngbc1fc2462fdb0238e9bc0cd8c7cef291.png
3.调参小技巧

• 一次只改1-2个参数,改完对比结果,别一堆参数一起改,不然不知道谁起作用。

• 看测试集表现,别光看训练集收益,不然模型会“背答案”,实盘就拉胯。
4. 时间区间严禁重叠
特征工程用的是样本内数据,机器学习/因子构建用的是样本外数据,两段时间必须完全分开,不能交叉重叠,否则会出现未来数据泄露,导致回测造假、实盘失效。36541f8cbc7e1aa8f2d9dbdd6f8459a1.png

最后一次编辑于 3小时前 0

暂无评论

推荐阅读