机器学习心得
1.1 快速创建机器学习
- 点击「创建工作流」→ 选「官方模板」,找到「因子大赛-非线性因子-xgboost示例模板」,查看直接加载基础流程。
- 在「公式输入」里写你自己的选股特征公式,然后用模板默认参数先跑一遍,再把工作流改个好记的名字
1.2 调参让模型更准更稳
- 先跑通再调:先用默认参数跑完整流程,看结果(收益、分层表现),再针对性改参数。
- 核心参数通俗调法(对应你框的XGBoost节点):
◦ 决策树数量:默认100。
◦ 模型太“笨”(收益低)→ 加到200-300,让它多学一点;
◦ 模型太“飘”(训练好、测试差)→ 减到50-80,别学太细。
◦ 最大深度:默认2。
◦ 想抓更复杂规律→ 调到3-4;
◦ 怕学过头→ 保持2或降到1,别超过6。
◦ 学习率:默认0.005。
◦ 想快点收敛→ 调到0.01-0.05;
◦ 怕震荡/过拟合→ 降到0.001-0.003,配合多加点树。
◦ 最小子树权重:默认1。
◦ 数据噪声大→ 调到3-5,让模型别盯着小噪音不放;
◦ 数据干净→ 保持1就行。
◦ Gamma:默认0。
◦ 过拟合明显→ 调到0.1-1,让树少分裂点;
◦ 欠拟合→ 保持0。
◦ 子样本/列采样比例:默认0.7/0.8。
◦ 过拟合→ 都降到0.5-0.6,让模型每次学不同数据/特征;
◦ 欠拟合→ 升到0.8-0.9,多给点信息。
◦ L1/L2正则化:L1默认0,L2默认20。
◦ 过拟合严重→ L2调到30-50,L1加0.1-1;
◦ 欠拟合→ L2降到10-15,L1保持0。
◦ 训练设备:算力够就切GPU,跑得更快;算力有限就用CPU。
3.调参小技巧
• 一次只改1-2个参数,改完对比结果,别一堆参数一起改,不然不知道谁起作用。
• 看测试集表现,别光看训练集收益,不然模型会“背答案”,实盘就拉胯。
4. 时间区间严禁重叠
特征工程用的是样本内数据,机器学习/因子构建用的是样本外数据,两段时间必须完全分开,不能交叉重叠,否则会出现未来数据泄露,导致回测造假、实盘失效。