文科生の量化闯关记 - 用食品营养学解析多因子投资框架
  我是宽客 3天前 54 0

多因子分析这套逻辑本质上就是把我们本能的判断方式,变成了可量化、可检验、可复现的系统方法。


001.png


今天用一个大家每天都在接触的领域——食品营养学——来帮大家彻底搞懂多因子投资框架。

先问大家一个问题:你知道你每天吃的食物,对你身体到底有什么影响吗?

大多数人的回答是:苹果好,多吃水果有益健康。

但营养学家会问:苹果里的哪种成分,在什么剂量下,对哪类人群,能产生多大程度的健康改善?

这两种思维方式的差距,就是主观交易和量化投资的差距。

今天就从这里出发,把多因子投资的整个框架,用食物来讲清楚。


一、用“食物营养学”解释量化多因子投资

人们的日常生活离不开摄入各种食物,比如米饭、谷物、肉类和水果等。这些食物之所以对人体重要,是因为它们包含的营养成分(水、碳水、蛋白质、维生素等)。这些营养成分,就是食物的“因子”。

002.png

案例基础假设

为了方便分析,我们设定以下简单假设(对应量化中的截面与时序分析基础):

  1. 时序波动:每个食物每天的营养特征都会有微小波动(模拟不同产地、日照、生产环境导致的差异)。
  2. 截面统一:每个食物单独对人体健康程度的影响机制是一样的(控制个体吸收差异,专注于食物本身的营养价值)。
  3. 预测周期:吃完食物后,第二天就能看到它对健康度的具体影响(对应量化中用今天的因子预测明天的收益率)。
🎯 核心假设说明
假设1 每种食材每天的营养成分有±10%的随机波动(模拟产地、季节、储存差异)
假设2 次日健康度变化 = 膳食纤维×0.3 + 维C×0.25 + 抗氧化×0.25 - 糖分×0.1 - GI×0.1 + 噪声 (多因子组合优化)
假设3 每种食材对人体的基础健康影响相同(控制个体差异,聚焦营养因子的作用)
假设4 吃完食物第二天可以看到效果(类比:今天的因子值预测明天的收益率)
假设5 每天吃食物最小单位是,最少吃一个(股票最小单位1手-100股)。

二、量化模型发展史

多因子模型的发展,就像人类对食物营养认知的进化史。

003.JPG

  1. 1952 马克维茨 MPT:均值-方差框架,现代组合理论起点
  2. 1964 CAPM单因子:只用市场因子解释收益,解释力弱
  3. 1976 APT多因子框架:提出收益由多个因子共同决定
  4. 1993 Fama-French 三因子:市场+规模+价值,解释率≈65%
  5. 1997 Carhart四因子:新增动量
  6. 2015 Fama-French五因子:新增盈利、投资因子

演进逻辑:旧模型解释力不足 → 加因子 → 提升拟合度 → 适应更有效市场

资本资产定价模型(CAPM)核心观点:股票收益主要由市场因子(贝塔系数)与公司特定因素共同驱动。
Fama和French在CAPM基础上,进一步挖掘并阐释了影响股票收益的额外因子——规模因子与风格因子。后续大量研究证实,多个因子共同构成了股票收益与风险的核心组成部分,逐步发展完善后,形成了目前金融领域广泛应用的Barra风格因子体系。

年份 量化模型 核心因子 食物营养学比喻 局限性
1952 马科维茨 MPT 均值-方差优化 只看热量和饱腹感:早期人类只追求吃饱(收益),同时避免撑坏肚子(风险)。 没考虑具体的营养成分,光吃肥肉也能吃饱,但不健康。
1964 CAPM 单因子模型 市场风险(β\beta 单一指标挑食物(唯热量论):认为食物对健康的影响只取决于“热量”这一个指标。 单一指标太片面。高热量可能是优质牛肉,也可能是垃圾炸鸡。
1976 APT 理论 多个宏观因子 发现多种营养:意识到除了热量,还有蛋白质、维生素等多个营养成分决定健康。 只是提出了概念,没有明确指出到底是哪几种营养最关键。
1993 Fama-French 三因子 市场+规模+价值 确立三大核心营养:热量(市场)+ 蛋白质(规模,修复身体)+ 膳食纤维(价值,实在且便宜)。 解释力大幅提升,但还没考虑到食物的升糖速度等问题。
1997 Carhart 四因子 三因子+动量 加入抗氧化指标:增加了维生素C(动量),代表近期表现亮眼、抗氧化能力强的食材。 越来越完善。
2015 FF 五因子 三因子+盈利+投资 全面营养体系:又加入了微量元素和升糖指数等,构建了极高解释力的营养评价体系。 模型越来越复杂。

Barra 风格因子模型:给你的投资“看病+体检”

Barra 风险模型是业界最知名的多因子风险模型。我们可以把它理解为一套“高级全身体检与饮食监控系统”。

人的身体对糖分、铁等营养的吸收量是有限的。

  • 糖分过多:会导致糖尿病(风险暴露过高)。
  • 铁元素过少:会导致贫血(风险暴露不足)。

三、完整的多因子分析流程

全景流程图

原始数据(100+字段)
    ↓ 特征工程(提取10个特征)
特征(候选因子)
    ↓ 单因子检验(IC/ICIR筛选)
有效因子(5个左右)
    ↓ 因子分类(Alpha因子 vs 风险因子)
    ↓ 中性化处理(剥离风险因子影响)
纯化的Alpha因子
    ↓ 多因子合成(加权组合)
多因子综合得分
    ↓ 组合优化(约束条件+优化算法)
最优投资组合
    ↓ 回测验证
结果输出(体检报告)

第一步:数据采购(原始数据)

量化含义:收集股票的原始数据,包括量价数据、基本面数据、另类数据。

营养学比喻:去菜市场采购食材,记录每种食材的原始信息。

一个食材(股票)可以有100多个原始属性:

  • 外观类:颜色、形状、大小、表皮光泽度
  • 物理类:重量、体积、密度、含水量
  • 化学类:pH值、糖度、酸度、新鲜度
  • 环境类:产地、季节、种植方式、运输时间
  • 市场类:价格、销量、库存量、价格波动率

高质量数据的关键:观测能力要强。就像一个好的营养学家,需要知道用什么检测仪器、在什么条件下测量,才能得到准确的数据。

量化对应:量价数据(K线)、基本面数据(财报)、另类数据(卫星图像、社交媒体情绪)

第二步:特征工程(从数据到特征)

量化含义:对原始数据进行加工处理,提取有意义的特征。

营养学比喻:把食材送进实验室,用专业仪器分析其营养成分。

从100多个原始属性中,通过专业知识提取10个核心特征:

特征 提取依据 量化对应
膳食纤维含量 直接检测 5日均量比
维生素C含量 直接检测 价格动量(20日)
含糖量 直接检测 市盈率(PE)
抗氧化指数(ORAC) 专业仪器检测 特殊Alpha因子
价格波动率 历史价格计算 股价波动率
营养密度比 营养/热量 价值因子(PB)
水分偏差 当前含水量/历史均值 换手率偏差
热量纤维比 热量/纤维 市值/成交量

特征工程的水平,取决于你的专业知识深度。

营养学知识 + 食品化学知识 + 医学知识 → 能提取更高质量的特征
金融知识 + 经济学知识 + 交易经验 → 能构建更有效的因子

重要处理步骤:

  1. 去极值:超过3倍标准差的数据要清洗。就像食材检测中,如果某个苹果的维C含量是正常值的10倍,这很可能是检测误差,需要剔除。
  2. 标准化(Z-score):让不同量纲的特征可以比较。就像把"维C含量(mg)"和"膳食纤维(g)“换算成统一的"营养评分”,才能进行比较和加总。
  3. 对数化处理:对于市值这类分布极度偏斜的数据,需要取对数。就像食材价格差异极大(白松露 vs 白菜),直接比较没有意义,取对数后才能合理比较。

第三步:单因子检验(IC/ICIR评价体系)

这是整个流程中最核心、最科学的一步。

量化含义:检验每个特征是否真的能预测未来收益率。

营养学比喻:做临床试验,检验每种营养成分是否真的能改善健康。

IC(信息系数)

定义:因子值与下期收益率的相关系数(皮尔逊相关系数)

公式:IC = corr(因子值,下期收益率)

营养学类比

  • 计算"膳食纤维含量"与"次日健康度变化"之间的相关系数
  • IC = 0.15,说明膳食纤维含量越高的食物,次日健康度改善越明显,且相关性为15%

数值解读

IC值 含义 营养学类比
IC > 0.03 有效因子(优秀) 临床试验显示有显著改善效果
IC = 0 无效因子 该营养素与健康完全无关
IC < -0.03 反向有效因子 该成分越多,健康越差(如过量糖分)

Rank IC(排名信息系数)

定义:因子排名与收益排名的相关系数(斯皮尔曼相关系数)

为什么更常用? Rank IC对极端值不敏感,更稳健。

营养学类比

  • 不直接比较营养素的绝对含量,而是比较排名
  • 把10种食材按膳食纤维含量从高到低排名(1-10名)
  • 再把10种食材按次日健康度改善从高到低排名(1-10名)
  • 计算两个排名序列的相关性 = Rank IC

白话比喻

就像相亲,你不需要知道对方的精确年收入,只需要知道他在你认识的人里收入排第几名,然后看这个排名和"婚后幸福度排名"的相关性——这就是Rank IC的逻辑。

ICIR(信息系数信息比率)

定义:ICIR = IC均值 / IC标准差

含义:衡量因子预测能力的稳定性,而不只是平均强度。

营养学类比

  • 某营养素平均能改善健康5%(IC均值 = 0.05)
  • 但有时候改善20%,有时候反而恶化10%(IC标准差 = 0.10)
  • ICIR = 0.05 / 0.10 = 0.5
  • 说明这个营养素的效果不稳定,时好时坏

白话比喻

一个厨师,平均每次做的菜评分8分(IC均值高)。但有时候做出满分10分的菜,有时候做出4分的难吃菜(IC标准差大)。ICIR低,说明这个厨师发挥不稳定,不能依赖。

另一个厨师,平均每次做的菜评分7分(IC均值稍低),但每次都在6-8分之间(IC标准差小)。ICIR高,说明这个厨师发挥稳定,值得信赖。

有效性判断标准(来自课程):

指标 优秀标准 含义
IC / Rank IC 0.03 因子有预测能力
ICIR 0.5 因子预测稳定
t检验 显著不为0 统计上有意义

前面课程讲过:判断因子有效的标准就是IC≥0.03,ICIR>0.5,并且显著不为0。三个条件同时满足,才是一个合格的因子。

分层回测——最直观的因子检验方式:

把所有食材按膳食纤维含量从高到低分成5组:

  • 第1组(最高20%):西兰花、菠菜、燕麦
  • 第2组(次高20%):苹果、梨、红薯
  • 第3组(中间20%):番茄、黄瓜、玉米
  • 第4组(次低20%):香蕉、葡萄、芒果
  • 第5组(最低20%):白米饭、白面包、糖果

好因子的特征:第1组的次日健康度改善 > 第2组 > 第3组 > 第4组 > 第5组,呈现单调递增的规律。

如果分组结果杂乱无章,说明这个特征不是有效因子。

第四步:因子中性化处理(提纯Alpha)

这是很多初学者容易忽略的关键步骤。

量化含义:剥离因子中的风险因子成分,保留纯粹的Alpha信息。

营养学比喻:在评估ORAC(抗氧化指数)的效果时,需要先控制蛋白质、碳水、脂肪等基础营养素的影响,才能看出ORAC本身的独特贡献。

为什么需要中性化?

假设我们发现"高膳食纤维食物"的健康改善效果很好(IC=0.08)。

但仔细一看,高膳食纤维食物都是蔬菜类(行业集中),而蔬菜类本身就比水果类更健康(行业效应)。

这意味着:我们测到的IC=0.08,有一部分是"蔬菜类天然更健康"贡献的,不是膳食纤维本身的贡献。

中性化操作:在每个食材类别(水果/蔬菜/浆果)内部分别排名,消除类别效应,这样测到的IC才是膳食纤维本身的纯净贡献。

三种中性化方法:

方法 操作 量化对应
行业中性化 在同类食材内部排名 在同行业内排名,消除行业效应
市值中性化 控制食材"体量"的影响 消除大市值股票的系统性偏差
正交化 用数学方法剥离因子间的相关性 Gram-Schmidt正交化等算法

中性化的本质

就像医学临床试验中的"对照组设计"——你要测试维生素C的效果,就需要确保实验组和对照组在其他所有条件(年龄、性别、饮食习惯)上都相同,这样才能把维生素C的独立效果测出来。

第五步:多因子合成

量化含义:把多个有效因子组合成一个综合评分。

营养学比喻:根据各营养素的重要性,设计一个综合营养评分公式。

常见加权方法:

方法 说明 营养学类比
等权重 每个因子权重相同 每种营养素同等重要
IC加权 IC越高的因子权重越大 临床效果越好的营养素权重越高
ICIR加权 ICIR越高的因子权重越大 效果越稳定的营养素权重越高
机器学习 让模型自动学习最优权重 AI营养师根据个人基因组定制方案

多因子入库原则

优先选择相关性低的因子组合。

类比:如果你的营养方案里已经有了维生素C,再加一个"维生素C含量"的变体指标,并不能带来新信息。你需要的是加入一个完全不同维度的营养素(比如Omega-3),这样才能真正提升营养方案的全面性。

第六步:组合优化(约束条件)

量化含义:在满足各种约束条件的前提下,最大化组合的预期收益/风险比。

营养学比喻:设计最优营养套餐,但必须满足各种健康约束条件。

Barra风格因子的约束(食物版):

约束类型 营养学约束 量化约束
风险约束 总糖分不超过50g/天(控制血糖风险) 对价值因子暴露度上限控制
行业中性化 必须包含水果和蔬菜两类(多样性) 不能在某一行业过度集中
流动性约束 只选市场上买得到的食材(不选珍稀食材) 只选日均成交额>1000万的股票
预算约束 总食材成本不超过100元/天 换手率控制,降低交易成本
营养均衡约束 蛋白质/碳水/脂肪比例在合理范围内 各风险因子暴露度在合理范围内

无约束 vs 有约束的对比:

无约束优化的结果:可能全选高膳食纤维食物(全是蔬菜),导致:

  • 血糖风险低(好)
  • 但热量严重不足(坏)
  • 蛋白质缺乏(坏)
  • 口感单一,难以坚持(坏)

有约束优化的结果:在保证营养均衡的前提下,选出综合评分最高的食材组合——这才是真正可执行的最优方案。

第七步:结果输出(体检报告)

量化含义:评估策略的绩效表现,包括收益、风险、归因分析。

营养学比喻:吃完营养套餐后,定期做体检,看健康指标的改善情况。

关键绩效指标对照:

量化指标 营养学类比 含义
年化收益率 年度健康改善幅度 策略的平均盈利能力
最大回撤 健康状况最差时的下降幅度 策略的最大亏损风险
夏普比率 健康改善/健康波动 单位风险的收益
Barra归因 哪种营养素贡献了多少健康改善 哪个因子贡献了多少收益
IC衰减图 营养效果随时间的衰减曲线 因子预测能力的持续性

四、风险因子的特殊处理

什么是风险因子?

风险因子不是用来预测收益的,而是用来控制风险暴露的。

营养学比喻

含糖量(风险因子)——它不是用来提升健康的,而是用来控制血糖风险的。

你的营养方案里,含糖量高的食物不是不能选,但必须控制总量,避免血糖超标(风险因子暴露度过高)。

三个风险因子的特征:

风险因子 营养学类比 特征
价格波动率 食材价格波动率(今天3元,明天30元) IC不稳定,但波动大,需要控制暴露
含水量偏差 食材含水量偏离正常值 反映食材"虚胖"程度,是风险信号
热量纤维比 高热量低纤维(垃圾食品特征) 长期暴露会损害健康,需要控制

风险因子 vs Alpha因子的核心区别:

维度 风险因子 Alpha因子
IC稳定性 低(ICIR < 0.5) 高(ICIR > 0.5)
目的 控制风险,不是预测收益 预测超额收益
处理方式 中性化掉,控制暴露度 保留,作为选股依据
营养类比 含糖量(要控制) ORAC(要最大化)

完整流程对照表

步骤 量化含义 营养学比喻 核心能力要求
原始数据 量价、基本面、另类数据 食材的100+原始属性 观测能力、数据获取渠道
特征工程 从数据中提取有意义的特征 实验室检测营养成分 金融知识+数学表达能力
单因子检验 IC/ICIR验证因子有效性 临床试验验证营养效果 统计学+计量经济学
中性化处理 剥离风险因子,提纯Alpha 控制变量,隔离单一营养素效果 因子分析+正交化算法
多因子合成 有效因子加权组合 设计综合营养评分公式 优化理论+权重设计
组合优化 约束条件下最优化 设计满足健康约束的最优食谱 线性规划+运筹学
结果输出 绩效评估+归因分析 体检报告+营养归因 风险模型+统计检验

五、一句话总结

多因子投资,就是用科学的营养学方法,从成千上万种食材(股票)中,找出那些真正能改善健康(提升收益)的营养成分(因子),然后设计出最优的营养套餐(投资组合)。

给初学者的三条建议

第一,先建立定量思维。 不要说"苹果好",要说"苹果的膳食纤维含量(3.5g/100g)与次日健康度改善的IC=0.08,ICIR=0.65,显著有效"。

第二,重视因子检验,不要跳过。 很多人急于构建多因子模型,却跳过了单因子检验这一步。这就像不做临床试验就直接推广一种新药——风险极大。

第三,持续监控,动态调整。 因子会失效,市场会变化。建立一套持续监控IC值的机制,就像定期体检,才能及时发现问题、调整方案。


附录:关键概念速查表

概念 定义 有效标准 营养学类比
IC 因子值与下期收益率的相关系数 ≥ 0.03 营养素与健康改善的相关性
Rank IC 因子排名与收益排名的相关系数 ≥ 0.03 营养素排名与健康排名的相关性
ICIR IC均值/IC标准差 ≥ 0.5 营养效果的稳定性指数
中性化 剥离风险因子影响,提纯Alpha - 临床试验中的对照组设计
因子拥挤 过多资金使用同一因子导致Alpha衰减 - 蓝莓被炒到天价,性价比消失
分层回测 按因子值分组,检验单调性 单调递增/递减 按营养素含量分组,检验健康改善的单调性
Alpha因子 能产生超额收益的稀缺因子 ICIR>0.5 抗氧化指数(ORAC)等稀缺营养指标
风险因子 系统性风险来源,需要控制暴露 - 含糖量等需要控制的风险指标
最后一次编辑于 3天前 1

暂无评论