Barra模型是什么？

为什么要引入Barra模型？

在（风险）多因子模型中，因子暴露（factor exposure）和因子收益率（factor return）是两个核心的概念。不清楚它们的定义将影响对多因子模型的理解。
因子，就是一个可以描述股票某方面特征的因素，比如行业因子描述了股票是否属于这个行业，P/E 因子描述股票 Price-to-Earnings ratio。
因子暴露就是股票在因子所代表的特征上的取值，比如一个股票的 P/E 为 15.9，那么它对 P/E 因子的因子暴露就是 15.9。对于一个给定的因子，按照某种权重组合所有股票便形成了一个基于该因子构建的投资组合，该投资组合的收益率就被定义为这个因子的收益率。

对于给定的因子，如何构建因子投资组合呢？常见的做法是，将所有个股在该因子上的因子暴露在截面上标准化；之后所有股票会按照因子的业务逻辑、根据因子暴露的数值从好到坏排列；最后，假设做多前 10% 或者 20% 的股票，做空后 10% 或者 20% 的股票，以此来构建一个零额投资的投资组合，它就是该因子的投资组合。这个做法在业界非常流行，但它也存在两个缺陷：

无法保证该投资组合对该因子的暴露为 1；
无法保证该投资组合对其他因子的因子暴露为 0。
第一个问题造成在时间序列上评价一个因子的作用时，每期的投资组合对该因子的暴露程度都不一样。举个例子，假如相邻两个月中，某因子的投资组合对该因子的暴露为 1 和 2，而相应的因子收益率为 1% 和 2%。如果我们忽视了因子暴露程度不同的话，就会得到本期因子收益率较前一期的数值有所提高的错误结论。

第二个问题更为严重。风险因子大多来源于股票的基本面数据，很多因子之间存在一定的线性相关性。为了正确的评价一个风险因子是否有效以及在什么程度上有效，必须保证围绕该因子来构建的投资组合可以最大程度的剥离因子之间的相关性。换句话说，针对某因子构建的投资组合应该避免在其他因子上有任何暴露。

为此，Barra（如今已被 MSCI 收购了）提出了纯因子模型（pure factor model），它能够保证在截面上构建因子投资组合时，每个因子的投资组合对目标因子有 1 个单位的暴露，而对其他因子的暴露为 0。

严谨的说，根据因子的性质不同（即国家因子、行业因子、风格因子），因子的投资组合在其他因子上是否完全为 0 单位暴露略有差异（下文会具体说明）。但这不影响我们从广义上说“Barra 的模型中，因子的投资组合对目标因子有 1 个单位的暴露，对其他因子没有暴露”。这就是纯因子模型中“纯”字的含义。

纯因子投资组合是为了正确量化因子的收益和风险而从纯数学的角度构建的。建立时没有考虑任何可投资性的要求，因此纯因子投资组合的可投资性非常低。它满足对目标因子有 1 个单位的暴露，对其他因子没有暴露，因此可以正确的衡量因子的有效性。

可投资性是指投资组合中股票的（多、空）仓位是否合理，该组合的换手率和交易成本是否实际，进入该组合的股票是否有足够的流动性、该投资组合能承担的资金量（即投资组合的容量）是否足够大等。

看到这里也许有同学会说“没有可投资性那有什么用？”。正确的解答是，Barra 的风险因子模型的核心是做风险分析。具体来说有两个目的：

计算个股收益率之间的相关系数。市场中个股的数量是非常多的，如果使用个股自身的收益率序列求相关系数，那么则要求收益率序列的时序长度不低于个股的数量，否则收益率矩阵就不是满秩的，因此就不可逆。由于这个要求在现实中难以实现，人们就想能不能把个股的收益率分解到一些常见的因子上，然后转而通过求解因子收益率的相关系数再推导出个股收益率的相关系数。
为给定的资产或者投资组合做风险归因。对于一个资产或投资组合，我们想要弄清楚它的收益率的波动率可以由哪些因子解释。为了上面两个目标，构建因子的投资组合时必须能够正确计算因子收益率，这就是纯因子组合的价值所在。虽然纯因子组合可投资性低，但它在风险管理和业绩归因中有着非常重要的作用。^[1]

由此引出Barra模型，我们在PandaAI工作流的barra相关性分析的因子解读如下：

Barra模型因子的解读

因子名称	核心定义	量化含义与解读
beta	市场贝塔因子	个股收益对市场整体收益的敏感程度，由个股过去 252 个交易日收益率对市场基准指数回归得到。β>1：个股波动大于大盘，进攻性强；β<1：个股波动小于大盘，防御性强。
book_to_price_ratio	账面市值比因子（BP 因子）	市净率 PB 的倒数（BP = 每股净资产 / 每股股价），核心价值类因子。数值越高，股票估值越低，偏向价值型；数值越低，估值越高，偏向成长型。
earnings_yield	盈利收益率因子	市盈率 PE 的倒数（E/P = 净利润 TTM / 总市值），核心价值类因子。数值越高，股价对应的盈利回报能力越强，估值性价比越高，代表低估值价值风格。
growth	成长因子	衡量公司的盈利与营收增长能力，通常由过去 3-5 年营收 / 净利润增速、分析师预期盈利增速合成。数值越高，公司成长性越强，代表高成长风格。
leverage	财务杠杆因子	衡量公司的债务压力与财务风险，由资产负债率、长期负债权益比、总负债权益比等指标合成。数值越高，公司财务杠杆越高，债务负担越重，财务风险相对越大。
liquidity	流动性因子	衡量股票的交易活跃程度，由过去一段时间的日均换手率、成交额、成交金额等指标合成。数值越高，股票流动性越好，交易越活跃，买卖冲击成本越低。
momentum	动量因子	衡量股票的价格趋势强弱，Barra 标准口径为过去 12 个月（剔除最近 1 个月，规避短期反转效应）的个股累计收益率。数值越高，过去股价涨幅越大，动量效应越强，对应"强者恒强"的趋势特征。
non_linear_size	非线性规模因子	对传统市值因子的补充，捕捉市值与股票收益之间的非线性关系，核心用来刻画中市值股票的收益特征，区分超大盘、中盘、小盘的差异化效应。
residual_volatility	残差波动率因子	衡量股票的非系统性波动，即剔除市场贝塔后，个股的特有波动，由个股收益回归市场后的残差年化波动率计算。数值越高，个股的非系统性波动越大，特有风险越高。
size	规模因子（市值因子）	Barra 最核心的因子之一，通常由股票总市值的自然对数计算。数值越高，公司市值越大，对应大盘股风格；数值越低，市值越小，对应小盘股风格。

正确理解 Barra 的纯因子模型-石川 ↩︎