没有无风险资产的世界里,怎样给「市场组合有没有效」下判决

[1991 JFE] Small Sample Tests of Portfolio Efficiency
Note

本文读的是 Zhou (1991, Journal of Financial Economics):当经济里没有无风险资产时,检验一个给定组合(比如市场组合)是否均值-方差有效,是一道让人头疼的「非线性」难题。作者把似然比检验巧妙地写成一个特征根 \(\lambda_2\) 的单调函数,从而把多元统计里成熟的特征根分布搬了过来,给出了精确分布和一对最优的上、下界。用 1926–1986 的月度数据,他在多数五年期里拒绝了 CRSP 市值加权指数的有效性

1 一个看似简单、却卡了二十年的问题

先抛一个问题:你手里有一个组合 \(p\)——比如全市场的市值加权指数——你想知道它是不是有效的。所谓有效,是说在给定方差下,它已经拿到了最高的期望收益;用资产定价的语言讲,市场组合有效,恰恰就是 CAPM(或零-beta CAPM)成立的另一种说法。

这个问题听上去再自然不过。自 Markowitz (1952) 把均值-方差的框架立起来,「某个组合到底有没有踩在有效前沿上」就成了整个领域的一根主线。可真要把它做成一个严谨的统计检验,麻烦才刚刚开始。

早期的做法是跑横截面回归,但那里藏着一个 误差变量 (errors-in-variables) 问题——你用「估计出来的 beta」当自变量,结果天然有偏。Gibbons (1982) 第一个把这件事搬进多元统计的框架(更早的雏形可以追溯到 MacBeth 1975 的博士论文),提出了 似然比检验 (likelihood ratio test, LRT),靠的是渐近的卡方分布。

Warning

渐近分布在这里靠不住。Stambaugh (1982) 的模拟显示,渐近 \(\chi^2\) 拒绝得太频繁,而且资产数越多越不可靠。Shanken (1985) 给了一个触目惊心的例子:40 个资产、60 期,渐近 P 值是 0.01,真实 P 值却高达 0.92。同一份数据,一个说「果断拒绝」,一个说「证据稀薄」——你信哪个?

所以,知道精确(小样本)分布,在这里不是锦上添花,而是生死攸关。

2 有无风险资产,是两道完全不同的题

接着,一个自然的问题是:精确检验到底难在哪?

答案要看有没有无风险资产

如果有无风险资产,事情其实是漂亮的。这时候市场模型里的收益可以读成超额收益,组合有效就等价于一组线性约束「\(\alpha_i = 0\)」。Gibbons, Ross, and Shanken (1989)——也就是大名鼎鼎的 GRS——证明了这种情形下的检验统计量服从一个干净的 \(F\) 分布,没有任何讨厌的多余参数。

没有无风险资产时,一切都变了。因为此刻 零-beta 利率 (zero-beta rate) \(\gamma_0\) 是未知的、要从数据里估,而且它进入约束的方式是和 \(\beta_i\) 相乘。于是有效性的约束变成:

$$ H_0:\quad \alpha_i = \gamma_0\,(1-\beta_i),\qquad i=1,\dots,N. $$

注意这个 \(\gamma_0(1-\beta_i)\) ——两个未知量乘在一起,整个假设是非线性的。线性约束有一整套现成工具,非线性约束却几乎无章可循。Gibbons (1982) 给过一个 Gauss-Newton 数值过程来估 \(\gamma_0\),但计算量大;好在 Kandel (1984, 1986) 找到了显式解并给了几何解释,Shanken (1986) 又把它推广到市场模型参数化。估计的问题被优雅地解决了,可检验的问题还悬在那里。

于是 Shanken 退而求其次:Shanken (1985) 给了 P 值的一个小样本下界(外加一个基于 Hotelling \(T^2\) 的近似),Shanken (1986) 又给了一个上界。有了上界,你哪怕不靠渐近结果,也能在它足够小的时候直接拒绝有效性。

这就是这篇论文出场时的局面:估计已经解决,精确检验只有零碎的边界。Zhou 要做的,是把这道非线性的题,整体地解掉。

3 关键的一步:把似然比「翻译」成一个特征根

然后,真正关键的一步出现了。

作者的做法,本质上是换一种语言。我们先把市场模型写成矩阵形式:

$$ R = X\Theta + E, $$

其中 \(R\) 是 \(T\times N\) 的收益矩阵,\(X\) 是 \(T\times 2\)(第一列全 1,第二列是组合 \(p\) 的收益),\(\Theta\) 是 \(2\times N\) 的系数矩阵(第一行 \(\alpha\),第二行 \(\beta\))。在正态、跨期独立的假设下,对数似然是

$$ \log L(\Theta,\Sigma) = -\frac{TN}{2}\log(2\pi) - \frac{T}{2}\log|\Sigma| - \frac{1}{2}\,\mathrm{tr}\,\Sigma^{-1}\Omega,\qquad \Omega = (R-X\Theta)'(R-X\Theta). $$

把 \(\Sigma\) 用它的条件估计替换掉,似然就「浓缩」成只剩一个行列式要最小化:

$$ \log L(\Theta) = -\frac{T}{2}\log|\Omega| + C. $$

无约束时,最小化 \(|\Omega|\) 给出我们熟悉的 OLS 估计(逐个资产对市场回归)。但有约束时,作者通过一番代数变换,把「最小化行列式」这件事,归结成一个广义特征根问题:设 \(\lambda_1 \ge \lambda_2\) 是

$$ \bigl|\,X'Y(Y'Y)^{-1}Y'X - \lambda\, X'X\,\bigr| = 0 $$

的两个根(这里 \(Y\) 是把组合收益从各资产收益里「扣掉」后的残差矩阵)。于是两个行列式分别是:

$$ |\hat\Omega_c| = |Y'Y|\,(1-\lambda_1),\qquad |\hat\Omega_u| = |Y'Y|\,(1-\lambda_1)(1-\lambda_2). $$

约束估计只「吃掉」最大的那个根 \(\lambda_1\),无约束估计把两个根都吃掉。两者一比,奇迹发生了——多出来的那一份恰好是 \(\lambda_2\):

$$ \mathrm{LR} = \left(\frac{|\hat\Omega_u|}{|\hat\Omega_c|}\right)^{T/2} = (1-\lambda_2)^{T/2}. $$

这就是整篇论文的枢纽。似然比,被压缩成了唯一一个数 \(\lambda_2\) 的单调函数。\(\lambda_2\) 越大,\(\mathrm{LR}\) 越小,越该拒绝。而 \(\lambda_2\) 的取值被锁在 \(0\) 和 \(1\) 之间。检验从此可以只盯着这一个特征根——而特征根的分布,正是多元统计学一百年来反复研究的对象。

Tip

这正是「换语言」的威力。原本是一个棘手的、非线性的、带未知 \(\gamma_0\) 的假设检验;翻译成特征根之后,James (1964)、Pillai (1956)、Nanda (1947) 等人关于「行列式方程之根」的经典分布结果,一下子全都能用上了。(关于「换一把尺子就能让老问题焕然一新」的同类思路,可参见《正态分布早被否决,可我们的 CAPM 检验还在用它的尺子量天下》。)

4 \(\lambda_2\) 到底量的是什么?——夏普比的差距

但 \(\lambda_2\) 只是一个统计量吗?它有没有经济含义

有,而且很直白。借用 GRS (1989) 的结果,在有无风险资产可作参照时,

$$ Q = \frac{\cssId{a1}{S(p^*)^2} \;-\; \cssId{a2}{S(p)^2}}{\cssId{a3}{1 + S(p)^2}} $$

这里 \(S(\cdot)\) 是 夏普测度 (Sharpe measure)。\(S(p^*)\) 是事后有效前沿能给的最高单位风险收益,\(S(p)\) 是你手里那个组合的。两者之差,量的就是 \(p\) 离有效前沿有多远。而 \(\lambda_2\) 和 \(Q\) 之间是一个简单的递增关系:

$$ \lambda_2 = \frac{Q}{1+Q}. $$

直觉于是清清楚楚:如果市场组合的夏普比已经很贴近事后有效组合,\(Q\) 和 \(\lambda_2\) 都接近零,你几乎没有证据反对有效性;反过来,如果有效组合的单位风险收益明显甩开了市场组合,\(\lambda_2\) 就被顶上去,拒绝便顺理成章。检验「市场有没有效」,最终落到了「市场组合的夏普比,落后事后冠军多少」这一个量级上。 在没有无风险资产的零-beta 情形里,只要把 \(\gamma_0\) 的极大似然估计解释成借贷利率,这层关系依然成立。

5 麻烦的尾巴:一个躲不掉的「多余参数」

到这里似乎可以收工了,于是反转出现:\(\lambda_2\) 的精确分布,即便在原假设下,也依赖一个未知参数

这是它和 GRS 最大的不同。GRS 的 \(F\) 分布在原假设下干干净净;而这里,\(\lambda_2\) 的精确密度依赖一个 多余参数 (nuisance parameter) \(\omega_1\)。具体说,设 \(\omega_1 \ge \omega_2 \ge 0\) 是某个行列式方程的两个根;原假设成立当且仅当 \(\omega_2 = 0\),但 \(\omega_1\) 的值你并不知道。

怎么办?作者给了三件武器:

其一,精确 P 值是可算的。 你可以用 \(\omega_1\) 的极大似然估计代入,再用论文附录 B 的数值方法把 P 值算出来。数值结果显示,\(\omega_1\) 的小幅扰动并不怎么改变 P 值——这让「代入估计值」这件事变得相当稳健。

其二,单调性(Theorem 1)。 在 \(N\ge 2\)、\(T\ge N+2\) 时,\(\mathrm{Prob}(\lambda_2 < x\mid\omega_1)\) 是 \(\omega_1\) 的减函数。这意味着:如果你用一个偏高的 \(\omega_1\) 去算,会低估真实概率,从而得到一个下界;用偏低的 \(\omega_1\),则得到上界。

其三,一对最优界(Theorem 2 与 Theorem 3)。 顺着单调性走到两个极端: - \(\omega_1 \to \infty\) 给出 P 值的最优下界,形式上是一个 \(F\) 分布; - \(\omega_1 = 0\) 给出最优上界,由 Nanda (1947) / Pillai (1956) 的结果写成闭式。

这两个界既最优、又完全不含未知参数,计算还都很轻。它们的用法是非对称的:上界若很小,就能直接拒绝有效性——比如算出上界是 5%,那真实显著性水平必然 \(\le 5\%\),于是你可以在通常的 5% 水平上断言「拒绝」;下界若很大,则可以接受有效性。作者特别指出,他这个上界比 Shanken (1986) 的更,在「假设濒临被拒绝」的临界地带尤其好用。

6 数据说话:CRSP 指数,多数时候不有效

最后是实证。作者用 1926–1986 的月度数据,把每个连续的五年期切成一段,在一个含 十二个行业组合 的市场模型里,检验 CRSP 市值加权指数的有效性。结论相当干脆:

那这会不会只是 一月效应 (January effect) 在捣乱?作者把一月的收益删掉重做了一遍检验——以此回应这个再自然不过的质疑。整体而言,市值加权指数作为「有效组合」的身份,在大多数子样本里都站不住脚。这与 Roll (1977) 那条著名批评遥相呼应:我们检验的,从来不是抽象的「市场」,而是某个具体的代理指数。

7 文献脉络

把这条线从头捋一遍,会看到一个清晰的接力。

起点是 Markowitz (1952) 的均值-方差框架,和随后 Sharpe (1964)、Lintner (1965)、Black (1972) 把它推到均衡、长成 CAPM 与零-beta CAPM。检验的方法论则由 Gibbons (1982) 用多元 LRT 开张,紧接着 Stambaugh (1982) 用模拟敲响了「渐近不可靠」的警钟,Shanken (1985) 用一个 0.01 对 0.92 的例子把警钟敲成了警报。

随后兵分两路。估计这一支:Kandel (1984, 1986) 解出零-beta 利率的显式 ML 估计,Shanken (1986) 推广到市场模型。检验这一支:有无风险资产时,GRS (1989) 给出干净的 \(F\) 检验;无风险资产时,Shanken (1985, 1986) 给出零散的上、下界。

本文 Zhou (1991) 站在的,正是「无风险资产 + 精确检验」这个还空着的格子里:用特征根把 LRT 重写,补上精确分布,并把上、下界做到最优。它和同年前后那批「把精确小样本性质补全」的工作——比如对 GMM 小样本表现的反思(参见《「拒绝」太多,还是「相信」太少:GMM 在小样本里的两副面孔》)——共享着同一种关切:别让渐近近似替你下错判决。

文献脉络时间线
文献脉络时间线(按发表年份排布;红色为本文)

8 评论与延伸(Q&A + 研究方向)

(a)几个可能的疑问

Q:这和 GRS (1989) 到底差在哪?为什么不能直接用那个 \(F\) 检验?

GRS 处理的是有无风险资产的情形,此时有效性是线性约束「\(\alpha_i=0\)」,统计量在原假设下服从干净的 \(F\) 分布,不含未知参数。本文处理没有无风险资产:零-beta 利率 \(\gamma_0\) 未知且与 \(\beta_i\) 相乘,约束 \(\alpha_i=\gamma_0(1-\beta_i)\) 是非线性的,精确分布因此多了一个多余参数 \(\omega_1\)。两者不是替代,而是互补——一个填上了另一个留下的空格。

Q:既然精确分布依赖未知的 \(\omega_1\),那这个「精确检验」还算数吗?

算数,靠的是两手。一手是用 \(\omega_1\) 的 ML 估计代入数值计算 P 值,而且作者验证了 P 值对 \(\omega_1\) 的扰动不敏感;另一手是那对与 \(\omega_1\) 无关的最优上下界。上界小就拒绝、下界大就接受,很多时候根本不需要知道 \(\omega_1\) 的真值。

Q:特征根 \(\lambda_2\) 凭什么能代表「偏离原假设的程度」?

两个角度。统计上,\(\lambda_2\) 越大,似然比 \(\mathrm{LR}=(1-\lambda_2)^{T/2}\) 越小,原假设下的最大似然相对越低;拟合上,\(\lambda_2\) 越小,约束与无约束模型的「广义方差」之比越接近,说明加上有效性约束几乎不损失拟合。经济上,\(\lambda_2 = Q/(1+Q)\) 直接绑定了市场组合与事后有效组合的夏普比差距。

Q:上界比 Shanken (1986) 更紧,这件事重要吗?

在临界地带很重要。当一个组合的有效性「差一点点就被拒绝」时,更紧的上界可能正好把 P 值压到 5% 以下,让你能下「拒绝」的判决;松一点的界则只能两手一摊。换句话说,紧致度在最需要做决定的地方兑现价值。

Q:拒绝了 CRSP 指数的有效性,是不是就等于否定了 CAPM?

严格说,是否定了「以该指数为市场代理的零-beta CAPM」。这正是 Roll (1977) 批评的要害:真正的市场组合不可观测,我们检验的永远是某个代理。删掉一月收益、换行业分组都是为了排除特定干扰,但「代理 vs 真市场」这层根本性的含糊,方法本身解决不了。

Q:正态、跨期独立的假设,会不会让结论很脆弱?

这是整套多元统计框架的命门。收益的厚尾、条件异方差、时变 beta 都被假设掉了。论文的精确性是「在正态假设之内」的精确;一旦分布偏离正态,名义上的精确 P 值同样会有偏。这也是后续文献(如改用更稳健的收益分布、或转向 GMM)要补的方向。

(b)几个可能的研究问题与提案

  1. 把特征根检验搬到公司债组合的有效性上。 【经济故事】信用市场近年涌现出大量「因子」与「有效前沿」叙事,但公司债收益厚尾严重、流动性噪声大,渐近检验很可能像 1985 年的 CAPM 一样误判。用 \(\lambda_2\) 型精确/有界检验去问「某个信用因子组合是否有效」,比直接套 \(F\) 检验更稳妥。 【可行性】中。数据用 TRACE + 债券因子收益即可;难点在于债券的非正态远比股票严重,需要把特征根框架与稳健/自助法结合,纯正态版本说服力有限。

  2. 外资重仓组合 vs 本地有效前沿。 【经济故事】外资持有人常被指「追涨」或「扎堆」,一个可检验的问法是:外资的市值加权持仓组合,是否落在本地市场的有效前沿上?落后多少(即 \(Q\))可以量化外资配置的「无效率溢价」。 【可行性】中。需要逐国的外资持仓快照(如 FactSet/EPFR)配合本地资产收益;识别上要小心持仓是内生选择的结果,\(\lambda_2\) 度量的是事后差距而非因果。

  3. 用上下界做「滚动判决」,画出有效性的时间地图。 【经济故事】本文按五年期切片,本质上已是一种时变检验。把最优上下界做成逐月滚动窗口,可以画出「市场组合在哪些时段明显无效」的时间序列,再去和宏观状态、流动性危机对照。 【可行性】高。计算成本低(界是闭式或轻量数值),现成股票/行业数据即可复现;主要工作量在窗口选择与多重检验校正。

  4. 把多余参数 \(\omega_1\) 的敏感性做成正式的稳健性诊断。 【经济故事】作者说 P 值对 \(\omega_1\) 不敏感,但这只是数值观察。能否给出「P 值对 \(\omega_1\) 的弹性」的解析刻画,从而事先判断哪些样本里「代入估计值」是安全的、哪些必须依赖上下界? 【可行性】中偏高。属于纯方法论推导,基于论文 Theorem 1 的单调性即可展开,doable,但发表价值取决于能否给出干净的可用边界。

9 我的判断

这篇论文的贡献,是方法论上的一次干净收口。它没有发明新的经济学,而是把一个被「非线性 + 未知零-beta 利率」拖了近十年的检验难题,用一个特征根重新表述,从而把多元统计的整座军火库接了进来——精确分布、最优上界、最优下界,一次给齐。在「先估计、后检验」这条接力线上,它补上了最后、也最硬的一棒。和 GRS (1989) 并置来看,二者恰好拼成了「有/无无风险资产」的完整版图。

要说担忧,集中在两点。其一是正态假设:整套精确性都活在正态、跨期独立的框架里,而月度、尤其是行业组合收益的厚尾和条件异方差是出了名的,名义精确未必等于实际精确。其二是 Roll 批评绕不过去:拒绝的是「CRSP 指数」的有效性,而非那个不可观测的真市场——删一月、换分组都缓解不了这个根本含糊。

后续我最想看到的,是把这套特征根思路接到非正态、乃至条件分布上去:当收益服从更现实的厚尾分布时,\(\lambda_2\) 的(有界)分布还能不能保持可算?如果能,那这把 1991 年磨出来的尺子,就不只是 CAPM 检验的历史注脚,而能直接量一量今天因子动物园里那些层出不穷的「有效前沿」。

参考文献