正态分布早被否决，可我们的 CAPM 检验还在用它的尺子量天下

[2003 RFS] Return Distributions and Improved Tests of Asset Pricing Models

Jun He June 02, 2026

资产定价椭圆分布 CAPM 检验稳健统计

Note

本文读的是 Vorkink (2003, Review of Financial Studies)：在「收益率服从椭圆分布」这一既弱又恰好能撑起线性 CAPM 的假设下，作者用 HLV 半参数估计构造了一个新的资产定价检验。结果出人意料——在按市值排序的组合上，这个新检验不拒绝 CAPM，而同一份数据上的 OLS 与 GMM 检验都强烈拒绝；进一步追查，拒绝的「元凶」竟是小盘股里那么几个极端收益。一句话：很多对 CAPM 的拒绝，也许只是被几个离群点和一把错配的尺子合谋制造出来的。

1 引言：一个所有人都承认、却所有人都不当真的事实

做实证资产定价的人，几乎没有谁不知道这样一个「程式化事实 (stylized fact)」：股票收益率不是正态的。它的三阶矩（偏度）和四阶矩（峰度）都偏离正态分布，尤其是尖峰厚尾，这一点早在 Mandelbrot (1963) 和 Fama (1965) 那里就被反复指出，后来 Affleck-Graves and McDonald (1989)、Zhou (1993) 又一次次确认。

可奇怪的是，承认归承认，真到了检验资产定价模型的时候，大家用的工具却几乎全部建立在「正态」这块地基上。最常用的普通最小二乘 (ordinary least squares, OLS)，只有在多元正态假设下才是有效率的；后来很多人转向 Hansen (1982) 的广义矩估计 (generalized method of moments, GMM)，它确实大大放松了分布假设——但放松是有代价的：在非正态下，GMM 一般达不到最小方差，检验的功效 (power) 因此打了折扣，甚至 Ferson and Foerster (1994) 还发现 GMM 检验统计量在有限样本里会有「反常」的表现。

于是我们陷入一个尴尬的处境：明知道收益率不正态，手里的检验工具要么假装它正态（OLS），要么干脆对分布形状什么都不说（GMM）。前者有偏，后者无力。难怪关于「风险与收益到底是什么关系」这个金融学最古老的问题，至今众说纷纭。

那么，一个自然的问题是：有没有第三条路——既不假装正态，又不彻底放弃对分布的刻画，而是恰好用上「收益率到底长什么样」这条信息？

这正是本文的出发点。

2 椭圆分布：那个「刚刚好」的假设

要理解这篇论文，得先认识一个名字听起来吓人、其实很贴心的分布族：椭圆分布 (elliptical distributions)。

一个随机向量 $u$ 是椭圆分布的，当且仅当它的密度 $p(u)$ 可以写成

$$ p(u) = g\!\left(u^{\top}\Sigma^{-1}u\right) $$

的形式——也就是说，密度只通过一个二次型 $u^{\top}\Sigma^{-1}u$ 依赖于 $u$，等高线是一圈套一圈的椭球。正态分布是它的一个特例（取 $g$ 为指数函数），但这个家族还装得下很多别的成员：带条件异方差的 GARCH、方差无穷的柯西分布、对称的 Pareto–Lévy、中心化的学生 $t$ 分布……它们共同的特点是：偏度可以没有，峰度却可以随便调。

为什么偏偏是椭圆分布？这里藏着本文最讲究的一步。Berk (1997) 证明过一个相当深刻的结论：当投资者最大化「行为良好」的期望效用时，要想得到线性 CAPM，椭圆分布是一个必要条件（相关讨论亦见 Chamberlain (1983) 与 Owen and Rabinovitch (1983)）。换句话说，椭圆性不是为了数学方便硬塞进来的额外假设，它恰恰是线性 CAPM 这个被检验对象自带的前提。

这就妙了。我们检验 CAPM，本来就默认了收益率是椭圆的；那为什么不干脆把「椭圆」这条信息用足，而要么往上加一个更强的「正态」（OLS），要么往下退到一个更弱的「什么都不假设」（GMM）呢？椭圆分布在这里是那个刚刚好的落点：它允许厚尾（这是数据里最普遍的特征），又不至于宽泛到丢掉效率。

（关于「正态被数据否决、但这件事到底要不要紧」的另一面，可参见《正态分布被数据一票否决，你的组合却几乎毫发无伤》——那篇说的是组合选择，本文说的是模型检验，两条线在「正态假设值不值得较真」这一点上正好对望。）

3 三把尺子：OLS、GMM 与 HLV

要把故事讲透，先把被检验的模型摆出来。本文研究的是均值-方差期望收益模型，即资产 $i$ 的超额收益线性地依赖于它对一组因子的协方差（beta）：

$$ r_{i,t} = \alpha_i + \beta_i F_t + u_{i,t}, \qquad i=1\ldots N,\ t=1\ldots T $$

写成向量形式就是

$$ r_t = \alpha + \beta F_t + u_t $$

这里 $r_t$、$u_t$、$\alpha$ 都是 $N\times 1$，$\beta$ 是 $N\times k$。检验思路再经典不过：如果因子 $F$ 真的张成了均值-方差前沿、模型真的解释了期望收益，那么截距 $\alpha$ 在统计上就该全为零。于是原假设是

$$ H_0:\ \alpha_i = 0,\quad i = 1,\ldots,N $$

剩下的，就是用什么尺子去量这个 $\alpha$。本文摆出了三把。

第一把，OLS。标准的 Wald 统计量是

$$ J_{OLS} = \hat\alpha^{\top}\,\mathrm{var}(\hat\alpha)^{-1}\,\hat\alpha \;\overset{a}{\sim}\; \chi^2_N $$

它的问题在前面说过：一旦存在与因子相关的条件异方差，OLS 的标准误就有偏，检验的 size 失准。Zhou (1993) 给出过一个针对峰度的乘法修正

$$ J_{C\text{-}OLS} = J_{OLS}\cdot \eta^{-1} \;\overset{a}{\sim}\; \chi^2_N $$

其中 $\eta = 1+\#$，$\# = \kappa_x/\!\left(N(N+2)\right)$，$\kappa_x$ 是 Mardia (1970) 的多元峰度度量。正态时 $\#=0$，修正消失；有超额峰度时 $\#>0$，于是 $J_{C\text{-}OLS} < J_{OLS}$。但 Zhou 的修正只动了「方差」，没动「估计本身」——它把高阶矩的信息用在了纠偏上，却没用在提高估计效率上。

第二把，GMM。矩条件来自 $E(u_t)=E(u_tF_t)=0$：

$$ s(\alpha,\beta) = \sum_{t=1}^{T}\begin{pmatrix} u_t \\ u_t F_t\end{pmatrix} $$

本文分析了两个 GMM 统计量，一个在原假设约束下估计（$J_{GMM1}$），一个跟随 Harvey and Zhou (1993) 用约束与非约束目标函数之差构造（$J_{GMM2}$）。GMM 的好处是稳健，坏处是非正态下不再有效率，功效不足。

第三把，也是本文的主角，HLV。这名字来自 Hodgson, Linton, and Vorkink (2002)。它和 GMM 的根本区别在于：GMM 只在 OLS 估计的基础上修标准误，而 HLV 把椭圆假设直接揉进了系数估计本身。它是半参数的——用非参数的部分让数据自己决定分布的峰度形状（即那个未知的 $g$），用参数的部分锁定「椭圆」这个结构。两者配合，得到的估计 $\tilde\theta$ 有一个漂亮的渐近性质：

$$ \sqrt{T}\left(\tilde\theta - \theta_0\right) \;\Rightarrow\; N\!\left(0,\; \cssId{a1}{I^{-1}}\right) $$

这一行就是整篇文章的「核武器」。它说的是：$\tilde\theta$ 的渐近方差等于 $I^{-1}$，也就是极大似然估计的方差。在不知道收益率服从哪种椭圆分布的前提下，HLV 估计的效率却与「上帝告诉你分布」时的 MLE 一样高。这就是半参数估计里所谓的「自适应性」——非参数部分负责从数据里学出峰度，参数部分负责守住椭圆结构，两者拼起来，刚好把信息榨干而又不过度承诺。

有了这个分布，检验就水到渠成。仿照 $J_{OLS}$，本文构造

$$ J_{HLV} = \tilde\alpha^{\top}\,\mathrm{var}(\tilde\alpha)^{-1}\,\tilde\alpha \;\overset{a}{\sim}\; \chi^2_N $$

形式上和 OLS 的 Wald 检验一模一样，区别全在于 $\tilde\alpha$ 是用 HLV 估出来的——它对厚尾、对离群点，都更「拎得清」。

4 数据：收益率到底服从什么分布？

讲完工具，得回头验一件事：凭什么说收益率是椭圆的？

数据是 CRSP 1963 年 7 月到 1995 年 12 月的月度收益，覆盖 NYSE、NASDAQ、AMEX。作者把股票排成两套各 10 个的十分位组合：一套按市值 (size) 排，这是实证里用滥了的经典数据集；另一套按前期表现 (momentum) 排，依据 Jegadeesh and Titman (1993) 的发现，用 $t-12$ 到 $t-2$ 的累计收益分组、持有一个月。

单变量统计先给了一个清晰的图景：按市值排序的组合里，最小那一档的超额峰度高达 3.67，并几乎单调地降到最大档的 0.78；所有组合的峰度都在 .01 水平上拒绝正态，而偏度只有 5 个组合显著。动量组合则呈现另一种规律——偏度从输家档（decile 1）的 +1.10 单调下降到赢家档（decile 10）的 -0.58，这与 Harvey and Siddique (2000) 的发现一致。

接着，多元层面的检验（Table 2）把这件事钉死了：Mardia (1970) 的多元偏度和多元峰度，在所有情形下都在 .01 水平拒绝正态。正态分布，被干净利落地否决了。

但真正关键的一步在于：否决了正态，不等于否决了椭圆。本文用 Beran (1979) 专门针对「椭圆对称」的检验统计量 $ES_T$，去问一个比 Zhou (1993) 更一般的问题——收益率是不是椭圆分布的？结果是：不拒绝。按市值排序的收益其统计量为 -1.71（p 值 .09），CAPM 残差为 -1.22（p 值 .22）；动量组合的收益为 0.58（p 值 .56）。

于是地基稳了：正态不成立，椭圆站得住。那把「刚刚好」的尺子，是有资格用的。

5 反转：被几个离群点制造出来的拒绝

现在到了全文最戏剧性的部分。

把三把尺子同时架到按市值排序的数据上检验 CAPM，会看到什么？

OLS 和 GMM 都强烈拒绝 CAPM，而 HLV 不拒绝。

如表 3 所示，同一份数据、同一个模型，只因换了估计方法，结论就走向了相反的方向。这不是小数点后的差异，而是「拒绝」与「不拒绝」的定性翻转。

Table 3: provides the results from these estimations. In general, we find

那到底是谁错了？作者顺藤摸瓜，把 OLS/GMM 的拒绝拆开看，发现拒绝主要由少数几个极端收益驱动，而这些离群点的影响力，集中砸在了小市值的那几档上。OLS 对离群点没有抵抗力——几个尾部的大数，就能把截距 $\hat\alpha$ 撬出零点；而 HLV 因为让数据自己学出了厚尾的形状，对这些离群点是稳健的，不会被它们牵着走。

换句话说：所谓「CAPM 被市值组合拒绝」，很可能不是 CAPM 错了，而是几个离群点 + 一把假设正态的尺子，合谋制造出来的幻觉。这与 Knez and Ready (1997) 的精神遥相呼应——他们用「最小截尾平方 (least trimmed squares)」发现，Fama and French (1992, 1993) 那类横截面回归对离群点高度敏感。

更有意思的是动量数据集，它给出了一个方向相反的教训。在这里离群点同样作祟，但它们主要系在一月份的收益上；而且这一次，离群点让 OLS/GMM 低估了线性 CAPM 的定价误差。在一个极端的对比里，OLS/GMM 与 HLV 估出的期望年收益之差竟高达 5%。所以离群点不是单向地「制造拒绝」——它既能凭空造出拒绝，也能把真实的错误定价悄悄抹平，关键看尺子准不准。

（CAPM 被各种异象「拒绝」的故事由来已久，关于风险其实能不能收编这些异象，可参见《会「看天」的 beta：当风险收编了价值与规模，动量却躲进了商业周期》；而把高阶矩——协偏度——正式请进定价核的努力，可参见《期权不该是配角：当衍生品第一次挤进「定价核」》。）

6 蒙特卡洛：新尺子到底准不准、灵不灵？

光在真实数据上「不拒绝」还不够——万一这把新尺子只是钝，谁都拒绝不了呢？所以本文的第三块贡献，是用蒙特卡洛模拟去考 size 和 power 这两件事。

结论相当干脆：

在有峰度的环境下，HLV 检验的功效 (power) 显著高于 OLS 和 GMM——也就是说，模型真错时，HLV 更能抓出来，它不是因为钝才不拒绝；
即便存在偏度（椭圆分布本不允许偏度，这是个故意为难的设定），HLV 的 size 依然良好；
反观 GMM，当被检验的组合数 $N$ 增大、或峰度增大时，它的表现明显恶化——这给那种「GMM 天然稳健」的迷信泼了一盆冷水。

所以 HLV 在那个真实数据上的「不拒绝」，是一把又准（size 对）又利（power 高）的尺子给出的，不是钝刀子的敷衍。

7 文献脉络

把这条线捋一捋，会看到它其实是两股水流的汇合。

一股是「收益率不正态」的实证传统：Mandelbrot (1963)、Fama (1965) 最早敲响警钟，Affleck-Graves and McDonald (1989)、Zhou (1993) 接力确认。另一股是「资产定价检验」的方法论传统：Sharpe (1964)、Lintner (1965) 立起 CAPM，Gibbons, Ross, and Shanken (1989) 给出经典的 GRS 检验，Hansen (1982) 带来 GMM，MacKinlay and Richardson (1991)、Harvey and Zhou (1993) 把 GMM 用于均值-方差效率检验。

两股水流在 Berk (1997) 那里被接通——他证明椭圆分布是线性 CAPM 的必要条件，从此「用椭圆分布做检验」既有统计上的理由，又有理论上的根基。Beran (1979) 提供了检验椭圆对称性的工具，Hodgson, Linton, and Vorkink (2002) 造出了能在椭圆假设下高效估计的半参数方法。本文（Vorkink, 2003）就坐在这个交汇点上：第一次把椭圆性检验、半参数高效估计、和经典的 CAPM/动量数据放进同一个框架里对账。与此同时，把高阶矩正式纳入定价的另一支——Harvey and Siddique (2000) 的协偏度、Dittmar (2002) 的协峰度——则是这条脉络在「加因子」方向上的并行分支。

8 评论与延伸（Q&A + 研究方向）

(a) 几个可能的疑问

Q：椭圆分布连偏度都装不下，可数据里偏度明明存在（动量组合从 +1.10 到 −0.58），这个假设是不是太理想化了？

这正是本文最该被追问的地方，作者也没回避。他的辩护是双层的：一是 Beran (1979) 的 $ES_T$ 检验在这些数据集上确实不拒绝椭圆性（动量收益 p 值高达 .56），说明偏度虽存在但没大到推翻椭圆；二是蒙特卡洛显示，即使人为注入偏度，HLV 的 size 仍然良好。换句话说，椭圆是个「近似够用」的工作假设，而非字面真理。

Q：HLV 在市值组合上「不拒绝」CAPM，会不会只是因为这把尺子太钝、谁都拒绝不了？

这是最致命的质疑，而蒙特卡洛恰恰是为堵这个漏洞设计的。结果显示 HLV 在有峰度时功效高于 OLS/GMM——模型真错时它抓得更准。所以「不拒绝」不是无力，而是 OLS/GMM 的「拒绝」本身有水分。

Q：和 Zhou (1993) 的峰度修正比，HLV 到底新在哪？

Zhou 的修正是「事后纠偏」：先用 OLS 估出系数，再乘一个与峰度有关的因子去修标准误，系数本身没变。HLV 是「事中用信息」：把椭圆结构和数据学出的峰度直接写进估计过程，因此系数 $\tilde\alpha$ 和标准误一起改善，才换来了自适应的效率。一个改尺子的刻度，一个换了把尺子。

Q：离群点驱动拒绝，那为什么不直接 winsorize 或剔除异常值，何必上半参数？

因为「剔除」是武断的——剔多少、按什么标准，都掺主观，而且会丢信息。HLV 不剔除任何数据，而是让非参数的密度估计自动给厚尾「降权」，这是一种内生于估计框架的稳健，比手工截尾更有原则、也更可复制。

Q：动量数据集上离群点让 OLS「低估」错误定价，这和市值组合上「高估（制造拒绝）」方向相反，会不会自相矛盾？

不矛盾，反而是同一机制的两面。OLS 对离群点没有抵抗力，离群点把估计往哪个方向拽，取决于它们落在截距空间的哪一侧。市值组合里离群点把 $\hat\alpha$ 推离零（造出拒绝），动量组合里离群点恰好把 $\hat\alpha$ 拉向零（掩盖错误定价）。统一的教训是：别让几个尾部观测替你下结论。

Q：这对「CAPM 到底死没死」这场公案意味着什么？

它把战线从「CAPM 对不对」往前挪了一步，变成「我们拒绝 CAPM 的证据，有多少是方法的赝品」。本文不是给 CAPM 翻案——它在动量上照样发现了 CAPM 解释不了的东西——而是提醒：在宣判一个模型之前，先确认手里的尺子没被几个离群点带偏。

(b) 几个可能的研究问题与提案

1. 把椭圆-半参数检验搬到公司债的因子模型上。

【经济故事】公司债收益的厚尾比股票更夸张（违约是天然的左尾事件），而近年公司债因子模型（如四因子）争议不断，甚至出现过因时间对齐错误而被撤稿的案例（见《一篇被作者亲手撤回的 JFE》）。如果股票上「OLS 拒绝、HLV 不拒绝」的故事在债券上重演，那很多被宣布显著的债券因子，可能也是离群点的赝品。

【可行性】中。数据上 TRACE + 因子构造是现成的，难点在于债券收益的偏度比股票更强，椭圆假设更容易被 Beran 检验拒绝；可行的折中是先做椭圆性检验筛出适用的子样本，再上 HLV。

2. 外资持有人冲击下的收益分布与检验稳健性。

【经济故事】外资大举进出会在短窗口内制造极端收益（资本外逃、抢筹），这些恰恰是 OLS 最怕的离群点。一个自然的问题是：用外资可投资度变化做事件，检验「外资进入是否改变了资产定价关系」时，结论对估计方法有多敏感？

【可行性】中。可投资度（investability）数据和跨国持仓数据可得（参见本博客若干外资主题文章），识别上可借外资开放的准自然实验；难点是 HLV 在面板/条件设定下的扩展不平凡。

3. 离群点诊断作为「异象稳健性」的标准体检项。

【经济故事】因子动物园里大量异象，会不会和市值组合的 CAPM 拒绝一样，是少数离群点撑起来的？把「去掉/降权离群点后异象是否存活」做成一项标准化诊断，可能像 Knez and Ready (1997) 那样筛掉一批伪异象。

【可行性】高。这是纯粹的再检验工作，数据全是公开的横截面收益，方法成熟（最小截尾平方、HLV、影响函数），几乎立刻 doable，关键是把诊断做成可复制的流水线。

4. 一月效应与离群点的因果拆解。

【经济故事】本文发现动量组合的离群点「主要系在一月份」。这暗示著名的一月效应，有没有可能部分是少数极端月份在统计上的杠杆作用，而非一个稳定的季节性现象？

【可行性】高。日历效应数据极易获取，可用逐月剔除 + 影响力分析直接拆解，识别清晰，是个干净的小课题。

9 我的判断

这篇论文的贡献，我认为不在于「证明了 CAPM 是对的」——它没有，也没打算这么做。它真正立得住的，是把一个方法论的盲点摆到了台面上：我们对资产定价模型的大量拒绝，可能不是模型的失败，而是估计方法在非正态、有离群点的现实里失灵的产物。用一个恰好与线性 CAPM 自洽的椭圆假设、一个能达到 MLE 效率的半参数估计，再配上 size/power 双过关的蒙特卡洛，作者把这个论点做得相当扎实。尤其难得的是动量那个反向结果——离群点既能造拒绝、也能掩盖错误定价——它防止了全文滑向「HLV 万能、CAPM 复活」的廉价结论。

对识别的担忧也有两点。其一，椭圆假设终究排斥偏度，而数据里偏度真实存在，$ES_T$ 检验「不拒绝」更多是样本量下的「证据不足」，而非「确证椭圆」；一旦换到偏度更强的资产（如公司债、期权），这把尺子的适用边界在哪，需要更系统的刻画。其二，样本止于 1995 年，而 2008 年以后市场的尾部行为、相关性结构都变了——这套方法在危机样本上是否还稳健，是个开放问题。

后续我最想看到的，是把这套「先验椭圆性、再上半参数高效检验」的流程，制度化成实证资产定价的标准前置步骤：在宣布一个因子显著、一个模型被拒之前，先回答一句——这个结论，扛得住几个离群点的拷问吗？

参考文献

Affleck-Graves, J., and B. McDonald (1989). Nonnormalities and Tests of Asset-Pricing Theories. Journal of Finance 44, 889–908.
Beran, R. (1979). Testing for Ellipsoidal Symmetry of a Multivariate Density. Annals of Statistics 7, 150–162.
Berk, J. (1997). Necessary Conditions for the CAPM. Journal of Economic Theory 73, 245–257.
Chamberlain, G. (1983). A Characterization of the Distributions that Imply Mean-Variance Utility Functions. Journal of Economic Theory 29, 185–201.
Dittmar, R. (2002). Nonlinear Pricing Kernels, Kurtosis Preference, and Evidence from the Cross-Section of Equity Returns. Journal of Finance 57, 369–403.
Fama, E. (1965). The Behavior of Stock Market Prices. Journal of Business 38, 34–105.
Fama, E., and K. French (1992). The Cross-Section of Expected Returns. Journal of Finance 47, 427–465.
Fama, E., and K. French (1993). Common Risk Factors in the Returns on Stocks and Bonds. Journal of Financial Economics 33, 3–56.
Ferson, W., and S. Foerster (1994). Finite Sample Properties of the Generalized Method of Moments in Tests of Conditional Asset Pricing Models. Journal of Financial Economics 36, 29–55.
Gibbons, M., S. Ross, and J. Shanken (1989). A Test of the Efficiency of a Given Portfolio. Econometrica 57, 1121–1152.
Hansen, L. (1982). Large Sample Properties of Generalized Method of Moments Estimators. Econometrica 50, 1029–1054.
Harvey, C., and A. Siddique (2000). Conditional Skewness in Asset Pricing Tests. Journal of Finance 55, 1263–1295.
Harvey, C., and G. Zhou (1993). International Asset Pricing with Alternative Distributional Specifications. Journal of Empirical Finance 1, 107–131.
Hodgson, D., O. Linton, and K. Vorkink (2002). Testing the Capital Asset Pricing Model Efficiently under Elliptical Symmetry: A Semiparametric Approach. Journal of Applied Econometrics (forthcoming).
Jegadeesh, N., and S. Titman (1993). Returns to Buying Winners and Selling Losers. Journal of Finance 48 (referenced in text).
Knez, P., and M. Ready (1997). On the Robustness of Size and Book-to-Market in Cross-Sectional Regressions. Journal of Finance 52, 1355–1382.
Lintner, J. (1965). The Valuation of Risky Assets and the Selection of Risky Investments in Stock Portfolios and Capital Budgets. Review of Economics and Statistics 47, 13–37.
MacKinlay, A. C., and M. Richardson (1991). Using Generalized Method of Moments to Test Mean-Variance Efficiency. Journal of Finance 46, 511–527.
Mandlebrot, B. (1963). The Variation of Certain Speculative Prices. Journal of Business 36, 394–419.
Mardia, K. (1970). Measures of Multivariate Skewness and Kurtosis with Applications. Biometrika 57, 519–530.
Owen, J., and R. Rabinovitch (1983). On the Class of Elliptical Distributions and Their Applications to the Theory of Portfolio Choice. Journal of Finance 38, 745–752.
Sharpe, W. (1964). Capital Asset Prices: A Theory of Market Equilibrium Under Conditions of Risk. Journal of Finance 19, 425–442.
Vorkink, K. (2003). Return Distributions and Improved Tests of Asset Pricing Models. Review of Financial Studies 16(3), 845–874.
Zhou, G. (1993). Asset Pricing Tests Under Alternative Distributions. Journal of Finance 48, 1927–1942.