股利收益率真能预测收益吗?——一桩被「标准误」改写的旧公案

[2007 RFS] Stock Return Predictability: Is it There?
Note

本文读的是 Ang & Bekaert (2007, Review of Financial Studies):长期以来人们相信股利收益率(dividend yield)能强烈、且随期限越长越强地预测股票超额收益。本文把这条「常识」拆开来看,发现它在很大程度上是标准误用错了的产物——一旦改用 Hodrick (1992) 标准误,长期可预测性几乎消失;真正稳健的预测变量其实是短期利率,而且只在短期有效。

1 一条「人人都信」的预测

做资产定价的人,大概没有谁没在某门课、某篇论文里见过这样一张图:把股利收益率(dividend yield)放进回归,去预测未来的股票超额收益,斜率为正、而且期限越长、R² 越高、t 值越大。于是教科书般的结论就立住了:股价里那个会上下浮动的「分母」——预期收益——是可以被股利收益率读出来的,而且读得越远越准。

这就是 Ang 和 Bekaert 在文章开头所说的「传统智慧」(conventional wisdom)。它的逻辑链条其实很优雅。从一个无泡沫的理性定价模型出发,价格–股利比(price-dividend ratio)等于未来现金流用时变贴现率折现后的期望值。既然价格–股利比(或者它的倒数,股利收益率)会随时间波动,这个波动就只能来自三个源头之一:预期现金流增长在变、预期无风险利率在变、或者风险溢价在变。而大量文献(Campbell, 1991;Cochrane, 1992)发现,股利收益率几乎预测不了未来的股利增长——于是顺理成章地,它波动的「绝大部分」就被归给了预期收益的变化。换句话说:股利收益率高,是市场在告诉你「未来收益会高」。

这套说法太顺了,顺到几乎没人停下来问一句:那张「期限越长越显著」的图,会不会本身就是个假象?

Note

这正是本文的切口。它不是要推翻可预测性,而是要先问一个更基础的问题——我们用来判定「显著」的那把尺子,本身准不准?

2 同一组数据,两种读数

事情的张力,从一组对照里就能看出来。

作者用美国 S&P 综合指数 1935–2001 的季度数据,跑了最经典的单变量回归:用股利收益率预测未来 k 个季度的年化超额收益。如果把样本截到 1990 年(也就是大多数早期文献所用的窗口),结果漂亮得无可挑剔:一期系数高达 0.2203(t = 2.416),四期 0.2383(t = 3.097),二十期 0.1787(t = 2.819)——无论哪个期限,t 值都在 2.4 以上,跨期限的联合检验 p 值只有 0.014。这正是 Campbell & Shiller (1988a,b) 一代人确立的「强可预测性」。

可是,只要把 1990 年代的十年加回去,同一个回归就垮了一半:一期系数掉到 0.1028(t = 1.824),四期 0.1128(t = 2.030),二十期 0.1028(t = 1.364)——除了一年期勉强擦到 5% 边缘,其余都不显著;跨期限联合检验的 p 值,从 0.014 一路飙到 0.587

很容易把锅甩给 1990 年代那场大牛市(股利收益率被压到历史低位)。但作者提醒:他们的数据一直延伸到 2001 年底,已经把随后那段熊市的一部分也吃进去了。所以这不只是「牛市惹的祸」。

接着,一个自然的问题是:那 1935–1990 那张「全期限显著」的图,显著性到底从哪来?这里就埋着本文最关键的一步——它取决于你用的是哪一种标准误。

3 识别与推断:回归、重叠,与 Hodrick 标准误

要讲清楚这一步,得先把回归本身摆出来。本文的核心回归是:

$$\tilde{y}_{t+k} = \alpha_k + \beta_k' z_t + \varepsilon_{t+k,k}$$

其中被解释变量是累加并年化的 k 期超额收益:

$$\tilde{y}_{t+k} = \frac{\phi}{k}\big[(y_{t+1}-r_t) + \cdots + (y_{t+k}-r_{t+k-1})\big]$$

这里 \(y_{t+1}=\log(Y_{t+1})\) 是连续复利的总收益,\(r_t\) 是无风险利率,\(\phi=12\)(月度)或 \(\phi=4\)(季度)。解释变量 \(z_t\) 是对数股利收益率、无风险利率,或两者一起。

问题出在这个被解释变量身上。当 \(k>1\) 时,相邻几期的 \(\tilde{y}_{t+k}\) 用到了重叠(overlapping)的收益区间——比如二十期回归里,今天和下季度的「未来二十期收益」共享了十九期的数据。在「无可预测性」的原假设(\(\beta_k=0\))下,这会让误差项 \(\varepsilon_{t+k,k}\) 服从一个 \(MA(k-1)\) 过程。重叠观测制造了强烈的序列相关,期限越长越严重。

于是问题变成了:怎么算标准误,才能在重叠的误差结构下不被骗?文献里的常规做法是 Hansen–Hodrick (1980) 或 Newey–West (1987)——它们的思路都是「把未来的误差往前加总」去估计协方差。Hodrick (1992) 则提供了一个反过来的、更聪明的办法:利用协方差平稳性,把回归元往过去加总,从而绕开重叠误差。具体地,参数 \(\theta=(\alpha_k,\beta_k')'\) 用 GMM 估计,其渐近分布为:

$$\sqrt{T}(\hat{\theta}-\theta) \xrightarrow{a} N(0,\Omega), \qquad \Omega = Z^{-1} S_0 Z^{-1}, \quad Z = E(x_t x_t'), \quad x_t = (1\;\; z_t')'$$

关键就在中间那块 \(S_0\) 怎么估。Hodrick 的做法是:

$$ \hat{S}_0 = \frac{1}{T}\sum_{t=k}^{T} w^k_t {w^k_t}', \qquad \cssId{a1}{w^k_t} = \cssId{a2}{\varepsilon_{t+1,1}} \cssId{a3}{\sum_{i=0}^{k-1} x_{t-i}} $$

这个反转看起来只是技术细节,却是全文的命门。因为它直接决定了那个 t 值有多大。 作者发现:在同一份美国数据上,Newey–West 和稳健 Hansen–Hodrick 的 t 值几乎一致地高于 Hodrick t 值。用 Newey–West,1935–2001 全样本里可预测性能一路「显著」到八个季度;而用 Hodrick,全样本里 t 值过 2 的只有 2–4 季度这一小段,一期和长期都不显著。

Warning

也就是说,早期文献里那张「期限越长越显著」的漂亮图,很大程度上是 NW/HH 标准误在长期系统性低估了真实抽样误差所造出来的幻觉。把尺子换成 Hodrick,长期可预测性就蒸发了。

那凭什么相信 Hodrick 这把尺子更准,而不是另一种偏见?这就要靠下一节的蒙特卡洛体检。

4 数据

在进入体检之前,先交代数据。作者用了两套:

观测单位是「国家 × 时点」,股利与盈利收益率都按过去一年加总的股利/盈利构造(季度或月度数据反而被季节性主导,不能直接用)。一个贯穿全文的事实是:这些工具变量都高度持续——美国股利收益率的一阶自相关 0.9504、短期利率 0.9548(见 Table 1 Panel A)。这种近单位根的持续性,正是小样本里检验统计量「失真」的温床,也是本文要小心处理的核心摩擦。

5 主要结果:真正稳健的,是短期利率

把尺子校准好之后,图景就清晰了。作者只报告 Hodrick t 值,得到三条结论。

第一,股利收益率单变量预测超额收益,并不稳健。 全样本下基本不显著(见上文),换到 1975–2001 的 MSCI 月度数据更彻底失效:一期系数仅 0.0274(t = 0.405)。它的「强可预测性」只在剔除 1990 年代、或截至早期样本时才出现。

第二,最稳健的预测变量其实是短期利率,而且它强烈地、负向地预测收益——但只在短期。 在 1952–2001 样本里,一期回归中短期利率系数为 −2.1623(t = −2.912),高度显著;到四期就掉到边缘,二十期完全失效。短期利率高 → 未来短期超额收益低,这条关系干净、稳定,且经得起换样本。

第三,也是最有意思的反转:股利收益率「单独」不行,但和短期利率「搭伙」就行了。 在双变量回归里,1952–2001 一期的股利收益率系数从单变量的 t = 1.541 抬升到 0.1362(t = 2.152),两者联合为零的 χ² 检验 p 值仅 0.003。也就是说,股利收益率的预测力需要短期利率来「净化」——一旦控制住利率水平,它在短期才显出独立的信息。

为了缓解只盯美国数据带来的「数据窥探」(data snooping)担忧,作者把英、法、德三国拉进来做混合估计(pooled estimation),结论一致:短期可预测、长期不可预测的格局,在国际数据里同样成立。

6 这不是「检验没力气」:一场尺子的体检

读到这里,一个尖锐的质疑会冒出来:长期不显著,会不会只是因为长期回归的样本太少、检验根本没有力气(power)? 「不显著」和「确实没有」是两回事。

作者用第 4 节那个能匹配数据的现值模型作数据生成过程,跑了一场严格的规模(size)与功效(power)蒙特卡洛实验。结论分两层。

其一,小样本偏误确实存在——在近单位根的持续解释变量下,预测回归系数会有系统性偏差(这正是 Stambaugh, 1999 那条经典警告)。

Table 9: reports the small sample bias in several regressions based on

Table 9: reports the small sample bias in several regressions based on

其二,也是更关键的一层:NW 和 HH 标准误在长期会严重「过度拒绝」原假设(名义 5% 的检验,实际拒绝率远高于 5%),而 Hodrick 标准误在小样本里能基本守住正确的规模。如表 10 所示,三种标准误在「真实拒绝率」上的差距,正是第 2 节那场幻觉的计量根源。

Table 10: reports empirical sizes for tests of a 5% nominal (asymptotic)

Table 10: reports empirical sizes for tests of a 5% nominal (asymptotic)

更重要的是功效那一边:Hodrick t 检验在本文最长样本上,5% 检验的功效超过 0.60;一旦把多国数据混合起来,即便最短样本的功效也升到 74%。这就堵死了「检验没力气」这条退路——既然功效不低,长期还是测不出可预测性,那就说明它本来就很弱或不存在,而非被噪声淹没。

(关于持续解释变量如何在长期回归里凭空「制造」出可预测性,可参见《用更多的数据,买来更大的偏差》。)

7 现值模型:股利收益率到底在反映什么?

既然股利收益率波动的大头不是预期收益,那是什么?作者构建了一个带随机贴现率、短期利率与股利增长的非线性现值模型,让它去匹配上面的实证证据,然后做方差分解。

这个模型的精神,仍是 Campbell–Shiller 式的现值恒等:股利收益率的变动可以拆给「未来贴现率变动」「未来短期利率变动」「未来股利增长变动」三块,外加它们之间的协方差项。分解结果是:

换句话说,传统智慧对了一半:风险溢价确实主导了股利收益率的波动;但它漏掉了短期利率这条暗线——而这恰好解释了为什么把短期利率加进回归后,股利收益率才「活」过来。模型还复现了数据里一个反直觉的事实:高股利收益率伴随的是未来更高的利率,而非更低的股利增长。

Tip

这一节也给组合选择文献提了个醒:很多研究(如 Campbell & Viceira, 1999)直接用单变量股利收益率回归来估「预期收益」。作者用模型证明,这种代理与真实预期收益的吻合度相当差;但同时放入短期利率和股利收益率,拟合就大幅改善——尤其在短期。

最后,作者还顺手回应了 Lamont (1998) 的一个主张:盈利收益率(earnings yield)对超额收益是否有独立预测力?答案是——对收益只有微弱证据,但对未来现金流有显著预测力。这与 Bansal & Lundblad (2002)、Bansal & Yaron (2004) 强调「现金流本身遵循复杂 ARMA 过程、需要不止一个因子」的观点呼应:把信息集从股利扩到盈利,确实能更好地捕捉未来的价值相关现金流。

8 文献脉络

把这条线索摊开看,会发现本文站在两股潮流的交汇处。

第一股是「可预测性」本身的潮流。 它从 Fama & French (1988)、Campbell & Shiller (1988a,b) 确立股利收益率的预测力开始,经 Campbell (1991)、Cochrane (1992) 用方差分解把「股利收益率波动≈预期收益波动」做成共识;同时另一支(Fama & Schwert, 1977;Campbell, 1987;Breen, Glosten & Jagannathan, 1989)一直在论证短期利率才是稳健的预测变量。到了 Lettau & Ludvigson (2001)、Goyal & Welch (2003) 这一代,「加上 1990 年代后预测力消失」的质疑开始集中爆发。

第二股是「怎么做推断」的计量潮流。 Hansen & Hodrick (1980)、Newey & West (1987) 给了重叠数据的稳健标准误,Richardson & Smith (1991)、Boudoukh & Richardson (1993) 警告长期回归的统计陷阱,Stambaugh (1999) 点破持续解释变量的小样本偏误,而 Hodrick (1992) 提供了那把「向过去加总」的更准的尺子。本文的贡献,正是把这两股潮流拧在一起:用 Hodrick 的尺子,重新审判可预测性的旧公案,并给出一个能自洽匹配证据的现值模型。

文献脉络时间线
文献脉络时间线(按发表年份排布;红色为本文)

它所处的位置,也预示了此后 Campbell & Yogo (2006)、Lewellen (2004)、Torous, Valkanov & Yan (2004) 等一批用「近单位根/局部到单位根」框架重做推断的工作。作者特意说明:他们不依赖这些单位根型方法,因为 Hodrick 标准误的一大优势是能直接处理多元回归元,而单位根型推断几乎只能对付单变量。

(这条「贴现率/预期收益」主线的来龙去脉,亦可参见《贴现率:资产定价的中心议题》;关于「风险溢价是否已消失」的后续争论,见《风险溢价,是「消失」了,还是「断」掉了?》。)

评论与延伸(Q&A + 研究方向)

(a) 几个可能的疑问

Q:本文是不是在说股票收益「完全不可预测」?

不是。它的论点要精细得多:股利收益率的长期可预测性多半是标准误造的幻觉;但短期仍有可预测性,且最稳健的预测变量是短期利率,股利收益率需与利率搭配才显出独立信息。可预测性「在」,只是不在人们以为的那个地方、那个期限上。

Q:Hodrick 标准误凭什么比 Newey–West、Hansen–Hodrick 更可信?

不是靠「看起来更保守」,而是靠蒙特卡洛体检。在能匹配数据的 DGP 下,NW/HH 在长期严重过度拒绝(名义 5% 的检验实际拒绝率远超 5%),而 Hodrick 在小样本里基本守住正确规模;同时 Hodrick 的功效并不低(最长样本超 0.60,多国混合达 74%)。规模对、功效够,才让人敢信它的「不显著」。

Q:长期测不出,会不会就是样本太短、功效不足?

这正是作者最用力堵的退路。功效分析显示检验有足够力气;既然有力气还测不出,就更像「本来就弱/没有」,而非被噪声淹没。这是本文比单纯换标准误更扎实的地方。

Q:为什么单看股利收益率不行,加上短期利率就行了?

因为股利收益率同时混杂了风险溢价和利率两条信息。现值模型的方差分解显示,短期利率变动占股利收益率波动的约 22%。控制住利率水平后,股利收益率剩下的那部分才更干净地对应预期超额收益——这也解释了双变量回归里它的 t 值为何被「净化」抬升。

Q:跨国数据真能缓解数据窥探吗,还是只是把同一个故事重复四遍?

部分能。各国超额收益的相关性只有 0.47–0.63,并不算高,因此混合估计在原假设下能提升效率、降低「只盯美国」的过拟合风险。但它不能完全排除全球共同的贴现率冲击带来的相关性——这是混合检验天然的局限。

Q:这与「股利收益率近似单位根」的争论是一回事吗?

高度相关但不等同。持续性(近单位根)正是小样本偏误和检验失真的来源;但本文选择用 Hodrick 标准误直接应对,而非走单位根/局部到单位根那条路,理由是后者几乎只能处理单变量,而本文的核心恰恰是双变量(利率 + 股利收益率)。

(b) 几个可能的研究问题与提案

1. 把「短期利率主导」搬到公司债超额收益上

【经济故事】本文发现短期利率是股票超额收益最稳健的短期预测变量。信用利差(credit spread)的可预测性研究里,通常更看重违约因子和流动性,短期利率/期限结构的角色相对被弱化。一个自然的问题是:在公司债超额收益里,短期利率是否同样是「最稳健、但只在短期」的那个变量?

【可行性】中。数据用 TRACE + Mergent FISD 构造公司债超额收益,宏观变量用三个月国库券与期限利差。识别上直接套用本文的 Hodrick 标准误 + 跨期限联合检验框架,难点在公司债收益的非交易日与流动性噪声需要先净化。doable,但需要谨慎处理流动性混杂。

2. 用 Hodrick 标准误重审「外资持有比例」对收益的长期预测

【经济故事】关于外资持有人与本地市场,有不少回归声称外资流入/持有比例能预测未来的本地收益或波动。这些持有比例同样高度持续,长期回归极可能落入本文揭示的标准误陷阱。

【可行性】中高。数据用各国托管/持仓面板(如 EPFR、各国央行的国际投资头寸),按本文方法做跨期限 Hodrick 检验与功效分析。识别清晰,主要工作量在持仓数据的清洗与频率对齐。

3. 现值方差分解里「短期利率那 22%」的跨国异质性

【经济故事】本文在合并/平均意义上给出贴现率 61%、利率 22%、股利增长 7% 的分解。但货币政策框架不同的国家,利率那一块的份额应当差异很大——通胀目标制国家 vs. 汇率盯住国家。

【可行性】中。需要逐国估计现值模型并做方差分解,数据可得(MSCI + 各国短期利率),识别靠模型设定。难点是模型在小样本国家的估计稳定性,结论需配合稳健性检验。

4. 「预测力随期限的形状」本身能不能当成模型检验工具

【经济故事】不同的预期收益过程(AR(1) vs. 多因子)会在「系数–期限曲线」上留下不同形状。本文已证明这条曲线在不同标准误下读数迥异。可以反过来,把(用正确标准误测出的)系数–期限曲线当作一个矩,去识别/拒绝竞争性的贴现率模型。

【可行性】中低。这是偏方法论的工作,需要把若干结构化预期收益模型映射到可观测的回归系数曲线上,再做矩匹配。理论部分不轻,但数据要求不高,适合作为一篇方法论文。

我的判断

这篇文章的贡献,不在于发现了某个新变量,而在于把「显著性」这件事本身做成了研究对象。它最漂亮的一笔,是没有停在「换个标准误、结论就变了」的层面——那样很容易被反驳为「你只是挑了对自己有利的尺子」;它继续用蒙特卡洛把规模和功效都摆上台面,证明 Hodrick 这把尺子规模正确、功效充足,从而把「长期不可预测」从一个「可能是没力气」的猜测,钉成了一个有据的结论。再叠加跨国数据和一个能自洽匹配证据的现值模型,整篇文章的说服力是层层加固的。

要说对识别的担忧,主要有两点。其一,整个功效论证依赖那个现值模型作为数据生成过程——如果真实世界的预期收益过程与模型设定有系统性偏离(比如存在结构突变,Timmermann & Paye, 2006 就强调过预测模型的不稳定性),那么「功效足够」这个结论本身也会打折扣。其二,跨国混合检验把效率的提升建立在「各国收益相关性不高」上,但这忽略了全球共同贴现率冲击可能带来的隐性相关——这会让混合检验的有效样本量被高估。

后续我最想看到的,是把这套「先校准尺子、再下结论」的纪律,系统地推广到信用市场和外资持有人的可预测性研究上——这两个领域的解释变量同样高度持续,同样充斥着长期回归,却很少有人认真做过本文这样的规模–功效体检。在那里,「Is it there?」这个问题,很可能还远没有答案。

参考文献