股利收益率到底能不能预测收益？——当「偏误修正」自己也修过了头

[2004 JFE] Predicting Returns with Financial Ratios

Jun He June 01, 2026

资产定价预测回归小样本偏误

Note

本文读的是 Lewellen (2004, Journal of Financial Economics)：用股利收益率预测股市收益这件事，被「小样本偏误」修正修到几乎「失语」；但作者指出，标准修正其实悄悄丢掉了一条信息——只要承认股利收益率是平稳的（ρ < 1），偏误就有上界。把这条约束加回来，股利收益率预测 1946–2000 年市场收益的证据重新变得极强（偏误调整后斜率 0.66，t 值 4.67，p 值 0.000），而且连 1990 年代末那场异常的牛市都没能把它推翻。

1 一个被「偏误」杀死的老结果

五十年前，Kendall (1953) 发现股价像是在时间里随机游走。此后大半个市场有效性的文献，都在问同一个问题：收益到底能不能预测？最受宠的预测变量，是把价格放在分母上的那几个财务比率——股利收益率 (dividend yield, DY)、账面市值比 (book-to-market, B/M)、盈利价格比 (earnings-price ratio, E/P)。它们都在度量「价格相对于基本面贵不贵」，因此天然应该和预期收益正相关：价格被高估时比率低，随后收益也低；价格便宜时比率高，随后收益也高。

这条逻辑听起来无懈可击。Fama and French (1988) 也确实跑出了像样的结果：用 DY 预测 1941–1986 年的 NYSE 月度收益，t 值在 2.20 到 3.21 之间，取决于收益怎么定义（等权还是市值加权、实际还是名义）。

但接着，一个自然的问题是：这些回归本身可信吗？

Stambaugh (1986) 和 Mankiw and Shapiro (1986) 给出了一个让人不安的答案——这类预测回归会系统性地偏向于「找到」可预测性。Nelson and Kim (1993) 用自助法 (bootstrap) 重做了 Fama–French 的检验，修正偏误之后，p 值一下子飙到 0.03 到 0.33。Stambaugh (1999) 更进一步，在 DY 服从一阶自回归 (AR1) 的假设下推导出斜率估计的精确小样本分布，用它去检验 1952–1996 年的 NYSE 收益，得到的单侧 p 值是 0.15。

于是到了世纪之交，学界的共识大致是：股利收益率那点预测力，多半是小样本偏误造出来的幻觉。这桩公案，本博客也专门写过（参见《股利收益率真能预测收益吗？——一桩被「标准误」改写的旧公案》）。

Lewellen (2004) 这篇文章，做的就是给这桩「结案」的公案翻案。它的主张听起来近乎挑衅：那个已经成为文献标准做法的小样本修正，在某些情况下会严重低估 DY 的预测力。

2 偏误从哪儿来：一笔「借」来的误差

要看懂这场翻案，得先看清偏误到底是怎么产生的。作者沿用的是 Stambaugh (1986, 1999) 与 Nelson–Kim (1993) 分析过的那套模型，由两个方程组成：

$$r_t = a + b\,x_{t-1} + e_t$$

$$x_t = \phi + \rho\,x_{t-1} + \mu_t$$

第一式是预测回归：用上期已知的预测变量 $x_{t-1}$（这里就是 DY）去解释本期收益 $r_t$。第二式说 $x_t$ 自己服从一个 AR1 过程，$\rho$ 是它的自相关系数，假设 $\rho < 1$（平稳）。

关键在两个残差的关系。价格上涨会让 DY（价格在分母）下降，所以 $e_t$ 和 $\mu_t$ 负相关。这一个负相关，违反了 OLS 要求回归元与误差在所有超前/滞后期独立的假设，也正是一切麻烦的源头。

把 OLS 估计写出来：

$$\hat{b} = b + (X'X)^{-1}X'e, \qquad \hat{\rho} = \rho + \big[(X'X)^{-1}X'\mu\big]_{(2)}$$

普通情形下这些估计误差期望为零。但这里不是：样本自相关在有限样本里被系统性地低估，而这份低估，会通过 $e_t$ 与 $\mu_t$ 的相关性「漏」进预测回归里。把 $e_t$ 分解成 $e_t = \gamma\mu_t + \nu_t$（其中 $\gamma = \mathrm{cov}(e,\mu)/\mathrm{var}(\mu)$，因负相关而为负），代入后就得到了全文的引擎方程：

$$ \cssId{a1}{\hat{b} - b} = \cssId{a2}{\gamma}\,\cssId{a3}{(\hat{\rho} - \rho)} + \cssId{a4}{Z} $$

这个式子（论文 Eq. 5）漂亮地说明了一切。取期望：

$$E[\hat{b} - b] = \gamma\, E[\hat{\rho} - \rho]$$

样本自相关大约被低估 $(1+3\rho)/T$。$\hat{\rho}$ 偏低（$\hat{\rho}-\rho<0$），乘上负的 $\gamma$，于是 $\hat{b}$ 向上偏——这就是 Stambaugh 偏误的全部秘密：$\hat{b}$ 的偏误，是从 $\hat{\rho}$ 的偏误那里「借」来的。

3 真正关键的一步：ρ 不能超过 1

到这里，标准做法是这样的：既然 $\hat{b}$ 和 $\hat{\rho}$ 都随机，那就对所有可能的 $\hat{\rho}-\rho$ 积分，看 $\hat{b}$ 的边缘分布，从中算出偏误、算出 p 值。Stambaugh (1999) 用的就是这个边缘分布。

但 Lewellen 在这里按下了暂停键。注意上面那个引擎方程其实还告诉我们一件更细的事——$\hat{b}$ 在给定 $\hat{\rho}$ 的条件下是正态分布的，其条件期望为

$$E[\hat{b} - b \mid \hat{\rho}] = \gamma(\hat{\rho} - \rho)$$

他把 $\gamma(\hat{\rho}-\rho)$ 称为 $\hat{b}$ 里「已实现的偏误」(realized bias)。这里藏着全文最关键的一句话：边缘分布的做法，等于默认我们对 $\hat{\rho}-\rho$ 一无所知。

可我们真的一无所知吗？

如果愿意相信 DY 是平稳的，那么 $\rho < 1$。于是 $\hat{\rho}-\rho$ 的下界就是 $\hat{\rho} - 1$。代回条件偏误，$\hat{b}$ 里的偏误至多是 $\gamma(\hat{\rho}-1)$。当 $\hat{\rho}$ 非常接近 1 时，这个上界会远小于标准修正给出的偏误——也就是说，凡是忽略 $\hat{\rho}$ 这条信息的检验，都在低估 DY 的预测力。

于是作者提出偏误调整估计量：

$$\hat{b}_{adj} = \hat{b} - \gamma(\hat{\rho} - \rho)$$

最保守的检验，是假设 $\rho \approx 1$：此时偏误被取到最大，$\hat{b}_{adj}$ 被压到最小。如果在这么保守的假设下 $\hat{b}_{adj}$ 都还显著，那么对任何真实的 $\rho<1$，它只会更显著。

Tip

换个角度理解会更直观：抽样误差让 $\hat{b}$ 偏高，当且仅当 $\hat{\rho}$ 偏低。所以在零假设（$b=0$ 且 $\rho<1$）下，「$\hat{b}$ 很高」和「$\hat{\rho}$ 很接近 1」这两件事很难同时出现。如果数据里它们偏偏同时出现了，那就是反对零假设的证据。这正是条件检验在形式化的东西。

值得一提的是，这套思路和 Stambaugh 自己的贝叶斯分析殊途同归：如果贝叶斯先验是一个 $\rho=1$ 的点先验，两种检验完全一致；任何把 $\rho>1$ 的概率压到零的先验，都会给出更强的拒绝。作者的贡献，是把这条约束搬进了频率学派的框架。

4 数据

价格与股利来自 CRSP，盈利与账面价值来自 Compustat。为与既有文献一致、并避开 AMEX/NASDAQ 公司入库带来的成分变化，检验只用 NYSE 的等权 (EWNY) 与市值加权 (VWNY) 指数。

DY：按市值加权 NYSE 指数计算，定义为「过去一年支付的股利 / 当前指数水平」（滚动年度股利）。回归用 log(DY)，因为原始比率正偏、且波动率机械地依赖于其水平，取对数能同时治好这两个毛病。
DY 样本：1946 年 1 月 – 2000 年 12 月。略去大萧条时期，因为 1930 年代收益极度波动，这种波动会同时污染 DY 的方差和持续性。稳健性检验把样本对半切成 1946–1972 与 1973–2000。
B/M、E/P：限于 Compustat 时代 1963–2000。B/M 是上一财年账面权益比上月市值；E/P 是上一财年营业利润（折旧前）比上月市值。为保证可预测性，会计数据在财年结束后第 4 个月才更新；公司需有 3 年会计数据才入样。

描述统计里最该记住的一个数：log(DY) 的一阶月度自相关高达 0.997——正是这个接近 1 的数字，让「$\rho<1$ 的约束」变得极有信息量。

5 主要结果：一次彻底的反转

把 NYSE 市值加权收益对 log(DY) 回归，1946–2000：

OLS 斜率 0.92，标准误 0.48；
Stambaugh (1999) 偏误修正后，估计降到 0.20，单侧 p 值 0.308——不显著，与既有文献的「失语」结论一致；
但用上 $\hat{\rho}$ 的信息，偏误调整后的估计回升到 0.66，t 值 4.67，在 0.000 水平显著。

作者特意强调，0.66 是在 $\rho\approx 1$ 的保守假设下算的，已经偏低；若真实 $\rho<1$，它只会更大。子样本同样强劲：前半段 1946–1972 偏误调整估计 0.84，p < 0.001；后半段 1973–2000 估计 0.64，p 值 0.000。

B/M 和 E/P 的结论方向相同但稍弱：1963–1994 年它们能同时预测等权和市值加权收益；一旦把 1995–2000 加进来，就只剩对等权指数的预测力。但即便如此，证据也远强于 Kothari and Shanken (1997)、Pontiff and Schall (1998)（认为 1960 年后 B/M 几无预测力）以及 Lamont (1998)（认为 E/P 单独无法预测 1947–1994 的季度收益）。

6 反转中的反转：泡沫年代为什么没能推翻它

文章里我最喜欢的，是一段「题外话」。

1995 年 5 月，DY 跌到历史新低，按这套逻辑，它预言未来收益将远低于平均。结果呢？接下来六年 NYSE 指数翻了一倍多。一个预测变量，刚发出最强烈的看空信号，市场就给了它一记响亮的耳光。直觉上，这几年数据应该把「DY 能预测收益」按在地上摩擦。

事实也确实如此——对标准检验而言。把 1995–2000 加进回归，OLS 斜率从 2.23 腰斩到 0.92，用 Stambaugh 小样本分布算出的显著性从 0.068 退到 0.308。

但条件检验几乎纹丝不动：偏误调整斜率只从 0.98 降到 0.66，p 值仍然是 0.000。

为什么？因为这几年在压低 OLS 斜率的同时，也把 DY 的样本自相关从 0.986 抬到了 0.997。自相关越接近 1，「偏误的上界」就越小——预测斜率里可能的最大偏误从 1.25 直接掉到 0.25，恰好抵消掉了 OLS 估计的下滑。同一批数据，在两套检验里讲了截然相反的故事。这正是「把 $\hat\rho$ 的信息用起来」这一思想最有力的注脚。

关于「用更多数据反而带来更大偏差」的另一面，本博客也有相关讨论（参见《用更多的数据，买来更大的偏差——长期预测回归里那场小样本幻觉》）。

7 两种检验怎么合用：一个修正版的 Bonferroni

既然条件检验在 $\hat{\rho}$ 接近 1 时更有力、$\hat{\rho}$ 远离 1 时反而是标准（无条件）检验更好，而我们事前并不知道 $\rho$ 落在哪里，那自然的做法就是两个都做，再算一个联合显著性水平。作者给出的联合检验是对 Bonferroni 的一个修正：

$$\text{overall } p = \min(2P,\; P + D)$$

其中 $P$ 是两个单独检验中较小的那个 p 值，$D$ 是检验 $\rho=1$ 的 p 值。$2P$ 就是经典的 Bonferroni 上界；而 $P+D$ 这一项承认：如果数据已经强烈拒绝 $\rho=1$（即 $D$ 很小），那么把 $P$ 翻倍就太保守了。直觉上，若 $\hat{\rho}$ 其实只有 0.50，真实 $\rho$ 大概率离 1 很远，这时根本用不着条件检验，直接用无条件检验的 p 值即可。模拟显示，在 $\rho$ 从 0.9 到 0.9999 的范围内，这个联合检验在名义 5% 水平上的拒绝率都 $\le 5\%$。

8 文献脉络

这条线索的起点是 Kendall (1953) 对「随机游走」的观察。此后预测变量的清单越拉越长——Fama and Schwert (1977) 的利率与通胀、Campbell (1987) 的期限结构、Fama and French (1988) 的股利收益率、Campbell and Shiller (1988) 的股利价格比。其中 Fama and French (1988) 用 DY 跑出 t 值 2–3，几乎成了「收益可预测」的代表性证据。

接着，一个方法论的反思浪潮涌来：Stambaugh (1986) 与 Mankiw and Shapiro (1986) 揭示了滞后随机回归元带来的偏误，Nelson and Kim (1993) 用自助法把 p 值修到 0.03–0.33，Stambaugh (1999) 给出精确小样本分布——预测性的证据被这套「偏误修正」逐渐侵蚀。

Lewellen (2004) 正站在这道分水岭上：它不否定偏误修正本身（在 $\hat\rho$ 不接近 1 时，无条件检验依然更优），而是指出修正过程丢掉了「$\rho<1$」这条约束，从而在 $\hat{\rho}\to 1$ 时低估了预测力。几乎同期，Campbell and Yogo (2003) 从更有效的检验角度推进了同一问题，而 Ang and Bekaert (2002) 则继续追问长期预测性到底「在不在」。

评论与延伸（Q&A + 研究方向）

(a) 几个可能的疑问

Q：这篇文章是不是在说「Stambaugh 的修正错了」？

不是。作者反复强调，Stambaugh (1999) 那套小样本分布一般是恰当的。条件检验只在「预测变量的样本自相关非常接近 1」时才有用——否则 $\rho$ 取高值本就不太可能，$\rho<1$ 的约束提供不了多少信息。两者是互补关系，所以他才设计了联合检验。

Q：整篇文章的可信度，是不是全押在「DY 平稳（ρ<1）」这一个假设上？

基本如此，作者也很坦诚。但他给出了多重辩护：统计上只需 $\rho$ 有个不超过 1 的上界即可；经济上，若 log DY 平稳，等价于 log 股利与 log 价格协整、长期同速增长，这与「反对爆炸性泡沫」的大量文献一致；而用一个非平稳变量去预测收益，本身也说不通。

Q：1951–2000 年股权溢价若真的永久性下降，会不会让 DY 出现非平稳、从而伪造出预测性？

作者直接回应了 Fama and French (2002) 的这个担忧。他指出：只要 $\rho$ 仍小于 1，这类非平稳（可建模为截距 $\phi$ 的变化）对检验影响不大；更重要的是，如果 DY 的下降真的来自风险溢价的永久性下移，那我们其实已经承认 DY 在追踪预期收益的变化——这等于默认了零假设是错的，而非「错误地拒绝」。

Q：为什么用 log(DY) 而不是原始 DY？

原始 DY 是个比率，正偏，而且波动率机械地依赖于水平（DY=2 时价格要动两倍，才有 DY=4 时一样的效果）。取对数同时解决偏度和异方差，让正态假设更站得住。

Q：E/P 为什么用「营业利润（折旧前）」而不是净利润？

Shiller (1984) 和 Fama and French (1988) 都认为净利润是基本面的嘈杂度量。作者的初步检验也显示，用净利润时 AR1 残差波动更大（标准差 0.062 vs. 营业利润的 0.049）、与收益的相关性更低，提示净利润里噪声更多。两者预测力相近，他为简洁只报营业利润的结果。

Q：这是不是说市场无效、存在套利机会？

文章本身是中立的。比率预测收益，既可以解释为「错误定价回归基本面」（mispricing view），也可以解释为「比率在追踪时变的贴现率/风险溢价」（rational-pricing view）。Lewellen 解决的是统计上能不能检测到预测性，而不是它背后是风险还是错误。这正好接上了贴现率作为资产定价中心议题的大讨论（参见《贴现率：资产定价的中心议题》）。

(b) 几个可能的研究问题与提案

1. 把这套「自相关上界」搬到公司债收益预测上。

【经济故事】公司债的信用利差、票面利率比等比率，同样高度持续，月度自相关常常逼近 1，预测回归也同样受 Stambaugh 偏误困扰。条件检验在这里可能格外有用。【可行性】中。数据可用（TRACE + 利差序列），方法现成。难点在于信用利差的平稳性不像股利那样有协整理论支撑，「$\rho<1$」的经济辩护需要重新论证（信用周期可能制造长程依赖）。

2. 外资持有比例能否预测一国股市/债市收益？

【经济故事】跨国资金流和外资持仓比率往往非常持续，且与价格反向（资金涌入推高价格、压低未来收益的某些度量）。这天然契合本文的 $e$–$\mu$ 负相关结构。【可行性】中。需 EPFR/IMF CPIS 或单国托管数据。识别上要小心：持仓比率的非平稳更可能来自结构性开放进程，而非均值回归，会削弱 $\rho<1$ 的可信度。

3. 用本文的联合检验，系统性重估「因子动物园」里基于比率的时序预测。

【经济故事】大量时序择时策略建立在持续性比率上，其显著性可能被边缘分布低估或高估。一次统一的、带 modified Bonferroni 的再检验，能告诉我们哪些预测性是真的。【可行性】高。纯方法学复制，数据公开，计算量小，可直接产出一张「修正前后显著性对照表」。

4. 当 ρ 真的等于或略大于 1 时，条件检验会怎样误导？

【经济故事】本文的护城河是平稳性。若某些比率实际上是单位根甚至轻微爆炸，条件检验可能给出虚假的强拒绝。量化这种「边界处的脆弱性」本身就有价值。【可行性】高。蒙特卡洛模拟即可，沿用作者的校准参数，把 $\rho$ 推到 1.0001、1.001 看拒绝率如何失控。

我的判断

这篇文章的贡献，是把一个看似纯技术的观察，变成了对整条文献的重新定性：「修正偏误」和「丢掉信息」之间只隔一层窗户纸。标准做法对所有可能的 $\hat\rho-\rho$ 积分，等于自愿放弃「$\rho<1$」这条几乎免费的先验；而当预测变量持续到自相关 0.997 时，这条约束几乎决定了一切。把它加回来，DY 的预测力从「不显著」（p=0.308）一跃到「t=4.67」，并且对 1990 年代末那场最该证伪它的牛市免疫——这个反转既干净又深刻。

对识别的担忧，我有两点。其一，整套结论的可信度高度依赖「$\rho<1$ 且 $\hat\rho$ 极其接近 1」这个特殊区间；一旦真实 $\rho$ 稍低，条件检验的优势就迅速消失，作者自己也承认这一点，联合检验正是为此而设。其二，平稳性假设在样本只有半个多世纪、且恰好覆盖一段股权溢价可能永久下移的时期时，并非毫无争议——尽管作者对 Fama–French (2002) 的回应相当有说服力。

后续我最想看到的，是把这套「用持续性约束偏误」的思想，系统地搬到信用市场和跨国资金流这些「天然高持续、天然 $e$–$\mu$ 负相关」的场景里，看看有多少被「偏误修正」判了死刑的预测性，其实只是被修过了头。

参考文献

Campbell, J. (1987). Stock returns and the term structure. Journal of Financial Economics 18, 373–399.
Campbell, J., Shiller, R. (1988). The dividend-price ratio and expectations of future dividends and discount factors. Review of Financial Studies 1, 195–228.
Campbell, J., Yogo, M. (2003). Efficient tests of stock return predictability. Working Paper, Harvard University.
Fama, E., French, K. (1988). Dividend yields and expected stock returns. Journal of Financial Economics 22, 3–25.
Fama, E., French, K. (2002). The equity premium. Journal of Finance 57, 637–659.
Fama, E., Schwert, G. W. (1977). Asset returns and inflation. Journal of Financial Economics 5, 115–146.
Kendall, M. (1953). The analysis of economic time series, part I: prices. Journal of the Royal Statistical Society 96, 11–25.
Kothari, S. P., Shanken, J. (1997). Book-to-market, dividend yield, and expected market returns: a time-series analysis. Journal of Financial Economics 44, 169–203.
Lamont, O. (1998). Earnings and expected returns. Journal of Finance 53, 1563–1587.
Lewellen, J. (2004). Predicting returns with financial ratios. Journal of Financial Economics 74, 209–235.
Mankiw, N. G., Shapiro, M. (1986). Do we reject too often? Small sample properties of tests of rational expectations models. Economic Letters 20, 139–145.
Nelson, C., Kim, M. (1993). Predictable stock returns: the role of small sample bias. Journal of Finance 48, 641–661.
Pontiff, J., Schall, L. (1998). Book-to-market ratios as predictors of market returns. Journal of Financial Economics 49, 141–160.
Shiller, R. (1984). Stock prices and social dynamics. Brookings Papers on Economic Activity, 457–498.
Stambaugh, R. (1986). Bias in regressions with lagged stochastic regressors. Unpublished Manuscript, University of Chicago.
Stambaugh, R. (1999). Predictive regressions. Journal of Financial Economics 54, 375–421.