事件研究里的「假阳性」：当一根 t 值不再等于因果

[2026 JFE] Past is Prologue: Inference from the Cross Section of Returns Around an Event

Jonathan B. Cohn, Travis L. Johnson, Zack Liu, Malcolm I. Wardlaw

Jun He May 31, 2026

事件研究统计推断横截面回归实证方法

Note

本文读的是 Cohn, Johnson, Liu & Wardlaw (2026, Journal of Financial Economics)：当你用「事件当天的横截面收益 ~ 公司特征」这类回归去做因果推断时，标准的横截面标准误会系统性地把推断做错——在 1991–2021 年间，这类「收益—特征」关系平均有 33.4% 的【普通交易日】在 1% 水平上就显著。作者证明问题的本质是「检验了错误的原假设」，并给出一个补救办法：把事件期的关系拿去和事件前那一串非事件期关系的分布比；再进一步，用 PCA 构造的 GLS 把这套时间序列检验的统计功效提升 2–3 倍。

1 引言：三个事件，一桩疑案

先讲一个让人后背发凉的小故事。

2019 年里有三件事。10 月 11 日，中美就第一阶段贸易协议达成初步意向；3 月 13 日，英国下议院投票反对「无协议脱欧」；1 月 21 日，一轮「血月」月食——很多文化里把它当作不祥之兆。前两件事，按理说预示着一个更有利于投资的环境；第三件，更糟的环境。于是一个再自然不过的做法是：把每家公司在事件当天的股票收益，对它的投资率（capital expenditures / total assets）做一个横截面回归，看看斜率的符号和显著性。

结果非常「漂亮」：前两个事件斜率为正、第三个为负，而且都在 5% 水平上显著。一篇论文的实证三件套，齐了。

但作者在这里轻轻补了一刀——

Warning

同样这条「一日收益 ~ 投资率」的关系，在 2019 年【全年所有交易日】里有 48.4% 的日子都在 5% 水平上显著；而且它在超过 40% 的普通日子里，斜率的【绝对值比那三个事件日还要大】。

Figure 1: Daily relationship between returns and investment in 2019

换句话说，你精心挑出的「事件日」，放在一年的日子里平平无奇。那三根让你写进 abstract 的 t 值，随便从日历上抽一天出来，多半也能抽到。这就是全文要讲透的一件事：在事件研究里，「事件当天关系显著」是一个低得离谱的门槛。

而且这绝不是投资率这一个特征的偶然。作者把范围铺开到一系列公司特征（其中不少都出现在已发表的论文里），发现「一日收益—特征」关系在 1991–2021 年间，平均有 33.4% 的交易日在 1% 水平上就显著。要让普通日子的显著频率回落到名义显著性水平，你得把标准误整整放大【最高约 4 倍】。

接着，一个自然的问题是：这到底是哪里出了错？是数据挖掘？是标准误聚类没做对？还是别的什么更深的东西？

2 一个极简框架：错的不是标准误，是原假设

作者的高明之处，是先不急着开实证大炮，而是搭一个能把直觉说透的最小模型。我们跟着走一遍——这是全文的「核武」所在。

设公司 $i$ 在第 $t$ 天的收益为 $r_{i,t}$。研究者关心的是某个准自然实验事件（发生在 $t=\tau$）是否让收益随特征 $x_{i,\tau-1}$ 产生差异。但每一天除了这个事件，还有作者所谓的「日常新闻 (routine news)」$n_t$：它是当天所有背景新闻的一个合成体，会按 $x$ 的不同对不同公司产生不同的估值冲击。关键在于，$n_t$ 在事件日 $\tau$ 照样会来，和别的日子没有两样。

数据生成过程 (data generating process) 写成：

$$ r_{i,t} = \cssId{a1}{m_t} + \big(\cssId{a2}{n_t} + \cssId{a3}{e\,\mathbb{1}(t=\tau)}\big)\,(x_{i,t-1}-\bar{x}_{t-1}) + \cssId{a4}{\delta_{i,t}} $$

注意 $x$ 是去均值的（$x_{i,t-1}-\bar{x}_{t-1}$），这样交互项只刻画收益反应的【横截面差异】，不掺入任何总量反应。$n_t$ 独立地每天从一个均值 0、方差 $\sigma_n^2$ 的分布里抽取。

现在到了事件日。研究者看不到 $n_\tau$，他能估的只是 $n_\tau + e$ 这个合体。把上式在 $t=\tau$ 写成研究者真正会跑的回归形式：

$$ r_{i,\tau} = a_\tau + b_\tau\, x_{i,\tau-1} + \delta_{i,\tau}, $$

其中 $a_\tau = m_\tau-(n_\tau+e)\bar{x}_{\tau-1}$，而 $b_\tau = n_\tau + e$。

好，问题来了。令 $\hat{b}_\tau$ 为 $b_\tau$ 的回归估计。由于 $\delta_{i,\tau}$ 独立于 $x$、且 $n_\tau$ 均值为零，$\hat{b}_\tau$ 是 $e$ 的【无偏】估计——这一点没问题。麻烦出在标准误上。我们把「$\hat{b}_\tau$ 作为 $e$ 的估计」的估计误差方差拆开：

$$ \mathrm{Var}(\hat{b}_\tau - e) = \mathrm{Var}(\hat{b}_\tau - b_\tau + b_\tau - e) = \mathrm{Var}(\hat{b}_\tau - b_\tau + n_\tau) = \mathrm{Var}(\hat{b}_\tau - b_\tau) + \sigma_n^2. $$

最后一步成立，是因为抽样误差 $\hat{b}_\tau - b_\tau$ 与日常新闻 $n_\tau$ 独立。这就是全文最核心的一行：

Note

Result 1. $\mathrm{Var}(\hat{b}_\tau - e) = \mathrm{Var}(\hat{b}_\tau - b_\tau) + \sigma_n^2.$

请盯住这个多出来的 $\sigma_n^2$。常规的横截面标准误，估的是 $\sqrt{\mathrm{Var}(\hat{b}_\tau - b_\tau)}$——它只刻画了「$\hat{b}_\tau$ 偏离真实斜率 $b_\tau$ 」的抽样误差。可你真正想检验的不是 $b_\tau=0$，而是 $e=0$。两者之间，永远横着一个 $\sigma_n^2$：哪怕样本无限大、抽样误差趋于零，这块由日常新闻造成的方差也【纹丝不动】。于是横截面标准误系统性地高估了 $\hat{b}_\tau$ 作为 $e$ 估计量的精度，t 检验就过于频繁地拒绝「事件无差异效应」。

说白了，用横截面标准误，检验的是错误的原假设：它适合检验「事件日收益与 $x$ 无关 ($b_\tau=0$)」，可研究者要的是「与【焦点事件】相关的那部分收益和 $x$ 无关 ($e=0$)」。由于日常新闻的存在，即便焦点事件毫无作用，事件日也完全可能有一条真实的收益—特征关系。

Figure 2: Significance rates based on cross-sectional standard errors

如图 2 所示，作者把这种「以横截面标准误判显著」的频率画出来，证实了引言里那个触目惊心的数字：跨越各种特征，1% 水平上的显著率平均高达三成多，规模/账面市值比这类「定价特征」、以及五日事件窗口，显著得更频繁——后者尤其要命，因为多日窗口在文献里用得极广。

2.1 那聚类标准误呢？

读到这里，做实证的人本能的反应是：那我把标准误按行业、按地区聚类 (cluster) 不就行了？毕竟 Eq.(5) 告诉我们，$t\neq\tau$ 时残差 $\nu_{i,t}=n_t(x_{i,t-1}-\bar{x}_{t-1})+\delta_{i,t}$ 之间存在协方差

$$ \mathrm{Cov}(\nu_{i,t},\nu_{j,t}) = (x_{i,t-1}-\bar{x}_{t-1})(x_{j,t-1}-\bar{x}_{t-1})\,\sigma_n^2, $$

高 $x$ 的公司彼此正相关，低 $x$ 的也彼此正相关——看上去就是聚类该上场的地方。

但这里出现了第一个反转：聚类没用。原因很微妙：事件日的日常新闻 $n_\tau$ 制造的是收益的横截面相关，而不是回归 Eq.(2) 残差 $\delta_{i,\tau}$ 的相关。问题来自一个【整体平移横截面斜率】的共同冲击（$n_\tau$ 把整条斜率推上推下），而非给定回归元后残差的相关。聚类调整修的是后者，对前者一筹莫展——残差 $\hat\delta_{i,\tau}$ 里压根不含 $n_\tau$ 的任何信息。引言里也印证了这点：加控制变量、按行业聚类、对收益做因子调整，三招都能把显著率往下压，但在 1% 水平上【依然平均超过 10% 的日子】显著。

3 真正关键的一步：拿事件期去比「事件前」

既然问题是「多了一个 $\sigma_n^2$」，那补救的思路就该是——找一个同样含着 $\sigma_n^2$ 的基准来对照。

这就是全文真正关键的一步。作者（沿着 Sefcik and Thompson, 1986 的精神）提出：不要孤零零地看事件日那一个系数，而是把它放进一串【事件前 (pre-event) 非事件日】的同一条关系的时间序列分布里去判断。直觉再清楚不过：事件前的日子里没有焦点事件，却照样有日常新闻 $n_t$，于是事件前系数的波动，恰好就是「$e=0$ 这个原假设下 $\hat{b}_\tau$ 应有的分布」的一个自助 (bootstrap) 近似。日常新闻给基准也注入了波动——它出现在等式两边，被抵消掉了。

具体三步走。第一步，对事件日 $t=\tau$ 和它前面 $L$ 个事件前日子分别跑单日横截面回归：

$$ r_{i,t} = a_t + b_t\, x_{i,t-1} + \epsilon_{i,t}. $$

第二步，估事件专属效应：

$$ \hat{e} = \hat{b}_\tau - \mu(\hat{b}), \qquad \mu(\hat{b}) = \frac{1}{L}\sum_{\ell=1}^{L}\hat{b}_{\tau-\ell}. $$

第三步，检验 $\hat e$ 是否显著。在此之前，作者给出一组漂亮的性质（证明见附录 B）：

Note

Result 2. 在抽样误差与新闻分布平稳的假设下， $$\underbrace{\mathbb{E}(\hat{e}-e)=0}_{\text{无偏}},\qquad \underbrace{\mathrm{Var}(\hat{e}-e)=\mathrm{Var}(\hat{b}_{\tau-\ell})}_{\text{时序样本方差}},\qquad \underbrace{\Phi(\hat{e}-e)=\Phi(\hat{b}_{\tau-\ell})}_{\text{时序样本 CDF}}.$$

这三行的含义是：$\hat e$ 仍是 $e$ 的无偏估计；而它的抽样误差分布，就【等于】事件前那串系数的时间序列分布。于是第三步有两种实现：

Step 3(t)：把事件前系数的标准差当作标准误，算 $\hat{t}\equiv \hat{e}/\sqrt{\mathrm{Var}(\hat{b}_{\tau-\ell})}$，对照正态/t 分布。
Step 3(CDF)：直接用事件前系数（去均值后绝对值）的经验 CDF 算一个 p 值，即 Eq.(10) 的免模型对应物：

$$ \hat{p}\equiv \frac{1}{L+1}\Big[\sum_{\ell=1}^{L}\mathbb{1}\big(\,|\hat{b}_{\tau-\ell}-\mu(\hat{b})| > |\hat{b}_\tau-\mu(\hat{b})|\,\big)\Big]. $$

这是个双尾检验。它的好处是对事件前关系的分布不做任何分布假设——而这恰恰要命，因为作者发现这些「收益—特征」关系的时间序列普遍有【厚尾 (fat tails)】。

于是第二个反转来了：即使你用了时间序列对照，t 检验仍然略微过度拒绝。这正是 Sefcik-Thompson 式「组合 OLS (portfolio OLS)」的遗留毛病——厚尾让 t 统计量失真。而换成基于经验 CDF 的 p 值，问题被治好了：1% 水平上的显著率回落到约 1% 的日子。换句话说，对照分布要用，但判显著要用经验 CDF、别用 t。

4 第三个反转：对照能纠偏，但功效太低——GLS 登场

到这里，纠偏的问题解决了。但作者诚实地指出一个新的隐忧：这套基于 OLS 的时间序列方法（下称 TS-OLS），可能【统计功效太弱】。原因是它完全没利用收益之间的相关结构（Chandra and Balachandran, 1992 早就提示过这点），而在这个场景里，真实的效应量往往相对收益噪声而言很小。

作者用一个巧妙的「人造事件」实验来量化功效：人为地在短期收益里注入一条与特征相关的关系，造出一批 artificial event windows，再看方法能多频繁地把它检测出来。结果令人沮丧——比如，对「五日收益里每一个标准差的特征变化对应 50bp 的人造增量」，TS-OLS 在 5% 水平上的平均检测率 (detection rate) 只有 35.1%。一大半真实效应，被漏掉了。

于是真正的创新登场：把第一步的横截面回归从 OLS 换成 GLS——作者称之为时间序列 GLS (time-series GLS, TS-GLS)。两套方法【唯一】的区别就在 Step 1 怎么估那些横截面回归。GLS 的好处是同时提升事件日和非事件日估计的效率，从而抬升功效。

难点在于：GLS 需要每天一个收益协方差矩阵的逆作为加权矩阵，而协方差矩阵本身很难估准。作者的解法借自资产定价文献（Giglio and Xiu, 2021；Lopez-Lira and Roussanov, 2023）：用主成分分析 (principal component analysis, PCA) 把近期收益里最重要的几维相关结构编码进协方差矩阵，按一个套利定价 (APT) 结构

$$ r_{i,t} = \phi_i + \sum_{k=1}^{K}\lambda_{i,k} f_{k,t} + \epsilon_{i,t}, \qquad \mathrm{Cov}(\epsilon_{i,t},\epsilon_{j,t})=\begin{cases}\sigma_i^2 & i=j\\ 0 & i\neq j\end{cases} $$

来给出协方差矩阵的元素

$$ \hat\Omega_{r,ij}\equiv \mathrm{Cov}(r_{i,t},r_{j,t}) = \sum_{k=1}^{K}\lambda_{i,k}\lambda_{j,k}\,\mathrm{Var}(f_{k,t}) + \mathbb{1}(i=j)\sigma_i^2. $$

这里有个容易被忽略却重要的细节：作者强调，他们比较的是事件日与事件前日的【GLS 系数】，而【不是】简单地用 GLS 跑一个单日横截面回归。原因正是第 2 节那个 Result 1——纯横截面的 GLS 哪怕更有效率，它的标准误依然只刻画抽样误差，照样漏掉 $\sigma_n^2$。只有继续走「事件期对照非事件期」的路子，纠偏才不丢。

效果如何？TS-GLS 检测人造关系的频率，是 TS-OLS 的【2 到 3 倍】。还是上面那个 50bp/五日的例子，5% 水平上的平均检测率从 35.1% 一举提到 61.2%——功效的巨大改善。

Figure 4: Detection rates in artificial event periods: TS-OLS vs TS-GLS

如图 4 所示，在各种人造事件设定下，TS-GLS（实心）对真实效应的检测率系统性地高于 TS-OLS（空心）。作者还把 Stata 和 Python 模块都开源了，两套（OLS、GLS）程序都给好——这对一个方法论贡献能否被真正采用，至关重要。

5 为什么聚类和因子调整都「不够」：相关结构的复杂与漂移

故事讲到这儿，还剩最后一个「为什么」。作者去拆收益的主成分，回答两件事：这些「收益—特征」关系背后的经济驱动是什么？GLS 的效率从哪来？

答案是：收益的横截面相关结构【又复杂又不稳定】。和 Lopez-Lira and Roussanov (2023) 一致，作者发现这些相关是高度多维的，很难映射到传统的预期收益因子上；更要命的是，它随时间剧烈漂移、常常是【时期特异】的——2008 年，对金融业收益的敏感度主导了横截面差异；2021 年，则换成了对「meme 股」收益的敏感度。

正是这种「复杂 + 漂移」，解释了为什么聚类和因子调整都只能治标：你事先选定的行业分组或因子，永远追不上当下这一天真实的相关结构。而 TS-GLS 用近期收益的 PCA【动态地】重估协方差，恰好绕过了「猜错因子」的陷阱。（关于「收益的主成分难以被传统因子解释、且因子动物园本身从相关结构里冒出来」这一更大的话题，可参见《弱替代：因子动物园是从哪里冒出来的？》与《压缩横截面：因子动物园的尽头，不是更少的因子，而是更聪明的收缩》。）

6 文献脉络

把这条线索捋一捋，能看清这篇论文站在哪。

最早，事件研究的推断难题集中在【平均异常收益】上：收益因重叠暴露而相关，会污染对均值事件收益的推断（Collins and Dent, 1984；Bernard, 1987）。沿着这条路，Kolari and Pynnönen (2010) 给出基于跨公司平均相关来修正均值事件窗口标准误的办法。但作者点明：这类方法在【横截面】场景里失灵，因为它没把收益相关对【特定公司特征】的依赖纳进来。

另一条线，是 Fama and MacBeth (1973) 的两步法精神——用横截面斜率的时间序列变动来做推断，以吸收共同冲击。本文方法在气质上与之相通，但有一个关键差别：它不是对【所有】时期求平均，而是专门把事件期关系拿去和【非事件期】关系的分布比，承袭的是 Sefcik and Thompson (1986)——后者在概念上描述了横截面事件研究的这个难题，却既没评估它在现实中的严重程度，提出的「用事件前关系做检验」也长期被忽视（作者对 2014–2023 年 81 篇相关论文的调查显示，只有 6% 用了这类时间序列方法）。

至于功效的隐忧，Chandra and Balachandran (1992) 早就指出组合 OLS 没利用相关信息。本文的落点，正是把这两条线接起来：用 Sefcik-Thompson 的对照思想纠偏，再借 Giglio and Xiu (2021)、Lopez-Lira and Roussanov (2023) 的 PCA 协方差思路造一个 GLS 变体补上功效——既不丢纠偏，又把统计功效提了 2–3 倍。

7 评论与延伸（Q&A + 研究方向）

(a) 几个可能的疑问

Q：这不就是「多重检验/数据挖掘」的老问题换个皮吗？

不是。数据挖掘说的是「你试了很多特征/很多事件，挑了最显著的报」。这里的病更深：哪怕你【只跑一次】、事先锁定一个特征和一个事件，横截面标准误依然系统性地高估精度，因为它漏掉了 $\sigma_n^2$。问题出在「检验了错误的原假设 ($b_\tau=0$ 而非 $e=0$)」，与试了多少次无关。

Q：聚类标准误是实证的标配，为什么这里救不了场？

因为冲击的性质不对。聚类修的是「给定回归元后残差 $\delta_{i,\tau}$ 的相关」；而这里的祸首 $n_\tau$ 是一个把整条横截面斜率上下平移的【共同冲击】，它体现在斜率 $b_\tau$ 的波动里，回归残差里根本不含它的信息。聚类对它无能为力——当然，若 $\delta_{i,\tau}$ 本身有相关，聚类仍有它独立的用处。

Q：用「事件前」而不用「事件后」，会不会丢信息？

作者明确讨论了。原则上事后日子也能用，但事件后容易有「公告后漂移 (post-announcement drift)」或后续事件，会污染对照分布；事件前更干净。若担心信息提前泄露，还可以在事件前留一个滞后 $d>0$，用更早的窗口。

Q：TS-GLS 的功效提升，会不会是以「更容易假阳性」为代价换来的？

不会，这正是设计的精巧处。GLS 只改 Step 1 的估计方式，整套「事件期对照事件前分布」的纠偏框架原封不动。人造事件实验衡量的是【检测真实注入效应】的能力（功效），而 size 由对照分布控制——所以它是「在控制住假阳性的前提下」把真阳性检出率从 35.1% 提到 61.2%。

Q：为什么判显著一定要用经验 CDF，而不是 t 检验？

因为「收益—特征」关系的时间序列有显著厚尾。t 检验隐含正态尾部假设，在厚尾下会过度拒绝——作者发现即便用了时间序列对照，t 版本的显著率仍偏高；而经验 CDF 不对分布做任何假设，把 1% 水平的显著率压回约 1%。代价是个小技术约束：要让 $L+1$ 能被 $1/p^\ast$ 整除（取 $L$ 为 100 的倍数减一即可）。

Q：那五日窗口比一日窗口更糟，对已发表文献意味着什么？

意味着风险更高的恰恰是最常用的做法。多日事件窗口在公司金融里极其普遍，而它的「普通日显著率」比一日窗口更高。这等于说，一批用多日窗口、只报横截面 t 值的结论，其证据强度可能被严重高估——这是本文最该让审稿人警觉的一句话。

(b) 几个可能的研究问题与提案

1. 把这套检验搬到公司债事件研究。 【经济故事】债券对宏观「日常新闻」（利率、信用利差、流动性冲击）的暴露随发行人特征（评级、久期、行业）系统性变化，$\sigma_n^2$ 很可能比股票更大；很多「事件 × 债券收益 × 特征」的结论或许同样脆弱。【可行性】中。数据上用 TRACE 日度债券收益 + Mergent FISD 特征即可；难点是债券非同步交易、零交易日多，单日横截面回归的样本和 PCA 协方差都更难估，需要在流动性筛选上下功夫。

2. 外资持有人冲击的横截面检验，到底有多少是「真信号」。 【经济故事】指数纳入、资本账户开放这类事件常被用来识别外资对个券/个股的影响，做法正是「事件日收益 ~ 外资暴露特征」。本文提示这类设计可能假阳性偏高。【可行性】高。把已发表的几个外资事件直接套上 TS-OLS/TS-GLS 重做一遍即可，作者的开源模块拿来就能用；贡献是「方法论复核」而非新数据。

3. $\sigma_n^2$ 的截面与时序：哪些特征天生更危险？ 【经济故事】Result 1 说危险程度随 $\sigma_n^2$ 放大。那么哪些特征（规模、BM、动量 vs. 治理、ESG）天生 $\sigma_n^2$ 大、最不适合做单日事件研究？这本身可以做成一张「特征危险度地图」。【可行性】高。用本文的日度回归框架，对每个特征估其日系数的时序方差即可，纯描述性但实用，能直接给做实证的人一份避雷指南。

4. 把 GLS 的 PCA 协方差换成「条件因子」会不会更好。 【经济故事】作者强调相关结构时期特异（2008 金融、2021 meme）。若用 IPCA / 条件因子模型让载荷随宏观状态变化，理论上能更贴合当下的协方差，功效或可再上一台阶。【可行性】中。方法上可行（IPCA 有成熟实现），但要小心「过拟合近期相关」反而损害样本外的 size 控制，需要严格的人造事件回测来验证净收益。

5. 多日窗口里的「漂移污染」如何与本问题分离。 【经济故事】五日窗口既放大了 $\sigma_n^2$，又混入了公告后漂移。能否设计一个把「确认偏差/漂移」与「日常新闻」分项识别的检验？【可行性】低到中。概念清楚但识别难：两者都体现为事件后收益与特征的关系，需要额外的外生变动（如随机化的信息披露时点）才能撬开，现成数据里不易找。

参考文献

Bernard, V.L. (1987). Cross-sectional dependence and problems in inference in market-based accounting research. Journal of Accounting Research 25(1), 1–48.
Chandra, R., Balachandran, B.V. (1992). More powerful portfolio approaches to regressing abnormal returns on firm-specific variables for cross-sectional studies. Journal of Finance 47(5), 2055–2070.
Cohn, J.B., Johnson, T.L., Liu, Z., Wardlaw, M.I. (2026). Past is prologue: Inference from the cross section of returns around an event. Journal of Financial Economics 180, 104278.
Collins, D.W., Dent, W.T. (1984). A comparison of alternative testing methodologies used in capital market research. Journal of Accounting Research 22(1), 48–84.
Fama, E.F., MacBeth, J.D. (1973). Risk, return, and equilibrium: Empirical tests. Journal of Political Economy 81(3), 607–636.
Giglio, S., Xiu, D. (2021). Asset pricing with omitted factors. Journal of Political Economy.
Lopez-Lira, A., Roussanov, N. (2023). Do common factors really explain the cross-section of stock returns? Working paper.
Sefcik, S.E., Thompson, R. (1986). An approach to statistical inference in cross-sectional models with security abnormal returns as dependent variable. Journal of Accounting Research.
Abadie, A., Athey, S., Imbens, G.W., Wooldridge, J.M. (2023). When should you adjust standard errors for clustering? Quarterly Journal of Economics 138(1), 1–35.
Bertrand, M., Duflo, E., Mullainathan, S. (2004). How much should we trust differences-in-differences estimates? Quarterly Journal of Economics 119(1), 249–275.