纳斯达克的收益里藏着「假阳性」——一篇给事件研究挑尺子的论文

[1993 JFE] Measuring Security Price Performance Using Daily NASDAQ Returns

Jun He June 02, 2026

事件研究检验统计量市场微观结构

Note

本文读的是 Campbell & Wasley (1993, Journal of Financial Economics)：当事件研究的样本里掺进了 NASDAQ 股票，常用的两个参数检验统计量（标准化统计量与组合统计量）会在原假设下「无中生有」地拒绝太多次，而 Corrado (1989) 那个非参数的秩统计量几乎不受影响——作者因此建议，凡是 NASDAQ 样本，就用秩统计量配等权 NASDAQ 指数的市场模型异常收益。

1 一个让人不安的小问题

先从一桩谁都做过、却谁都没细想过的事说起。

你手里有一批公司，想知道某个事件（一次并购公告、一笔增发、一份盈余预告）有没有让股价「异动」。标准动作是：算出每只股票在事件日的异常收益 (abnormal return)，把它们平均起来，再除以一个标准差，得到一个检验统计量，然后对着标准正态分布查表——统计量超过 1.96，就宣布「5% 水平上显著」。

这套流程的合法性，全压在一个假设上：在「什么都没发生」的世界里，这个统计量应该乖乖地服从单位正态分布。Brown and Warner (1985) 当年用纽交所和美交所 (NYSE/ASE) 的日收益反复验证过，结论是令人安心的——日收益虽然不完全正态，但对检验统计量的设定「构不成严重问题」。于是大家就放心地用了下去。

但 Brown 和 Warner 验的是 NYSE/ASE。接着，一个自然的问题是：当 CRSP 在上世纪八十年代末把 NASDAQ 的日收益数据也放出来、越来越多的实证研究开始把 NASDAQ 股票塞进样本时，那套尺子还准吗？

这正是 Campbell 和 Wasley 要回答的。而他们的答案，足以让任何做过事件研究的人后背发凉：对 NASDAQ 样本，最常用的那个「标准化统计量」在绝大多数情形下都是错的——它会在根本没有异常表现的时候，把原假设拒绝得太频繁。换句话说，你以为自己抓到了一个显著的市场反应，很可能只是尺子本身在抖。

2 病根：NASDAQ 的收益「太不正态」

要理解尺子为什么会抖，得先看清 NASDAQ 收益到底「怪」在哪。

参数检验统计量的命门是正态性 (normality)。而 NASDAQ 的日收益，恰恰在好几个维度上系统性地背离正态：

第一，价格太低、跳动太粗。 1973–1987 年间，NASDAQ 股票的平均价是 $11.63，而 NYSE/ASE 是 $21.59。绝大多数股票按八分之一美元报价，一个最小跳动单位 (tick) 对 NASDAQ 来说就是均价的 1.10%，对 NYSE/ASE 只有 0.55%。价格越低，离散化造成的「价格取整」误差越大，观测收益的方差就被人为抬高（这个机理早在 Schwartz and Whitcomb (1977) 就讨论过）。

第二，交易太薄、买卖价差太宽，导致大量「零收益」与「极端收益」并存。 作者随机抽了三百万个 NASDAQ 日收益，发现零收益出现的频率比同样规模的 NYSE/ASE 样本高出 127%。一只股票今天没成交、明天猛跳一下，时间序列就被切成一段段「不动—暴动—不动」。

把这些拼起来，结果就是：单只 NASDAQ 股票估计期异常收益的偏度 (skewness) 系数都在 0.90 以上，峰度 (kurtosis) 约 17.0，学生化极差 (studentized range) 不低于 9.6——三个指标全部越过了正态总体的 99% 分位。其中峰度和学生化极差，比 Brown and Warner (1985) 报告的 NYSE/ASE 数值分别高出 30% 和 127%。

Table I

更要命的是，这种非正态在组合层面仍然顽固存在。一般我们指望靠中心极限定理「洗白」：把很多只股票平均起来，分布总该向正态收敛吧？可对 50 只 NASDAQ 股票构成的组合，事件日平均异常收益的横截面偏度仍约 0.40、峰度 3.55 以上——大约是 50 只 NYSE/ASE 组合的四到五倍。要一直加到 100 只股票，分布才勉强回到正态。

3 尺子是怎么抖起来的：三个统计量的设定

带着「收益不正态」这个病根，我们来看作者拿来对质的三把尺子。它们都来自 Brown and Warner (1985) 和 Corrado (1989) 的工具箱。

设 $R_{it}$ 为股票 $i$ 在第 $t$ 日的原始收益。两种异常收益的定义是：

$$U_{it} = R_{it} - \bar{R}_i$$

（均值调整法，mean-adjusted，$\bar{R}_i$ 为估计期平均收益）

$$U_{it} = R_{it} - (\hat{\alpha}_i + \hat{\beta}_i R_{mt})$$

（市场模型法，market model，$R_{mt}$ 取等权 NASDAQ 指数收益）。这里要先记下一个伏笔：作者试过五种别的指数（CRSP NYSE/ASE 市值加权、等权，CRSP NASDAQ 市值加权，NASDAQ 综合指数），发现换了指数要么拒绝太多、要么检验功效骤降——尤其 CRSP NYSE/ASE 市值加权指数在 NASDAQ 样本里千万别用。

第一把尺子，组合统计量 (portfolio test statistic)：

$$\frac{\bar{U}_t}{s(\bar{U}_t)}, \qquad \bar{U}_t = \frac{1}{N}\sum_{i=1}^{N} U_{it}$$

它把整个组合的事件日平均异常收益，除以一个在估计期 240 天上用时间序列估出来的标准差 $s(\bar{U}_t)$。这一步很关键：在组合层面估方差，等于绕开了「逐只股票估标准差」的误差，所以它后面表现得没那么糟。

第二把尺子，标准化统计量 (standardized test statistic)：

$$\sum_{i=1}^{N} \left(\frac{U_{i0}}{s_i}\right)\Big/\sqrt{N}$$

它先把每只股票的事件日异常收益，除以那只股票自己估计期残差的标准差 $s_i$，再加总、除以 $\sqrt{N}$。问题就出在这个 $s_i$ 上——NASDAQ 那么多零收益和极端收益，会把单只股票标准差的估计搅得乱七八糟。而且它要求标准化后的横截面均值收敛到正态，可作者发现，标准化后组合异常收益的偏度和峰度，至少是未标准化时的四倍。两头不讨好，于是它在原假设下拒绝得最凶。

但真正关键的一步，是第三把尺子——秩统计量 (rank statistic)。

4 反转：把收益换成「名次」

Corrado (1989) 提出的秩统计量，思路是釜底抽薪：既然问题出在收益分布太歪，那我干脆不看收益的数值，只看它的名次。

具体做法是，把每只股票在整个 261 天（估计期 250 天 + 事件期 11 天）里的异常收益序列，转换成各自的秩 (rank)：

$$k_{it} = \text{rank}(U_{it}), \quad t = -250, \dots, +10$$

然后比较事件日（第 0 天）的秩，相对于「期望名次」偏离了多少。这个最核心的方程，逐项拆开是这样的：

$$ T_{rank} = \cssId{a1}{\frac{1}{N}\sum_{i=1}^{N}} \frac{\cssId{a2}{k_{i0}} - \cssId{a3}{E(k_i)}}{\cssId{a4}{s(k)}} $$

其中期望名次 $E(k_i) = (0.5\,T_i + 0.5)$，$T_i$ 是股票 $i$ 在估计期与事件期合计的非缺失收益个数；分母

$$s(k) = \sqrt{\frac{1}{261}\sum_{t=-250}^{+10}\left[\frac{1}{N}\sum_{i=1}^{N}\big(k_{it}-E(k_i)\big)\right]^2}$$

是用全部 261 天的「组合平均名次偏离」算出来的标准差。

为什么这一招管用？直觉很简单：名次是分布无关的。无论原始收益多么尖峰厚尾、多么偏斜，把它转成秩之后，秩的分布永远是均匀的、对称的。横截面里那点要命的不对称，在「换成名次」这一步就被熨平了。所以 NASDAQ 收益的种种「怪」，对秩统计量的设定根本不构成威胁——它随 $N$ 增大平滑地收敛到单位正态。

作者顺势下了一个预判：既然 NASDAQ 比 NYSE/ASE 更不正态，那秩统计量相对参数统计量的优势，在 NASDAQ 样本里只会比 Corrado (1989) 当年在 NYSE/ASE 里发现的更明显。

5 实验台上的对质

光有直觉不够，作者用一场大规模模拟把三把尺子摁在台上逐一过秤。

数据与设计。 从 CRSP NASDAQ 日收益文件里有放回地抽样，构造 250 个样本，规模分别为 10、25、50 只股票。每选中一只股票，就在 12/11/73 到 12/20/87 之间随机指定一个事件日（第 0 天），抽取 261 天的收益序列。估计期是第 $-250$ 到 $-11$ 天，事件期是第 $-10$ 到 $+10$ 天。要制造「真有异常表现」的对照场景，就往事件日收益里人为植入一个固定幅度的异常收益——幅度限制在 ±1% 以内，因为前面说过，一个 tick 就值均价的 1.10%，再大就不真实了。

判定标准也定得很干净：在没有异常表现时，一个统计量若在 5%（1%）名义水平下，第一类错误率落在 2%–8%（0%–2.2%）之间，就算「设定正确」。

Figure I: Empirical distributions of the test statistics under the null hypothesis

先看原假设下（图 1）。 这张图把三个统计量的经验分布叠在理论单位正态上。结论触目惊心：组合统计量与标准化统计量在原假设下的标准差都约为 1.3——而 Brown and Warner (1985) 报告的 NYSE/ASE 值是 0.9，Corrado (1989) 是 1.0。两个参数统计量的分布中段更平、两尾更厚，明显偏离正态；唯有秩统计量的分布与单位正态几乎严丝合缝。

再看设定（表 3 的逻辑）。 在 5% 水平下，标准化统计量的第一类错误率达到或超过 8.0%，越线。在 1% 水平下，组合与标准化统计量的错误率都达到或超过 2.8%，双双越线。而秩统计量在 1% 水平下，无论样本大小都找不到误设定的证据。

最后看功效（power），这才是秩统计量真正碾压的地方。 当植入 1% 的异常表现、用 5% 的检验水平时：

均值调整收益下，秩统计量的拒绝率是 100%，组合统计量只有 50.0%；
换成 1% 的检验水平，对应是 99.2% 对 29.2%。

而且这种优势不随样本缩小而消退：在 25（10）只股票的样本里，秩统计量能检出 1% 异常表现的概率约 95%（75%），组合统计量只有 32%（20%）。一句话——秩统计量既设定得更准，又检出得更狠。

作者还做了一长串稳健性检验：多日事件窗（2 日、5 日、11 日）、聚集的事件日 (clustered event dates)、NYSE/ASE 与 NASDAQ 混合样本、NMS 与非 NMS 之分、事件日方差骤增、不同的 beta 估计方式（以应对 Scholes and Williams (1977) 式的非同步交易）。基本结论纹丝不动。

6 文献脉络

把这条线索捋一捋，会看到一个非常清晰的「方法论接力」。

最早的源头是两支独立的暗流。一支是 Schwartz and Whitcomb (1977) 对低价股价格取整、市场模型残差序列相关的关注——它解释了 NASDAQ 收益方差为何天然偏大。另一支是 Patell (1976) 把异常收益按标准差「标准化」的思路，以及 Scholes and Williams (1977) 处理非同步交易下 beta 估计的办法，它们共同搭起了参数检验统计量的脚手架。

真正把事件研究方法论「立规矩」的，是 Brown and Warner (1985)——它用 NYSE/ASE 数据系统检验了各类统计量的设定，得出「日收益的非正态不构成严重问题」的安心结论，成了后来所有事件研究的默认手册。Bernard (1987) 则补上了横截面相依 (cross-sectional dependence) 这一块对推断的影响。

转折点是 Corrado (1989)：他提出非参数的秩统计量，证明它在 NYSE/ASE 样本里就已经比参数统计量更稳、更有力。Campbell and Wasley (1993)（本文）所处的位置，正是把这条线推到 NASDAQ 这个「最坏情形」——既然 NASDAQ 收益比 NYSE/ASE 更不正态，那么秩统计量的优势会被放大到何种程度？答案是：放大到「凡 NASDAQ 样本，请直接用秩统计量」的程度。（顺带一提，本文作者之一 Wasley，也参与了 Handa, Kothari and Wasley (1989) 那篇关于收益区间与 beta 的工作。）

这条「给事件研究挑尺子」的关切，今天仍未过时——后来对横截面 t 值是否等于因果的反思，可参见《事件研究里的「假阳性」：当一根 t 值不再等于因果》；而 NASDAQ 与 NYSE 收益差异本身的来源之争，则可参见《纳斯达克跑输的那 6%，是「市场结构」，还是塞满了新股？》。

7 评论与延伸（Q&A + 研究方向）

(a) 几个可能的疑问

Q：秩统计量「分布无关」，那它岂不是处处都该用？为什么大家还在用参数统计量？

不是免费午餐。秩变换丢掉了收益的数值大小，只保留次序，因此在收益确实近正态且效应以「幅度」体现的场景里，它会损失一点信息。但本文的关键发现恰恰是：在 NASDAQ 这种严重非正态的样本里，参数统计量丢掉的「设定正确性」远比秩统计量丢掉的那点信息值钱——所以净效果是秩统计量完胜。

Q：组合统计量和标准化统计量都是参数法，为什么前者误设定轻得多？

区别在「在哪一层估方差」。标准化统计量逐只股票估 $s_i$，NASDAQ 的零收益和极端收益直接污染了这个估计；组合统计量在组合层面用估计期时间序列估一个 $s(\bar{U}_t)$，等于把逐只股票的估计误差平均掉了。所以它的标准差虽然也膨胀到约 1.3，但偏度、峰度没标准化统计量那么离谱。

Q：为什么作者特别强调要用「等权 NASDAQ 指数」，而不是别的指数？

因为指数决定了市场模型异常收益的系统性偏差。作者试了五种指数，发现用 CRSP NYSE/ASE 市值加权指数去给 NASDAQ 股票算异常收益，会在没有异常表现时频繁拒绝原假设——本质上是「拿大盘股的尺子量小盘股」，beta 和市场收益都对不上。等权 NASDAQ 指数与样本股票同源，偏差最小。

Q：把异常表现幅度限制在 ±1% 会不会让结论只适用于「小效应」？

这是个诚实的取舍。作者的理由是 NASDAQ 收益的离散性——一个 tick 就值 1.10%，植入更大的异常收益会和真实的离散跳动混淆。代价是，结论主要刻画的是「小到中等」效应下的功效差异；不过在多日窗、0%–10% 区间的稳健性检验里，秩统计量的优势依旧。

Q：这套结论在今天（小数报价、电子化交易之后）还成立吗？

要打个问号。本文的病根是八分之一美元报价 + 薄交易带来的离散性与零收益。2001 年小数化 (decimalization) 之后 tick 缩到一美分，NASDAQ 的微观结构也大变。非正态多半减轻了，但未必消失——这恰恰是一个值得重做的实证问题（见下）。

Q：聚集事件日 (clustered event dates) 为什么会让设定更糟？

当组合内所有股票共享同一个事件日，横截面相依（Bernard (1987) 强调的那种）无法靠平均消掉，等于有效样本量大幅缩水，非正态和方差膨胀都被放大。作者发现此时参数统计量误设定更严重，而秩统计量相对更稳——但这也是它压力最大的场景之一。

(b) 几个可能的研究问题与提案

1. 小数化之后，重做这场「挑尺子」的实验。 【经济故事】本文的全部张力来自八分之一美元报价的离散性。2001 年小数化把 tick 压到一美分，理论上零收益和价格取整噪声都应大减。那么标准化统计量的误设定是否随之消失？秩统计量的优势是否被抹平？这能直接告诉今天的研究者「老结论还能不能用」。【可行性】高。CRSP 日收益数据现成，完全复制本文的有放回抽样—植入异常表现—模拟拒绝率框架即可，识别清晰、无需外部冲击。

2. 把这套方法论搬到公司债事件研究上。 【经济故事】公司债比 NASDAQ 股票更极端：交易更稀疏、零收益更多、价格更「黏」。事件研究（评级下调、契约违约、并购公告）在债券市场越来越常见，但检验统计量的设定几乎没人系统验过。债券异常收益的非正态恐怕比 NASDAQ 还严重，秩统计量的优势可能更大。【可行性】中。数据可用 TRACE 逐笔成交构造日度债券收益；难点在于债券「正常收益模型」本身比股票的市场模型更难设定，需要先解决基准收益的问题，否则误设定来源会混淆。

3. 外资持有人事件下的检验功效。 【经济故事】研究外资进入/退出对个股的影响时，受影响的常是流动性较差、交易较薄的中小盘股——其收益分布的「怪」程度接近本文的 NASDAQ。若沿用默认的参数统计量，这类研究的显著性结论可能系统性偏乐观。【可行性】中高。可用新兴市场或「可投资度」变化作为事件，配合本文的模拟框架评估在薄交易样本下各统计量的设定与功效；数据（如 MSCI 可投资度、本地交易所成交）可得，识别取决于事件日的外生性。

4. 高频/多资产场景下秩统计量的拓展。 【经济故事】本文的秩变换是单维（收益）的。当一个事件同时冲击股、债、期权多个市场，能否构造一个保留分布无关优势的「多元秩统计量」，在联合检验里既稳又有力？【可行性】低到中。理论上诱人，但多元秩统计量的零分布与功效需要新的推导，且高频数据的微观结构噪声会引入新的设定问题，属于方法论研究而非纯实证。

8 我的判断

这篇论文的贡献，是把「事件研究该信哪把尺子」这个看似已被 Brown and Warner (1985) 盖棺定论的问题，在 NASDAQ 这个最不利的角落里重新打开，并给出了一个干脆利落、可直接照搬的操作建议：NASDAQ 样本，用秩统计量配等权 NASDAQ 指数的市场模型异常收益。它的可贵之处在于诚实——作者没有回避标准化统计量被广泛使用却广泛误设定的尴尬，而是用 250 个样本、多场景的模拟把这件事钉死。

对识别（这里是「统计量设定」）的担忧，我有两点。其一，全部结论建立在 1973–1987 这段「八分之一美元报价」的微观结构上，而这套报价制度早已不复存在——结论的外部有效性高度依赖于 tick 大小，今天未必照搬得动（这正是我最想看到的后续：小数化后的重做）。其二，植入异常表现的幅度被限制在 ±1%，对「大效应」事件（如剧烈的并购溢价）下的相对功效，本文说得不多。

但作为一篇方法论论文，它做对了最重要的一件事：它没有止步于「NASDAQ 收益不正态」这个描述性观察，而是一路追到「这对你的 t 值意味着什么、你该换哪把尺子」。对任何今天还在做事件研究的人，它至少留下一条朴素的提醒——在按下「查正态表」之前，先问问你的样本配不配得上那张表。

参考文献

Bernard, V. (1987). Cross-sectional dependence and problems of inference in market-based accounting research. Journal of Accounting Research 25, 1–48.
Brown, S. and J. Warner (1985). Using daily stock returns: The case of event studies. Journal of Financial Economics 14, 3–31.
Campbell, C. J. and C. E. Wasley (1993). Measuring security price performance using daily NASDAQ returns. Journal of Financial Economics 33, 73–92.
Corrado, C. J. (1989). A nonparametric test for abnormal security-price performance in event studies. Journal of Financial Economics 23, 385–395.
Handa, P., S. P. Kothari and C. E. Wasley (1989). The relation between the return interval and betas: Implications for the size effect. Journal of Financial Economics 23, 79–100.
Patell, J. (1976). Corporate forecasts of earnings per share and stock price behavior: Empirical tests. Journal of Accounting Research 14, 246–276.
Scholes, M. and J. Williams (1977). Estimating betas from nonsynchronous data. Journal of Financial Economics 5, 309–328.
Schwartz, R. A. and D. K. Whitcomb (1977). Evidence on the presence and causes of serial correlation in market model residuals. Journal of Financial and Quantitative Analysis 12, 291–314.