羊群是真的吗？——把「机构跟风」拆成跟自己和跟别人

[2004 RFS] Institutional Herding

Jun He June 02, 2026

机构投资者羊群行为横截面相关信息瀑布

Note

本文读的是 Sias (2004, Review of Financial Studies)：把「机构是不是羊群」这个吵了三十年的问题，换成一个更干净的问法——本季度「买入比例」会不会延续上季度的「买入比例」。答案是会，相关系数约 0.12，而且这股延续性可以被精确地拆成「机构跟自己」和「机构跟别人」两部分；其中「跟别人」（也就是真正意义上的羊群）占了一大半，且与动量、习惯都关系不大，最像是机构在从彼此的成交里反推信息。

1 一个吵了三十年、却始终没人证实的指控

先讲一个场景。1998 年那个夏天，美股剧烈震荡，电视节目 Wall \$treet Week 的主持人 Louis Rukeyser 对着镜头说了一句很重的话：真正在底部惊慌失措、把市场踩塌的，是那些「神经天生就脆弱」的大机构。报纸跟着起哄——《纽约时报》《底特律自由报》、美联社通稿，口径出奇地一致：别去想什么「典型的散户」了，你脑子里该浮现的是一整群羊。

这是一个流传极广的指控：机构投资者扎堆进、扎堆出同一批股票（也就是「羊群」(herding)），把价格推得忽上忽下，制造了过度波动与市场脆弱。

而且这个指控不是凭空来的。它背后站着一整套漂亮的理论。机构为什么会扎堆？金融学给过至少五种解释：信息瀑布 (informational cascades)——你忽略自己手里那点带噪声的信号，转而跟着大队人马走，因为你觉得别人的成交里藏着你不知道的信息 [Banerjee (1992); Bikhchandani, Hirshleifer, and Welch (1992)]；调查型羊群 (investigative herding)——大家盯着同样的公开信号，于是不约而同地做同一笔交易 [Froot, Scharfstein, and Stein (1992)]；声誉型羊群 (reputational herding)——跟大队伍走错了不丢人，独自走错了要丢饭碗 [Scharfstein and Stein (1990)]；还有潮流/时尚 (fads) 和特征型羊群 (characteristic herding)——大家都被某一类「特征」相似的股票吸引。

Note

注意这五种动机指向的政策含义天差地别：信息瀑布说的是「信息怎样进入价格」，声誉型羊群说的是「代理问题」，潮流说的是「非理性」。能不能把它们分辨开，是这条文献真正的悬念。

理论这么丰满，指控这么响亮，可问题来了——几乎没有人拿出过像样的经验证据。这才是张力所在。Lakonishok, Shleifer, and Vishny (1992)（下称 LSV）亲自下场检验，结论却是泼了一盆冷水：「浮现出来的图景是，机构遵循着五花八门的风格与策略，他们的交易相互抵消……」。Grinblatt, Titman, and Wermers (1995)、Wermers (1999) 接着查，也只找到零星的、系统性很弱的羊群痕迹。

于是一个尴尬的局面出现了：人人都说机构在抱团，可数据一查，抱团就消失了。

2 问题也许不在数据，而在那把尺子

接着，一个自然的问题是：是机构真的不抱团，还是我们量错了？

本文的判断是后者——问题出在那把叫 LSV「羊群度量」的尺子上。前面三篇质疑羊群的论文，用的全是同一把尺子。LSV 的思路是：如果机构在一段时间里扎堆进出同一只股票，那么这只股票在这段时间里，应该「买家明显多于卖家」（或反之）。它度量的是某一窗口内、买卖人数的失衡程度。

听上去合理，但它绕了个弯。羊群的本质是什么？是「一群人先后跟随彼此进出同一批股票」——交易是顺序发生的，A 周一买、B 周二跟着买、A 周三又买。羊群天然是一个时序上、横截面里的跟随现象。LSV 的尺子只看「这段时间里买的人多不多」，却没有直接去看「这一拨人到底是不是在跟着上一拨人走」。

这正是本文最关键的一步：与其测「窗口内的买卖失衡」，不如直接测横截面上的时序依赖——看相邻两个季度之间，机构是不是真的在跟着彼此跑。

怎么测？本文的操作干净得近乎朴素。对每只股票 $k$、每个季度 $t$，先算出一个「买入比例」——在所有交易这只股票的机构里，有多少比例是买家：

$$ \text{Raw}D_{k,t} = \frac{\text{No. of institutions buying}_{k,t}}{\text{No. of institutions buying}_{k,t}+\text{No. of institutions selling}_{k,t}} $$

这里「买家」的定义很物理：一家机构本季度末持有这只股票的股份比例比季度初高，就算买家；低，就算卖家（比如从持有 IBM 的 0.01% 涨到 0.02%，就是买家）。数据来自机构的 13F 报告。

然后把它标准化（横截面去均值、除以横截面标准差），记为 $D_{k,t}$：

$$ D_{k,t} = \frac{\text{Raw}D_{k,t} - \overline{\text{Raw}D_t}}{\sigma(\text{Raw}D_{k,t})} $$

标准化只是线性缩放，不影响相关系数与 $R^2$，纯粹是为了让不同季度、不同分组、不同投资者类型的系数能直接比较。

最后，每个季度跑一次横截面回归，把这季度的买入比例回归到上季度的买入比例上：

$$ D_{k,t} = \beta_t\, D_{k,t-1} + \varepsilon_{k,t} $$

60 个季度的数据，能跑出 58 个这样的横截面回归。因为只有一个自变量、且数据已标准化，这个斜率 $\beta_t$ 就等于横截面相关系数——上季度买入比例高的股票，这季度买入比例是不是也高？

结果一出来，画风全变了。58 个季度的平均系数是 0.1194，t 值 12.67，在 1% 水平上显著为正。如果只保留「至少 5 家机构交易」的股票（剔除噪声更大的冷门股），系数升到 0.1755（t 值高达 25.54）。机构的「买入比例」有着强烈的季度间延续性。 换一把尺子，羊群一下子就显形了。

3 但这还不够：是跟别人，还是跟自己？

然后，问题没有就此结束——反而进入了本文真正精巧的地方。

你发现「这季度买的人多、上季度买的人也多」，这能不能就叫羊群？不能。因为这个正相关里其实混着两股完全不同的力量：

一股是机构 A 跟着机构 B进出同一只股票——这才是真正意义上的羊群（herding）；
另一股是机构 A 跟着自己上季度的交易走——A 上季度买了 IBM，这季度接着买。这叫「跟随自己的滞后交易」，它会让买入比例同样表现出延续性，但它跟「抱团」一点关系都没有。

这两者在 LSV 的框架里是搅在一起、分不开的。而本文最漂亮的贡献，是证明了横截面相关系数 $\beta_t$ 可以被代数上精确地拆成这两部分。

直觉是这样的：买入比例 = 一堆「买家虚拟变量」的和除以交易人数。把这个和代进相关系数的定义里展开，相关系数自然就分成「同一个交易者 $n$ 在前后两季都出现」的项（跟自己）与「交易者 $n$ 和另一个交易者 $m\neq n$ 配对」的项（跟别人）。写出来就是下面这个核心分解式：

$$ \beta_t = \cssId{a1}{\frac{1}{(K-1)\sigma(\text{Raw}D_{k,t})\sigma(\text{Raw}D_{k,t-1})}\sum_{k=1}^{K}\sum_{n=1}^{N_{k,t}}\left(\frac{D_{n,k,t}-\text{Raw}D_t}{N_{k,t}}\right)\left(\frac{D_{n,k,t-1}-\text{Raw}D_{t-1}}{N_{k,t-1}}\right)} \;+\; \cssId{a2}{\frac{1}{(K-1)\sigma(\text{Raw}D_{k,t})\sigma(\text{Raw}D_{k,t-1})}\sum_{k=1}^{K}\sum_{n=1}^{N_{k,t}}\sum_{\substack{m=1\\ m\neq n}}^{N_{k,t-1}}\left(\frac{D_{n,k,t}-\text{Raw}D_t}{N_{k,t}}\right)\left(\frac{D_{m,k,t-1}-\text{Raw}D_{t-1}}{N_{k,t-1}}\right)} $$

其中 $D_{n,k,t}$ 是交易者 $n$ 在股票 $k$、季度 $t$ 的买家虚拟变量（买为 1、卖为 0），$N_{k,t}$ 是该股该季的交易者数。两项的结构一模一样，唯一的差别就是内层求和——第一项锁定 $n=n$（自己跟自己），第二项扫过所有 $m\neq n$（你跟别人）。

这一步为什么关键？因为它把一个含糊的「延续性」，变成了两个可以分别报数、分别检验的渠道。把数据代进去（Panel A，≥1 家机构交易）：

总系数 0.1194
其中「跟随自己」0.0617（t 值 7.33）
「跟随别人」即羊群 0.0576（t 值 10.12）

两块各占一半左右，而且都显著。换到「≥5 家机构」的样本，羊群那一块（0.1081）甚至明显超过了跟随自己（0.0674）。也就是说：机构买入比例的延续性，相当大一部分确确实实来自机构之间的相互跟随，而不只是各自的惯性。 羊群是真的。

4 反转：那它到底是「跟价格」还是「跟人」？

证明了羊群存在，本文后半程做的全是一件事——追问机构到底在跟随什么。这也是我最喜欢的部分，因为它一层层地把别的解释排除掉。

第一个怀疑：会不会只是动量交易？ 机构都是出了名的「追涨杀跌」者（momentum traders），上季度涨得好的股票大家一起买，看上去就像抱团，其实只是大家不约而同地追同一段历史收益（这正是「特征型羊群」）。本文也确实证实了机构在做动量交易。但关键问题是：把滞后收益放进回归，机构的羊群被它解释掉了多少？答案是——很少。更直接的对照是：机构这季度的需求，与上季度的机构需求的相关，强于与上季度收益的相关。也就是说，机构盯着的更像是「别的机构在干嘛」，而不只是「价格涨了多少」。

Tip

这个对照很有分量。如果羊群只是动量的副产品，那机构需求该主要由滞后收益驱动；可数据说，滞后的「机构需求」本身才是更强的预测变量。机构在彼此身上找信号。（关于「动量到底是谁在交易」，可参见《动量到底是谁干的？——把成交单拆成大小两摞来看》。）

第二个怀疑：会不会是「习惯投资」(habit investing)？ 如果机构都偏好同一类特征的股票，又面临同方向的资金净流入，然后简单地按比例调仓，那么他们也会在相邻季度里「跟着彼此」进出同一批股票——但这只是被动的、由资金流驱动的巧合，不是主动跟随。本文专门检验了「机构调整组合权重」的横截面相关，结论是：几乎看不到羊群是由资金净流入的横截面/时序相关驱动的。 习惯投资这条路也被堵上了。

第三步，也是最妙的一步——按市值分层。 本文借用 Wermers (1999) 的论点：信息瀑布更可能发生在小盘股，因为那里的信号更嘈杂，你更没把握，更倾向于忽略自己的判断去跟别人；反过来，调查型羊群可能更偏大盘股，因为那里信号更清晰，大家更容易独立地解读出同一个结论。那么羊群在哪一头更强？

结果：各种市值都有羊群，但小盘股最强。再加上一个佐证——机构需求与同期收益正相关、与未来一年收益弱正相关（而非负相关）。如果机构是在追逐毫无信息含量的潮流，那抱团之后价格该反转、未来收益该为负；可数据里没有这个反转。没有反转，意味着羊群更像是信息被逐步定价进价格的过程，而不是非理性的潮起潮落。

把这几块拼起来，本文落到了它的核心结论：最贴合数据的，是「机构从彼此的成交里推断信息」这一类模型（信息瀑布）。 不是动量，不是习惯，不是纯潮流——是信息。

5 余下的两个切片：时间与类型

本文最后还切了两刀，让画面更完整。

按时间看：机构羊群在 1980 年代比 1990 年代更强，而这个下降主要来自最大市值股票里羊群的衰减。同时，随着市场流动性改善，机构越来越不跟随自己的滞后交易了——流动性好了，你不必再把一笔大单拆到好几个季度慢慢建仓。

按类型看：CDA-Spectrum 把机构分成银行信托部、保险公司、共同基金、独立投资顾问、未分类五类。每一类都有统计上显著的羊群，但银行信托部门的羊群证据最强。而且，机构更倾向于跟随同类机构，而不是不同类的机构——这本身就暗示着，跟随并非随机的噪声，而是带着某种「我相信和我处境相似的人看到了什么」的结构。

6 文献脉络

把这条线索捋一捋，会看到一个很经典的「理论先行、经验滞后、最后被一把新尺子救活」的故事。

最早是理论铺路：Scharfstein and Stein (1990) 给出声誉型羊群，Banerjee (1992) 与 Bikhchandani, Hirshleifer, and Welch (1992) 给出信息瀑布，Froot, Scharfstein, and Stein (1992) 给出调查型羊群。理论的「军火库」很快堆满了。

接着是经验的挫败。Lakonishok, Shleifer, and Vishny (1992) 造出了那把被沿用最久的「羊群度量」，却得出机构交易「相互抵消」的结论；Grinblatt, Titman, and Wermers (1995)、Wermers (1999) 接力检验，同样只找到微弱的系统性羊群。与此同时，Nofsinger and Sias (1999) 等一批文章在「机构持股变化与同期收益强正相关」上达成共识，但这只能说明机构同向交易影响了价格，无法证明他们在抱团——因为总有些股票纯靠运气也会出现净的持股变化。

本文 Sias (2004) 站的位置，是把度量方式整个换掉：不测窗口内的买卖失衡，而是直接测相邻季度间买入比例的横截面相关，并把它代数分解为「跟自己」与「跟别人」。同期 Pirinsky (2002) 用个股层面的时序相关也得到了一致的结论，算是一个独立的旁证。这条线之后，机构羊群的研究就从「有没有」转向了「为什么」与「谁在跟谁」。

7 评论与延伸（Q&A + 研究方向）

(a) 几个可能的疑问

Q：这个「相关系数」凭什么就等于回归斜率，又凭什么能被拆开？

因为自变量只有一个、且数据被标准化到零均值单位方差，单变量 OLS 的斜率在代数上就等于两变量的相关系数（论文附录给了证明）。而买入比例本身是「买家虚拟变量之和 / 交易人数」，把这个和代入相关系数定义并展开，自然分裂成「同一交易者前后配对」和「不同交易者配对」两组项——前者是跟随自己，后者是跟随别人。这是一个恒等式，不是又一个回归设定，所以分解本身没有识别上的争议。

Q：和 LSV 的羊群度量到底差在哪？为什么结论会反过来？

LSV 测的是「某一窗口内买家是否系统性多于卖家」，是一个截面失衡的概念；本文测的是「买入比例在相邻季度间是否延续」，是一个时序依赖的概念。羊群的定义本就是「先后跟随」，所以时序依赖更贴题。LSV 在交易相互抵消、净失衡不大时会读出「无羊群」，但只要跟随是顺序发生的，本文的尺子仍能捕捉到它。换尺子，是结论反转的根本原因。

Q：既然机构在做动量交易，怎么排除羊群只是动量的伪装？

两条证据。其一，把滞后收益放进来后，能解释的羊群非常有限；其二，更直接地，机构本季需求与滞后机构需求的相关，强于与滞后收益的相关。如果羊群只是动量副产品，主导变量该是滞后收益而非滞后机构需求。事实相反，说明机构在彼此身上、而不只是在价格上找信号。

Q：用季度末的 13F 持仓来定义「买/卖」，会不会把季度内的来回交易整个漏掉？

会，这是数据的硬约束。一个机构在季度内先买后卖、期末持股不变，就既不算买家也不算卖家，完全隐身。这意味着本文度量的是低频、净方向的跟随，对高频的日内羊群无能为力。好处是它干净；代价是它只能讲「季度尺度上的抱团」，不能外推到「底部那一刻谁在踩踏」那种叙事。

Q：「小盘股羊群最强 → 信息瀑布」这个推断，会不会太快了？

这是全文识别上最软的一环。「小盘=信号更噪=更易瀑布」是一个借来的先验 [Wermers (1999)]，而小盘股同时还更不流动、机构更少、度量噪声更大，这些都可能机械地放大或扭曲估计。论文用「未来收益不反转」来加固「信息而非潮流」的解读，但「信息瀑布 vs 调查型羊群」这对孪生兄弟，靠市值分层来分辨，证据是间接的、暗示性的，而非决定性的。

Q：羊群是好事还是坏事？这篇文章站哪一边？

本文相对克制。它没有断言羊群制造了过度波动或市场脆弱——恰恰相反，「未来收益不反转」更支持羊群是信息进入价格的过程，而非破坏性的踩踏。这其实是对开篇那条媒体指控的一个温和反驳：机构确实在抱团，但抱团未必等于非理性地搅乱市场。

(b) 几个可能的研究问题与提案

1. 把这把尺子搬到公司债市场。 【经济故事】公司债市场信号更嘈杂、信息更分散、机构主导程度远高于股市，正是「从彼此成交里推断信息」最该发生的地方；而债券的流动性又随评级、久期剧烈变化，能天然地做异质性检验。【可行性】中。需要 TRACE 成交 + 机构持仓（如保险公司 NAIC、基金 N-PORT），把「买入比例」的横截面时序相关算出来并做同样的「跟自己/跟别人」分解。难点是债券的持仓频率与口径不如 13F 整齐，需要仔细处理同一发行人多只债券的聚合。（与《谁在持有这张债券，决定了它的价格》的视角天然互补。）

2. 外资 vs 本土机构：谁跟谁？ 【经济故事】本文发现机构更倾向跟随同类机构。若把「类型」换成「外资/本土」，就能问：外资是在跟随本土机构（推断本地信息），还是自成一群？这直接关系到「外资是不是信息劣势方」的长期争论。【可行性】中。需要带国别标签的机构持仓（如韩国、台湾的逐笔或月度持仓数据），识别策略可沿用本文的横截面相关分解，再按外资/本土交叉配对。数据可得性是主要瓶颈。

3. 共同持有人与跟随的传导速度。 【经济故事】如果机构是从彼此成交里推断信息，那么「共用同一批股东」的公司之间，信息与跟随是否传得更快或更慢？这能把「羊群」与「信息扩散」两条线接起来。【可行性】高。13F 数据本身就能构造公司间的共同持有人网络，再把本文的滞后机构需求相关放到网络维度上估计。（可与《被「同一批股东」拖慢的消息》对照。）

4. 流动性改善如何改写羊群——一个更干净的识别。 【经济故事】本文已观察到「流动性变好 → 机构更少跟随自己的滞后交易」（因为不必再拆单慢慢建仓）。能否用一次外生的流动性冲击（如十进制报价改革、tick size 变化）做事件研究，把这条相关变成因果？【可行性】高。十进制化（2001）等制度变更提供了清晰的时间断点，可在改革前后比较「跟自己」分量的变化，识别相对干净。

8 我的判断

这篇文章的贡献，不在于又跑了一个回归，而在于重新定义了问题。它指出，过去十年「机构不抱团」的共识，很可能只是被一把测错了维度的尺子误导；只要把「羊群」如其定义那样理解为「横截面上的时序跟随」，并且——这才是真正聪明的地方——用一个恒等式把延续性精确地拆成「跟自己」与「跟别人」，结论立刻反转。这种「换一个度量、配一个干净分解」的做法，方法论上的示范意义甚至超过结论本身。

但我也有两点保留。其一，对动机的识别是软的。从「跟自己 vs 跟别人」的分解到「这是信息瀑布」，中间隔着好几层借来的先验（小盘更噪、未来不反转），每一层单独看都成立，但它们排除竞争假说的力度是暗示性的，而非决定性的；信息瀑布与调查型羊群这对孪生兄弟，本文其实没能真正掰开。其二，季度末 13F 的低频本质，决定了它讲不了媒体最关心的那个故事——「崩盘那一刻谁在踩踏」。它度量的是季度尺度上从容的、净方向的抱团，与日内恐慌是两回事。

后续我最想看到的，是两件事：一是把这套「相关 + 分解」搬到更高频、更细颗粒的成交数据上（哪怕只是某个交易所的逐笔），看跟随到底发生在什么时间尺度上；二是引入真正外生的信息冲击，直接检验「机构是不是在从彼此成交里学信息」这个机制本身，而不是靠市值分层去间接推断。把「有没有羊群」问清楚之后，「羊群究竟在学什么」才是更难、也更值得做的那一半。

参考文献

Banerjee, A. (1992). A Simple Model of Herd Behavior. American Economic Review 88, 724–748.
Bikhchandani, S., Hirshleifer, D., and Welch, I. (1992). A Theory of Fads, Fashion, Custom, and Cultural Change as Informational Cascades. Journal of Political Economy 100, 992–1026.
Froot, K. A., Scharfstein, D. S., and Stein, J. C. (1992). Herd on the Street: Informational Inefficiencies in a Market with Short-term Speculation. Journal of Finance 47, 1461–1484.
Gompers, P., and Metrick, A. (2001). Institutional Investors and Equity Prices. Quarterly Journal of Economics 116, 229–260.
Grinblatt, M., Titman, S., and Wermers, R. (1995). Momentum Investment Strategies, Portfolio Performance, and Herding: A Study of Mutual Fund Behavior. American Economic Review 85, 1088–1105.
Lakonishok, J., Shleifer, A., and Vishny, R. W. (1992). The Impact of Institutional Trading on Stock Prices. Journal of Financial Economics 32, 23–43.
Nofsinger, J., and Sias, R. W. (1999). Herding and Feedback Trading by Institutional and Individual Investors. Journal of Finance 54, 2263–2295.
Pirinsky, C. (2002). Herding and Contrarian Trading of Institutional Investors. Working paper, Texas A&M University.
Scharfstein, D. S., and Stein, J. C. (1990). Herd Behavior and Investment. American Economic Review 80, 465–479.
Sias, R. W. (2004). Institutional Herding. Review of Financial Studies 17(1), 165–206.
Wermers, R. (1999). Mutual Fund Trading and the Impact on Stock Prices. Journal of Finance 54, 581–622.