把研究「众包」给散户之后,他们的下单反而更聪明了

[2022 JFE] The Democratization of Investment Research and the Informativeness of Retail Investor Trading
Note

本文读的是 Farrell, Green, Jame & Markov (2022, Journal of Financial Economics):作者利用 Seeking Alpha 一篇研报「从投稿到发布」之间那段编辑审核延迟,比较同一天发布前后两个日内窗口里散户订单的预测力,发现发布之后散户的「买卖失衡」对未来五日收益与现金流消息的预测能力陡然上升——一个标准差的订单失衡,能多预测 0.26 个百分点的未来收益。结论是:技术驱动的「研究众包」,真的让散户变得更有信息了。

1 一个被反复唱衰的命题

投资从来都是一件「社交」的事。早在 1989 年,Shiller 和 Pound 就用问卷证据告诉我们,投资者买什么、卖什么,深受身边人的影响;后来 Duflo 和 Saez(2002, 2003)、Ivković 和 Weisbenner(2007)一路把这件事做实——你的同事、你的邻居,会悄悄改写你的投资组合。

进入社交媒体时代,这种「社交」被技术放大了无数倍。散户们不再只是看客,他们涌入各类财经社区,既消费内容,也生产内容:讨论新闻、分享研报、争论策略。听上去很美好,对吧?更多的信息、更低的门槛、更平的「信息地形」。

但监管者和学术界的主流声音,长期以来却是怀疑甚至唱衰的。一方面,理论上同伴互动会加剧行为偏差(Han, Hirshleifer & Walden, 2021);另一方面,实证证据也大多站在「唱衰」这一边:Heimer(2016)发现社交互动放大了处置效应,Cookson、Engelberg 和 Mullins(2020)描述了「回音室」效应,Ammann 和 Schaub(2020)则质疑散户根据网帖交易到底有没有用。早期文献干脆把散户定性为「噪声交易者」——Barber 和 Odean(2000)那句著名的「交易有害你的财富」,至今还在很多人脑子里回响。

Warning

注意,这里有一个微妙但要命的逻辑空当:「社交媒体里含有投资价值」,和「社交媒体让散户的交易更有信息」,是两件完全不同的事。Chen 等(2014)早就证明了 Seeking Alpha 的研报和评论能预测未来收益和盈余惊喜——可那讲的是「内容有料」。内容有料,不等于散户接住了这份料、并据此下了更聪明的单。这中间隔着一道鸿沟。

本文要填的,正是这道鸿沟。

2 为什么偏偏挑中 Seeking Alpha

要回答「社交媒体是否让散户交易更有信息」,第一步是找一个干净的舞台。作者选了 Seeking Alpha(下称 SA)——美国最大的投资类社交媒体之一,月访问量约 4000 万、独立访客约 1500 万。它有三个别处难得的好处。

首先,它提供的是深度分析,而非碎片化的情绪。StockTwits 限制帖子字数,Estimize 主攻短期盈余预测,Motley Fool 的选股缺乏详细论证;相比之下,SA 上的是一篇篇完整的研报。

接着,一个自然的问题是:这些「众包」研报,到底是写给谁看的?作者先做了一份「研究覆盖的决定因素」回归。结果很漂亮:控制其他公司特征后,机构持股比例(institutional ownership)每上升一个标准差,SA 覆盖度(SA Coverage)下降约 25%;而股东人数即所有权广度(breadth of ownership)每上升一个标准差,SA 覆盖度上升约 6%。券商研报(IBES Coverage)的模式则恰好相反——机构持股越高,券商盯得越紧。这与 Brown 等(2015)的调查互相印证:超过 80% 的卖方分析师把对冲基金和共同基金客户视为「非常重要」,只有 13% 把散户当回事。

Table 2

Table 2

一句话:券商研究是机构的生意,SA 是散户的窗口。这就为「研究 SA → 看散户」铺好了路。(散户究竟栖息在市场的哪个角落,可参见《散户的栖息地:他们不是更笨,只是去了别人不愿去的地方》。)

然后,是真正关键、也最巧妙的一步——SA 的研报不是突发新闻,而是分析,并且每篇都要经过编辑审核,常常要改好几轮。一位首次投稿的作者描述,被反复要求「补充来源、把投资论点说得更透、再加财务报表分析」,最后感叹「一篇文章背后的东西,比我原以为的难得多」。

这道审核引致的发布延迟,正是本文识别策略的命根子。

3 识别策略:把「新闻」从「研报」里剥出来

评估 SA 研报对散户交易影响的最大障碍是什么?是反事实:如果没有这篇研报,散户本来会怎么交易?更麻烦的是,SA 研报本身可能是被某个底层信息事件「触发」的——比如公司出了个利好,分析师才动笔。那么发布后散户交易变活跃,到底是 SA 研报的功劳,还是那个底层新闻的功劳?

作者的解法是:用同一天里发布「前后」两个日内窗口做对照

具体地,他们围绕每篇 SA 研报的发布时点,取十个半小时的日内事件窗口。发布之后的窗口,度量的是「社交网络引致的交易」;发布之前(但在可能触发研报的信息事件之后)的窗口,则捕捉「假如没有这篇 SA 研报,本应发生的交易」这一反事实。由于编辑审核把发布时点的日内时机「打乱」了,注入了一点随机性,这就让前后对照变得可信。

Tip

识别的灵魂在这句话里:审核延迟割断了「研报内容」与「触发新闻」在时间上的纠缠。作者还做了安慰剂式检验——发现传统媒体文章、券商研报、盈余公告在 SA 发布的日内窗口前后并不系统性地扎堆,正符合识别假设。

回归设计上,作者放入了单篇报告固定效应(individual report fixed effects),等于把每篇研报「发布后」的日内表现,拿它自己「发布前」的表现做基准来比,标准误按公司聚类。核心回归考察的是:聚合散户订单失衡(retail order imbalance)预测未来五日横截面收益的能力,在发布前后是否变化。

订单失衡本身用 Boehmer 等(2020,下称 BJZZ)的方法构造。这里要先说清楚一个技术细节——怎么从 TAQ 数据里把散户的单子认出来。BJZZ 抓住散户交易的两个制度特征:其一,散户的股票交易大多在场外成交(由券商自营库存或批发商接走),TAQ 用交易所代码「D」标记这类成交;其二,散户的市价单通常能拿到不到一美分的微小价格改善(0.010.4 美分),而机构单往往落在整数或半美分上。于是:成交价略低于整数美分 → 认定为散户买入略高于 → 散户卖出。这套方法偏保守,但据 BJZZ 自己说「大概能捕捉大多数散户交易」,且与 Kelley 和 Tetlock(2013)专有数据的相关性平均达 0.452

订单失衡的定义就是最朴素的那个:

$$ OIB_{i,t} = \frac{B_{i,t} - S_{i,t}}{B_{i,t} + S_{i,t}} $$

其中 \(B_{i,t}\) 与 \(S_{i,t}\) 分别是股票 \(i\) 在窗口 \(t\) 的散户买入与卖出量。本文最关心的回归,本质上是把未来五日收益对「订单失衡 × 是否发布后」这一交互项做投影:

$$ Ret_{i,\,t \to t+5} = \beta_1\, OIB_{i,t} + \beta_2\, \big(OIB_{i,t} \times Post_{t}\big) + \gamma\, Post_{t} + \delta_{report} + \varepsilon_{i,t} $$

这里 \(Post_t\) 是「发布后窗口」的示性变量,\(\delta_{report}\) 是单篇报告固定效应。真正被盯着看的,是交互项系数 \(\beta_2\)——它度量的就是「发布额外带来的散户交易信息含量」。

4 数据:十二年、十八万篇、四千九百家公司

样本来自 2006–2017 年 SA 网站上发布的全部研报,限定为单只股票、且能匹配上 CRSP-Compustat 与 TAQ 的普通股。最终落到 183,969 篇单票研报,覆盖 4910 家公司,出自 8988 位贡献者之手。

这个平台的「民主化」是肉眼可见地长起来的:2006 年只有 724 家公司、228 位贡献者、2590 篇研报;到 2017 年,已是 2305 家公司、2091 位贡献者、21,402 篇研报。覆盖率从 2006 年占 CRSP-Compustat-TAQ 样本的 15.2%,一路涨到 2015 年的 72.2%。平均而言,一家有 SA 覆盖的公司每年约有 8.0 篇研报,出自 4.6 位不同作者。

Table 1

Table 1

本文的主战场是那约三分之一在交易时段内(10:30am–3:30pm)发布的研报——平均每年 5533 篇,其中 4067 篇在前后十个半小时窗口里没有被其他事件(媒体文章、卖方研报、盈余公告)污染。正是这批「干净」的日内样本,撑起了识别。

顺带一提,SA 覆盖的公司平均市值约 610 亿美元,比市值加权市场组合(890 亿)小,却远大于等权市场组合(46 亿)——也就是说,SA 并不只盯着小盘股,它的覆盖面其实和整个市场组合差不太远。

5 主要结果:发布之后,散户的单子开始「说真话」

先看交易强度。SA 研报发布后的第一个半小时,聚合散户交易量比发布前的半小时高出 7.68%。而且,那些能预测未来收益的研报情绪指标——报告语气(report tone)、贡献者自身的持仓方向(Campbell et al., 2019; Chen et al., 2014)——能解释发布后的散户订单失衡,却解释不了发布前的失衡。换句话说,散户不是在 SA 发布之前就「闻到味」抢跑,他们是在读到研报之后才动手的。这本身就否定了「散户在对某个未观测到的信息事件做反应」的替代解释。

再看信息含量,这是全文的核心。结果是:一个标准差的发布后散户订单失衡所预测的未来收益,比一个标准差的发布前订单失衡多出 0.26 个百分点。更重要的是「时间形状」——作者把发布前的五个半小时窗口逐一估计,没有发现信息含量的任何上升趋势;上升只发生在发布之后

Figure 3: plots the estimates from Specification (2) of

Figure 3: plots the estimates from Specification (2) of

这张图(对应 Specification (2) 的逐窗口估计)是整篇论文的「定海神针」:如果发布后的预测力上升只是某种「事前趋势」的延续,那它在发布前就该缓缓爬升——可它没有,它是在发布那一刻陡然跳起的。平行趋势(parallel trends)的味道,被这张图坐实了。

但真正关键的一步在于:预测力上升,未必等于「信息」。它也可能是价格压力(price pressure)流动性提供(liquidity provision)伪装成的。作者用三道检验把这两个对手一一排除:

到这一步,「散户更有信息」已经站住脚了。

6 反转:他们不是在「抄」研报的作业

于是反转出现——一个外行的直觉会说:散户无非是照搬了研报里的观点(看多就买、看空就卖)嘛,谈何「自己的信息」?

作者的回答是:发布后散户交易所揭示的增量信息,与研报语气、贡献者持仓所揭示的信息,基本是正交的。也就是说,散户并不是被动地跟着社交媒体上那张嘴走,而是在主动地从研报里淘出有价值的东西——很可能是研报激发了他们自己的进一步研究和判断。

顺着这个逻辑,作者提出一个可证伪的猜想:质量更高的研报,应当带来更知情的交易。检验下来正中靶心——由「更厉害」的贡献者撰写的报告(评论数更多、作者有强学术背景、或过往报告影响力更大),其发布后散户订单失衡对未来收益和现金流消息的预测,更令人信服。

而硬币的另一面,是 Kogan、Moskowitz 和 Niessner(2020)、Mitts(2020)、Dyer 和 Kim(2021)警告过的「假」研报。作者把匿名发布、或文本真实性得分偏低的报告识别为「fake」。这些报告同样能撬动散户的交易方向与强度,但其后果耐人寻味:报告发布后的散户订单失衡,能预测一周收益、却预测不了五周收益;而非假报告恰好相反,对五周收益的预测更强。一句话——一小撮「带节奏」的研报,确实诱发了把价格短暂推离基本面的、不知情的散户交易,但这股力量在更长的窗口里就散掉了。

Note

这恰好呼应了散户在别的市场里被「算计」的故事——比如《一次「拆股」,如何把散户钉在最高点》。技术既能赋权,也能被用来收割;本文的可贵之处,是把「赋权」这一面用干净的识别证了出来。

7 文献脉络

把这条线索拉直了看,会清楚很多。

起点是「散户=噪声交易者」的经典叙事:Barber 和 Odean(2000)、Kumar 和 Lee(2006)、Frazzini 和 Lamont(2008)、Hvidkjaer(2008)、Barber、Odean 和 Zhu(2009)——散户被刻画为受行为偏差驱动、把价格推离基本面的群体。与此平行的,是「投资是社交的」这条线:Shiller 和 Pound(1989)开篇,Duflo 和 Saez(2002, 2003)、Ivković 和 Weisbenner(2007)接力。

接着,风向变了。Kaniel、Liu、Saar 和 Titman(2012)、Kelley 和 Tetlock(2013, 2017)、以及方法论上居功至伟的 Boehmer、Jones、Zhang 和 Zhang(2020)开始发现:散户其实存在知情交易。与此同时,社交媒体「含金量」的证据也在积累:Chen 等(2014)证明 SA 内容能预测收益与盈余,Jame 等(2016)肯定了众包盈余预测的价值,Bartov、Faurel 和 Mohanram(2018)则在 Twitter 上找到了预测力。

文献脉络时间线
文献脉络时间线(按发表年份排布;红色为本文)

但「内容有料」与「散户更聪明」之间那道鸿沟,始终没被严肃地跨过——反方还摆着 Heimer(2016)、Cookson 等(2020)这些「社交媒体加剧偏差」的证据。本文(2022)所处的位置,正是把这道鸿沟跨过去的那一脚:它不再问「SA 有没有料」,而是用审核延迟做识别,直接回答「SA 是否让散户的交易更有信息」。同时它也没有回避另一面——借 Kogan 等(2020)、Mitts(2020)的「假新闻」视角,承认一小撮研报确实在误导。

8 评论与延伸(Q&A + 研究方向)

(a) 几个可能的疑问

Q:用「编辑审核延迟」做识别,真的干净吗?会不会作者把稿子写完、又赶在某个利好临近时投出去?

这是最该担心的内生性。作者的两道防线是:其一,审核要改好几轮,发布的日内时点带有外生随机性;其二,他们直接检验了媒体文章、券商研报、盈余公告不会在 SA 发布的日内窗口前后系统性扎堆。再加上「发布前五个半小时无任何信息含量上升趋势」这个事实,抢跑/择时的故事很难同时解释这些。识别不是无懈可击,但相当扎实。

Q:BJZZ 用「次美分价格改善 + 交易所代码 D」识别散户,会不会把单子认错?

会漏、但不太会认错。BJZZ 自己强调这套方法的「一类错误」很低——被标成散户的,极大概率真是散户;代价是漏掉一部分(非市价限价单、在正规交易所成交的散户单)。它与 Kelley-Tetlock 专有数据的相关性平均 0.452,不完美,但足以支撑「聚合订单失衡」层面的结论。

Q:「预测力上升 0.26 个百分点」——这个量级算大吗?

放在五日横截面收益的预测上,这个增量是经济上可观的,而且是相对于发布前的同一批股票、同一篇研报比出来的,已经吸走了大量公司层面的混淆。它度量的是「发布这件事额外注入的信息」,不是散户交易的总预测力。

Q:会不会只是价格压力或流动性提供,被误读成了「信息」?

作者专门堵了这两条路:发布后的可预测收益在随后一个季度不反转(排除价格压力);把订单失衡分解出的知情残差成分仍显著预测收益(区分于流动性提供);而且散户的单子还能提前预测分析师修正与媒体情绪——价格压力是讲不出这个故事的。

Q:散户到底是「自己挖信息」还是「抄研报观点」?

关键证据是正交性:发布后散户揭示的增量信息,与研报语气、作者持仓方向基本无关。如果只是照抄,增量信息就该被研报情绪「吃掉」。再加上「越厉害的作者 → 越知情的交易」,更像是研报激发了散户的主动研究,而非替他们做决定。

Q:那「假研报」的存在,是不是把整篇结论推翻了?

不。假研报确实诱发了交易,但其影响短命——只预测一周、不预测五周收益;非假研报才驱动更长窗口的可预测性。所以结论是「主流是赋权、少数是收割」,两面并存,而非互相抵消。

(b) 几个可能的研究问题与提案

1. 把这套识别搬到公司债市场。 【经济故事】股票市场的散户研究众包已被证明有信息,但公司债市场长期被认为是「机构的游乐场」、散户几乎缺席。近年来散户通过债券 ETF 和零佣金平台越来越多地介入信用市场——他们的交易有没有信息?社交媒体研报会不会同样让债券散户更知情? 【可行性】。难点在于散户债券交易的识别——TRACE 有成交但难分零售/机构,需要借助 ETF 申赎或经纪商层面数据。识别仍可沿用「研报发布前后窗口」,但债券日内流动性稀疏,统计功效是真问题。

2. 外资散户 vs 本土散户,谁从「研究民主化」里获益更多? 【经济故事】SA 这类平台天然跨境,外国散户面临语言、时区、信息劣势。技术驱动的研究众包,是不是恰恰更能「补」上外资散户的信息缺口、缩小他们与本土投资者的信息差?这直接关系到「信息地形是否被拉平」的核心命题。 【可行性】中偏低。需要带投资者地理标签的交易数据(如某些经纪商或特定市场的 KYC 数据),公开 TAQ 无法区分国籍;识别可保留发布前后设计,但数据获取是主要瓶颈。

3. 流动性视角:SA 研报发布如何改变做市商的报价与逆向选择? 【经济故事】如果发布后散户交易确实更知情,那么做市商应当感知到逆向选择上升,从而在发布后的日内窗口拉宽买卖价差、压缩深度。把本文的「信息含量」翻译成做市商一侧的流动性成本,能给「知情」一个独立的、来自报价端的证据。 【可行性】。TAQ 的报价数据现成,价差/深度的日内事件研究是成熟工具,识别策略可直接复用本文的发布前后对照。这是一个 doable 且自然的延伸。

4. 贡献者的「职业生涯」:写 SA 研报,是不是一条通往专业岗位的阶梯? 【经济故事】作者提到许多贡献者的动机包括「被看见」和「职业机会」。那些发布后引发最知情交易的作者,后来是否真的进入了卖方/买方机构?这能把「研究民主化」与劳动力市场连起来。 【可行性】。需要把 SA 作者名匹配到 LinkedIn/IBES 分析师名册,匹配噪声大;但 Farrell, Jame & Qiu(2020)已在做「非职业分析师技能」的横截面,数据基础是有的。

9 我的判断与参考文献

贡献。 这篇论文最漂亮的地方,不是它发现了「社交媒体有用」——那一点 Chen 等(2014)早就有了——而是它干净利落地跨过了「内容有料 ≠ 散户更聪明」这道鸿沟。审核引致的发布延迟是一把锋利的手术刀,单篇报告固定效应又把混淆压到了最低;再配上「不反转 + 知情残差 + 预测基本面消息 + 与研报情绪正交」这一整套组合拳,「散户在主动挖信息」这个反直觉的结论被钉得很牢。它同时给「研究民主化能拉平信息地形」这一政策叙事,提供了少见的、带因果味道的实证支点。

对识别的担忧。 我仍有两点保留。其一,发布的日内时点是否真的「外生」,终究依赖「编辑何时按下发布键」与「市场状态」无关这一不可直接检验的假设;作者的安慰剂检验缓解了它,但没法彻底证伪一个足够聪明的择时故事。其二,结论建立在聚合散户订单失衡之上,正如作者自己坦言,这是否转化为单个散户更好的交易业绩,是另一个只能用投资者层面数据回答的经验问题(Barrot, Kaniel & Sraer, 2016)——「群体更知情」和「每个人都赚钱」之间,还隔着一层。

后续想看到什么。 我最想看的,是把这套「发布前后」识别搬到信用市场和外资持有人上去(见上文研究提案 1、2);以及从做市商报价一侧给「知情」找一个独立证据(提案 3)。如果这些方向都能给出一致的结论,那么「技术让边缘投资者更知情」就不再只是一个股票市场的局部现象,而是一条更普遍的规律。

参考文献