评级的真正力量，不在「说真话」，而在「让大家信同一句话」

[2006 RFS] Credit Ratings as Coordination Mechanisms

Arnoud W. A. Boot, Todd T. Milbourn, Anjolein Schmeits

Jun He June 01, 2026

信用评级公司金融多重均衡信用市场

Note

本文读的是 Boot, Milbourn & Schmeits (2006, Review of Financial Studies)：信用评级之所以有价值，未必因为它比市场更「懂」一家公司，而是因为它能在一个本可以有好坏两种结局的世界里，替所有人钉死那个「好结局」。评级是一个 焦点 (focal point)——它协调的不是信息，而是信念。

1 一个尴尬的事实

先说一件让评级机构有点下不来台的事。

在金融经济学的主流教科书里，信用评级 (credit rating) 的地位其实相当微妙。Brealey 和 Myers 那本人手一册的《Principles of Corporate Finance》干脆写道：公司和政府「几乎肯定夸大了评级机构的影响力，因为这些机构与其说在引领投资者意见，不如说在追随它」(p. 685)。这话说得很重——它等于在说：评级机构不过是个慢半拍的复读机，市场早就知道的事，它再盖个章而已。

实证文献也不太给面子。一边是大量研究发现「降级」会砸出显著的负向股价反应，另一边是「升级」却几乎激不起水花；评级到底有没有信息含量，吵了几十年也没个定论。于是一个尴尬的局面出现了：评级在实践中明明越来越重要——巴塞尔资本监管要用它、结构化金融的爆发离不开它、养老金的投资指引里白纸黑字写着它——可在理论上，我们却说不清它凭什么重要。

这就是本文要补的那个洞。作者们的出发点很「轴」：在搞清楚评级到底在市场里扮演什么角色之前，那些「评级有没有用」的实证争论，其实是无源之水。 他们想做的，是给评级找一个此前被完全忽略的「存在理由」(raison d'être)。

而他们给出的答案，乍一听有点反直觉：评级的价值，主要不来自它告诉了你什么新信息，而来自它让一群人同时相信同一件事。

2 多重均衡：好公司也会被「想坏」

要理解这个答案，得先看清楚问题长什么样。论文搭了一个极简的模型，但它戳中的痛点非常真实。

设想一家公司要从市场上融 $1 来投项目。它手上有两个选择：一个是稳健的 可行项目 (viable project, VP)，低风险；另一个是 高风险替代项目 (high-risk alternative, HR)。两个项目的净现值都是正的，但稳健项目更好，NPV(VP) > NPV(HR)。从社会角度看，公司当然应该选 VP——模型甚至假设 p_B X_{VP} > q X_{HR} > 1，也就是说，即使信用质量已经恶化，投 VP 仍然是「第一优先」(first-best) 的有效选择。

可问题在于：投资者看不见公司私下到底选了哪个项目。他们能做的，只有根据自己的「猜测」来给贷款定价。

这就埋下了一颗雷。市场是完全竞争的、投资者零期望利润，于是还款额由信念决定：

如果市场猜公司会选稳健项目 VP，要求的还款额是 $F_{VP}(\tilde p)=\dfrac{1}{\tilde p}$；
如果市场猜公司会选高风险项目 HR，要求的还款额是 $F_{HR}=\dfrac{1}{q}$。

这里 $\tilde p$ 是公司的信用质量（VP 成功的概率），$q$ 是 HR 成功的概率，而且 $\tilde p > q$，所以 $F_{HR} > F_{VP}$——猜你坏，就要你还得更多。

接着，一个自然的问题是：公司面对这两种报价，会怎么反应？答案让人脊背发凉。市场的信念会自我实现 (self-fulfilling)。 如果市场认定你要乱来，就给你开一个高利率；而背着这么高的融资成本，稳健项目那点利润根本不够还，于是公司被「逼」到墙角，干脆真的去赌那个高风险项目——市场的恶意预言，成真了。反过来，如果市场相信你稳健，给你低利率，你也就乐得选稳健项目。

于是模型给出了它的第一块基石。

3 模型：三个区域与一道临界线

3.1 信用质量决定命运——但中间那段是「悬空」的

论文用 Theorem 1 把公司的处境切成了三段，全看信用质量 $\tilde p$ 落在哪里：

$$ \text{区域 1：} \quad \tilde p < \underline{p} \;\Rightarrow\; \text{永远选 HR（无论市场怎么想）} $$ $$ \text{区域 2：} \quad \underline{p} \le \tilde p < \bar{p} \;\Rightarrow\; \text{市场猜什么，公司就选什么（多重均衡）} $$ $$ \text{区域 3：} \quad \tilde p \ge \bar{p} \;\Rightarrow\; \text{永远选 VP（无论市场怎么想）} $$

两头都好办：信用太差（区域 1），资产替代 (asset substitution) 的道德风险太严重，公司铁了心要赌，谁也拦不住；信用足够好（区域 3），稳健项目实在太香，公司怎么都不会乱来。

真正的麻烦在中间。 区域 2 里的「中等质量」公司，命运完全悬在市场的一念之间：稳健项目明明既是第一优先、又完全可行，可只要投资者集体往坏处想，公司就会被推向那个谁都不愿看到的坏均衡。这不是公司不行，而是信念协调失败。

论文接下来的全部火力，都集中在这个区域 2。

3.2 关键一步：不需要「所有人」相信，只要「足够多人」相信

但真正关键的一步在于第三节的一个推广。作者问：如果不是所有投资者步调一致，而是只有一部分人相信公司会选稳健项目，会怎样？

设 $\lambda \in [0,1]$ 是「相信公司选 VP」的那部分投资者比例，剩下 $(1-\lambda)$ 的人各自瞎猜、但知道那 $\lambda$ 群人的存在。公司把债权拆成两份卖给两类人，证券完全相同：相信 VP 的人按 $F_{VP}$ 出价，剩下的人按 $F_{HR}$ 出价。于是公司实际背上的总还款额，是一个加权平均：

$$ F^{\lambda} \;=\; \cssId{a1}{\lambda}\,\cssId{a2}{F_{VP}} \;+\; \cssId{a3}{(1-\lambda)}\,\cssId{a4}{F_{HR}} $$

这个式子有一个朴素却致命的性质：$\dfrac{\partial F^{\lambda}}{\partial \lambda} < 0$。相信好结局的人越多，公司的融资成本就越低。

然后逻辑就像多米诺骨牌一样倒下去了。公司会比较两个项目的期望净收益：选 HR 得到 $q\,(X_{HR}-F^{\lambda})$，选 VP 得到 $\tilde p\,(X_{VP}-F^{\lambda})$。当相信 VP 的比例 $\lambda$ 够大、融资成本 $F^{\lambda}$ 够低时，稳健项目就重新变得划算——哪怕剩下那 $(1-\lambda)$ 个人还在唱衰，公司也会选 VP。

这就是 Theorem 2：

对每一个区域 2 里的公司，都存在一个临界比例 $\lambda^{*}=\lambda^{*}(\tilde p)$。只要相信稳健项目的投资者比例 $\lambda > \lambda^{*}$，公司就一定选 VP。而一旦公司必选 VP，剩下那 $(1-\lambda)$ 个人也会理性地回过味来、跟着相信 VP。于是全市场的融资成本统一收敛到 $F_{VP}$。

换句话说：你不需要说服每一个人，你只需要让一群「带头相信」的人多到越过临界线，剩下的人会出于自身利益自动归队。坏均衡，就这样被一小撮坚定的乐观者撬掉了。

紧接着的推论 (Corollary) 给出了最后一块拼图：$\lambda^{*}$ 随信用质量 $\tilde p$ 递减。公司底子越好，需要「带头相信」的人就越少；公司一旦质量下滑，就需要更大比例的人坚定站队，才能拦住它滑向高风险项目。这个比较静态，后面会变成一组很漂亮的实证预测。

4 于是，评级登场了

讲到这里，模型其实还没提一个字的「评级」。但舞台已经搭好了——缺的，正是那个能把一群投资者的信念钉在同一个点上的东西。

这就是评级的角色。作者说，评级是一个 焦点 (focal point)：当一份评级公布，一部分受规则约束的投资者（典型如养老金）会直接照着它行动。这种「照着评级行动」不是因为评级一定更聪明，而是因为制度逼着他们这么做。早在 1936 年，美国的监管就禁止各类金融机构持有投机级债券；1989 年的法案禁止储贷机构投资投资级以下的债券；货币市场基金被《1940 年投资公司法》Rule 2a-7 限制持有低评级债券，最低门槛被定在 A+(A1)；欧洲债券市场甚至要求债券上市前必须先有一个最低评级。

这些「制度刚性」(institutional rigidities) 看似笨拙，却恰恰提供了模型里那群「带头相信」的 $\lambda$ 投资者。一旦有足够多被制度绑定的钱跟着评级走，越过了 $\lambda^{*}$，剩下完全自由的投资者就会理性地跟上。 评级于是成了那根撬动均衡的杠杆——它本身不创造信息，却协调了信念，把市场从可能的坏均衡里拽了出来。作者甚至说，从这个意义上看，评级简直是一份「对抗坏均衡的保险单」。

这是全文的核心，也是它最漂亮的地方：评级的价值，被重新定义成了一种协调价值，而非信息价值。

Tip

这正好回应了开头那个尴尬。如果评级主要是个「协调器」而非「信息源」，那么实证上它的信息含量时有时无、众说纷纭，就一点都不奇怪了——你本来就不该指望从「焦点」里读出多少新信息。本文把一桩看似打脸评级的实证乱象，反过来变成了支持自己理论的证据。

5 被忽略的「信用观察」：一份隐性契约

如果故事到此为止，评级还只是个被动的协调标志。但本文还挖出了第二个、此前几乎被文献完全忽略的制度细节——信用观察 (credit watch) 程序。

评级机构的工作，不只是一次性地公布评级然后撒手。当市场或公司基本面恶化、威胁到评级时，机构会把公司「放上观察名单」，启动一个监督机制。而这，作者论证，本质上是评级机构 (credit rating agency, CRA) 与公司之间的一份隐性契约 (implicit contract)：公司隐性地承诺去做出某种 挽救努力 (recovery effort)，来阻止信用状况进一步下滑；评级机构则给它一段时间去兑现承诺，再决定是否真的调整评级。

模型把这步形式化了：信用质量恶化到 $p_B$ 的公司，可以付出一笔代价高昂的努力 $e$，以概率 $\theta$ 把质量重新拉回 $p_0$。而这份隐性契约之所以激励相容 (incentive compatible)，恰恰要靠前面那个机制兜底——因为机构投资者会把投资决策挂钩在评级上，这给了契约以「牙齿」：公司若不努力、评级被下调，它就会被一大群受制度约束的钱抛弃。监督的「监督」二字，落到了实处。

这一层，让评级从一个静态标签，变成了一个动态的、有奖惩的关系。也正是这一层，催生了本文最值得检验的那批预测。

6 把理论翻译成可证伪的预测

一个好的理论，得敢于说出「能被数据打脸」的话。本文这一节给得相当慷慨。

第一，升降级的不对称。 那个困扰文献已久的现象——股价对降级反应强烈、对升级却近乎无动于衷——在本文里是模型的自然推论，而不是需要额外解释的异象。直觉上，升级往往只是确认了市场已在好均衡里的状态，信息增量小；降级却可能把公司推过临界线、触发坏均衡，杀伤力自然不对称。

第二，也是最锋利的一条：评级的信息含量，主要绑定在信用观察程序上。 作者预言，经过信用观察之后才发生的评级变动，会比没有观察程序时更具信息量。更细的预测是：对那些「挽救努力最可能奏效」的公司，坏消息初次释放时股价只会小跌，随后若在信用观察后获得评级确认，市场只有一个小而正的反应；但同样这批公司，如果在信用观察后被下调，股价反应会又大又负。预测把信用观察程序与评级变动的价格反应，直接焊死在了一起，给出了一组比「评级有没有用」尖锐得多的检验。

第三，关于「谁会被放上观察名单」。 模型预测，一家公司在信用恶化后被放上信用观察的概率，是挽救努力有效性的非单调 (nonmonotonic) 函数，并且还取决于公司的初始信用质量。这种非单调性，本身就是一个很难「事后编」出来的、可供证伪的硬预测。

7 文献脉络

把这篇论文放回它的坐标系里看，会更清楚它「补」的是哪一块。

故事的根，扎在 Stiglitz & Weiss (1981) 的信贷配给上——他们让我们看到，信息不对称下的信贷市场会内生出种种扭曲，资产替代的道德风险也由此而来。但他们是单一债权人视角，天然排除了「多个投资者之间如何协调信念」这件事。本文恰恰把镜头拉到了投资者群体的协调上，于是 Stiglitz-Weiss 式的资产替代问题，第一次长出了「多重均衡」这条新枝。债务契约本身的最优性，则站在 Townsend (1979)、Gale & Hellwig (1985) 的代价高昂状态验证，以及 Diamond (1991) 的监督与声誉之上——后者尤其重要，因为本文的信用观察隐性契约，骨子里就是一种监督关系。

另一条线，是评级的实证传统。Holthausen & Leftwich (1986) 与 Hand, Holthausen & Leftwich (1992) 记录了评级变动的股价反应及其升降级不对称，Kliger & Sarig (2000) 则试图分离评级的信息价值。这些工作积累了大量「现象」，却始终缺一个能把现象串起来的理论骨架——这正是 Cantor (2004) 在《Journal of Banking and Finance》评级专刊社论里点名的遗憾：评级研究几乎全是实证、缺乏理论。

而本文真正的「邻居」，在第三条线上：协调与 廉价磋商 (cheap talk) 的博弈论文献，Spatt & Srivastava (1991) 与 Morris (2001)。它们的洞见是——一个信号之所以有价值，仅仅因为有人选择把它当真。本文把这个抽象洞见，安到了信用市场这个无比具体的制度场景里：评级之所以能当焦点，正因为有一批被制度绑定的投资者「选择把它当真」，从而改变融资成本、进而改变公司行为、最终反过来印证了评级本身。这是一个自洽的闭环，也是这篇论文在脉络中的位置：它给评级提供了一个此前缺失的、博弈论意义上的存在理由。

（关于评级如何「看穿」市场噪声的实证一面，可参见《当价格在说谎：评级机构凭什么「看穿」市场的噪声》；关于「谁付钱」是否扭曲评级的监管争论，可参见《评级注水，错的真是「谁付钱」吗？》；至于评级与股票流动性之间的暗线，则见《评级藏在买卖价差里》。）

8 评论与延伸（Q&A + 研究方向）

(a) 几个可能的疑问

Q：「焦点」和「信息」到底有什么区别？评级公布的那一刻，难道不也是在传递信息吗？

区别在因果方向。信息观说：评级揭示了公司的真实质量，价格因此调整。焦点观说：评级未必含有市场不知道的新信息，它的作用是把分散的信念协调到同一个均衡上。本文的妙处是，焦点价值不依赖评级「更聪明」——只要有一群被制度绑定的投资者照它行动，越过临界比例 $\lambda^{*}$，其余理性投资者就会跟上。评级是在「选均衡」，不是在「报数据」。

Q：那个「带头相信」的 $\lambda$ 投资者，模型是直接假设出来的——这会不会是循环论证？评级有用，是因为我先假设了有人信评级？

这是本文最该被追问的地方，作者也很诚实。$\lambda$ 投资者的存在不是凭空假设，而是被制度刚性外生地撑住的：养老金指引、Rule 2a-7、欧债上市门槛、1936 年以来的监管禁令，都强制一部分钱必须按评级行事。所以本文并非「假设评级有用」，而是「给定这些真实存在的制度约束，评级会内生地获得协调价值」。评级的力量，是制度借给它的。

Q：升级反应弱、降级反应强，难道不能用别的故事解释（比如经理人择时、坏消息更受关注）？

能，这正是识别上的软肋——不对称本身并不能单独把本文挑出来。本文真正的「指纹」式预测，是把不对称绑定到信用观察程序上：经过信用观察的评级变动信息量更大，且对「挽救努力最可能奏效」的公司，确认是小正反应、下调是大负反应。这组带交互项的预测，才是能把焦点理论和竞争性解释分开的地方。

Q：如果评级机构本身有私心（比如向发行人收费而偏袒发行人），这个故事还成立吗？

本文明确把评级机构的道德风险搁置在外，只解决「评级为何存在」这个前置问题。作者引了 Covitz & Harrison (2003)，后者没找到机构偏袒发行人的证据。但这显然是个未了之事：一旦评级机构会撒谎，它作为「焦点」的可信度就会被侵蚀，隐性契约的牙齿也会松动。这是模型外、却极重要的一层。

Q：评级常被批评是「滞后指标」（安然倒闭前四天还是好评级），焦点理论怎么自处？

本文不直接回应滞后批评，但它的信用观察机制其实给了滞后一个良性解释：机构给公司一段时间去落实挽救努力、再决定是否调级，这种「宽限」天然表现为评级的滞后。当然，这是一个善意的诠释——安然式的失败，究竟是「宽限期」还是「失职」，模型本身分不清。

Q：这套机制是不是天然偏向那些「中等质量」的公司？

是的，而且这是特性而非缺陷。区域 1（太差）和区域 3（够好）的公司，信念无关紧要，评级也就无所谓焦点。评级的协调价值恰恰集中在区域 2 那批命悬一线的中等质量公司身上——它们最容易被坏信念推下悬崖，也最能从一个钉死好均衡的焦点中获益。

(b) 几个可能的研究问题与提案

1. 把「信用观察」当成事件来检验焦点理论。

【经济故事】本文最尖锐的预测——经信用观察后的评级变动信息量更大、且对「挽救努力有效」的公司呈现确认小正、下调大负的不对称——至今缺乏干净的直接检验。这是把焦点理论与竞争解释分开的关键。【可行性】高。S&P 的 CreditWatch、Moody's 的 Watchlist 都有明确的放入/移出时点，可与 CRSP 股价、TRACE 债券价格做事件研究。难点是构造「挽救努力有效性」的代理变量（如行业可逆性、资产有形性），并处理放入观察名单的内生选择，需配合非单调性预测做交叉验证。

2. 用外资持有人比例，给「$\lambda$ 投资者」找一个外生变动。

【经济故事】本文的核心可观测含义是：被制度绑定、必须按评级行事的投资者比例 $\lambda$ 越高，评级的协调价值越大、坏均衡越难发生。外资机构往往受本国评级门槛规则约束，其持有比例的变化提供了 $\lambda$ 的天然变异。【可行性】中。可用各国养老金/保险的评级约束强度，结合公司债持有人结构（如 eMAXX、各国托管数据）构造 $\lambda$ 的代理。识别上需要一个冲击 $\lambda$ 而不直接冲击基本面的事件——例如某国放宽/收紧机构持有评级门槛的监管改革，做 DiD。数据可得性是主要瓶颈。

3. 信用观察作为「隐性契约」的违约率检验。

【经济故事】若信用观察真是一份隐性契约，那么被放上观察名单后做出可见挽救努力（去杠杆、出售资产、削减投资）的公司，其后续评级确认概率应显著更高，且违约率更低；反之则被下调。这能直接验证契约的激励相容性。【可行性】高。观察名单时点 + Compustat 的资本结构/投资变量 + 后续评级路径与违约记录均可得。核心是把「挽救努力」操作化为可观测的公司行动，并控制初始信用质量（对应模型里 $\lambda^{*}$ 随 $\tilde p$ 递减的比较静态）。

4. 多重均衡的「自我实现」能否在债券一级市场被直接看到？

【经济故事】模型预言：对中等质量公司，同样的基本面、不同的市场信念会导致截然不同的融资成本与项目选择。如果能找到两家基本面高度相似、却因评级/信念差异而落入不同均衡的公司，就能为多重均衡提供罕见的直接证据。【可行性】中偏低。可借助「分歧评级」(split ratings) 样本——同一发行人被两家机构给出跨投资级/投机级边界的不同评级，近似制造了信念分裂。结合发行利差（本文参考文献中的 split-ratings 文献，如 Billingsley et al. 1985、Cantor, Packer & Cole 1997）可做。难点是把「均衡选择」与单纯的信息差异分开，识别较脆弱。

9 我的判断

先说贡献。这篇论文最大的价值，是把一个我们天天用、却说不清为什么有用的东西，给了一个干净自洽的微观基础。它没有诉诸「评级机构信息更优」这种容易被实证打脸的强假设，而是把评级的力量还原成一种协调价值——只要存在被制度绑定的投资者，评级就能当焦点，钉死好均衡。更难得的是，它顺手挖出了「信用观察」这个被文献忽略的制度细节，并由此长出一组尖锐、可证伪的预测。把开头那桩「实证乱象」反过来变成对自己有利的证据，是理论文章里很高明的一招。

但我对识别有两点不踏实。其一，整个机制的支点是那群「带头相信评级」的 $\lambda$ 投资者，模型靠制度刚性把他们外生地撑住——这在逻辑上成立，可一旦制度约束本身随评级、随周期内生变化（比如监管在危机中放松评级门槛），焦点的「焦」就可能松动，模型是静态的，接不住这种动态。其二，论文把评级机构自身的道德风险整段搁置；可现实里，评级作为焦点的全部可信度，恰恰系于「它不会系统性撒谎」这个被假设掉的前提——2008 年结构化产品的评级崩塌，正是这个前提失效的惨痛注脚。

后续我最想看到的，是有人真的去检验那条「信用观察」预测。它是本文与所有竞争性解释最不同的地方，却也是被引用、被检验得最少的地方。谁能用 CreditWatch 的时点 + TRACE 的债券价格，把「经观察的评级变动信息量更大」「确认小正、下调大负」这组带交互项的不对称干净地估出来，谁就能给这个二十年前的漂亮理论，补上它最缺的那块实证拼图。

参考文献

Boot, A. W. A., Milbourn, T. T., & Schmeits, A. (2006). Credit Ratings as Coordination Mechanisms. Review of Financial Studies 19(1), 81–118.

Brealey, R., & Myers, S. (2003). Principles of Corporate Finance (7th ed.). Irwin McGraw Hill.

Cantor, R. (2004). An Introduction to Recent Research on Credit Ratings. Journal of Banking and Finance 28, 2565–2573.

Covitz, D., & Harrison, P. (2003). Testing Conflicts of Interest at Bond Rating Agencies with Market Anticipation: Evidence that Reputation Incentives Dominate. Working paper, Federal Reserve Board.

Diamond, D. (1991). Monitoring and Reputation: The Choice between Bank Loans and Directly Placed Debt. Journal of Political Economy 99, 689–721.

Gale, D., & Hellwig, M. (1985). Incentive-Compatible Debt Contracts: The One-Period Problem. Review of Economic Studies 52, 647–663.

Hand, J., Holthausen, R., & Leftwich, R. (1992). The Effect of Bond Rating Agency Announcements on Bond and Stock Prices. Journal of Finance 47, 733–752.

Holthausen, R., & Leftwich, R. (1986). The Effect of Bond Rating Changes on Common Stock Prices. Journal of Financial Economics 17, 57–89.

Kliger, D., & Sarig, O. (2000). The Information Value of Bond Ratings. Journal of Finance 55, 2879–2902.

Morris, S. (2001). Political Correctness. Journal of Political Economy 109, 231–265.

Spatt, C., & Srivastava, S. (1991). Preplay Communication, Participation Restrictions, and Efficiency in Initial Public Offerings. Review of Financial Studies 4, 709–726.

Stiglitz, J., & Weiss, A. (1981). Credit Rationing in Markets with Imperfect Information. American Economic Review 71, 393–410.

Townsend, R. (1979). Optimal Contracts and Competitive Markets with Costly State Verification. Journal of Economic Theory 21, 265–293.