长一百万通用、空一百万福特,我还算「长」吗?

[2003 JFE] Do Dealer Firms Manage Inventory on a Stock-by-stock or a Portfolio Basis?
Note

本文读的是 Naik & Yadav (2003, Journal of Financial Economics):理论上,做市商应当按「组合」管理库存——把相关股票的头寸折算成一个「等价库存」来定价交易;但用伦敦交易所的成交审计数据一看,真正驱动报价、成交与执行质量的,却是【一只一只股票各算各的】普通库存。换句话说,做市商在「逐股」管理风险,而不是「全局」管理风险。原因不在金融,而在组织:分散化的做市架构、加上按个人盈亏考核的激励,让相关性这件本该被定价的事,被悄悄忽略了。

1 一个看似无聊、其实很要命的问题

论文开篇就抛出一句话,干净得像一道面试题:

如果我作为一家做市商,在通用汽车(General Motors)上多头持有一百万美元,同时在福特(Ford)上空头持有一百万美元,那么我还算「在通用上多头一百万美元」吗?

任何学过一点投资组合理论的人都会条件反射地回答:当然不算。通用和福特的收益高度正相关,一多一空,组合层面的净风险敞口被对冲掉了一大半。你账面上写着「通用 +100 万」,但你真正扛在身上的风险,远小于这个数字。

这正是问题的全部张力所在。做市商的库存风险,到底应该按「单只股票」算,还是按「整个组合」算?

这听上去像个技术细节,却直接决定了做市商怎么报价、愿不愿意接你这笔单、给你什么样的成交价。而做市商,恰恰几乎从不只做一只股票的市场。论文给的数字很扎眼:大多数 NYSE 专家做市商(specialist)、每一家 NASDAQ「批发商」、以及伦敦交易所(London Stock Exchange,下称 LSE)约四分之三的做市商,都同时在一百只以上的股票里做市;2002 年 1 月,九家 NYSE 专家做市商一共为 2,575 只股票做市。既然手里攥着一整篮子相关的股票,那么按教科书的逻辑,他们管理风险时就【应该】盯住组合层面的总敞口,而不是某一只股票孤立的持仓。

这篇论文要问的,就是:现实里他们真是这么干的吗?

2 三种相互竞争的假说

要回答这个问题,首先得把「应该怎么做」这件事讲清楚。论文把它整理成三个相互竞争、可被数据检验的假说。

第一种,Ho 和 Stoll(1983)的等价库存。 这是把相关性写进做市理论的开山之作。他们证明:做市商在某只股票上的交易行为,不应由这只股票的【普通库存 (ordinary inventory)】决定,而应由它的【等价库存 (equivalent inventory)】决定——所谓等价库存,就是把这只股票的普通库存,再加上其它所有相关股票头寸带来的「强化」或「抵消」效应之后的净值。回到开头那个例子:你在通用上的等价库存,要把福特的空头折算进来,于是它远小于账面的一百万。

第二种,Froot 和 Stein(1998)的不可对冲风险。 他们研究的是一个更现实的金融中介:有些风险能在市场上对冲掉,有些不能。结论是,中介会把所有「可交易、可对冲」的风险(比如用 S&P 500 或 FTSE 100 指数期货对冲掉的市场风险)尽数对冲,于是它对一笔新交易的态度,只取决于这笔头寸里【不可对冲 (unhedgeable)】的那部分,以及组合里其它股票的不可对冲风险与之的相关性。换句话说,相关性依然重要,但要算的是「剔除市场因子之后的残差收益」之间的相关,而不是 Ho-Stoll 那种总收益之间的相关。

接着,一个自然的问题是:这两种理论,有什么共同点?答案是——它们都坚持,相关性应当被定价,逐股孤立地看库存是错的。 区别只在于「按总收益相关」还是「按不可对冲收益相关」来折算。

但真正关键的一步在于第三种假说,论文称之为「分散化做市模型(decentralized market-making model)」。它不是一个金融模型,而是一个组织模型。一家做市商内部,并不是一个全知全能的大脑,而是几十个被分派了不同股票的【个体交易员 (individual dealer)】。每个人各管各的几只股票,各自决定报什么价、接不接这笔单、收多少价差。在这种架构下,有两股力量把交易员往「逐股思维」上推:

于是矛盾出现了:从相关风险里省下来的成本,要和考核被污染带来的代理成本相权衡。分散化做市模型预测:在信息与激励的双重作用下,每个交易员只关心自己名下股票的普通库存,公司整体的交易行为,也就由普通库存、而非等价库存来驱动。

Tip

这三种假说之争,本质上是「金融逻辑」和「组织逻辑」的对撞。金融逻辑说相关性必须被定价;组织逻辑说,一旦你把风险管理切碎了分给一群被单独考核的人,相关性这件事就会在裂缝里漏掉。哪一种主导现实,理论说了不算,只能交给数据。

3 核心方程:等价库存到底怎么算

这篇论文虽然以实证为主,但它的全部检验都建立在一个定义式上——Ho-Stoll 的等价库存。把它讲透,后面的一切才站得住。

设 \(OI^{j}_{i,t}\) 为做市商 \(i\) 在 \(t\) 时刻、在股票 \(j\) 上的普通库存。那么它在股票 \(j\) 上的等价库存为:

$$ EI^{j}_{i,t} = \cssId{a1}{OI^{j}_{i,t}} + \cssId{a2}{\sum_{k\neq j} b_{j,k}\, OI^{k}_{i,t}} $$

这里的权重 \(b_{j,k}\),是把股票 \(k\) 的收益对股票 \(j\) 的收益做回归得到的斜率:

$$ b_{j,k} = \frac{\mathrm{COV}(R_{j}, R_{k})}{\mathrm{VAR}(R_{j})} $$

直觉是这样的:如果 \(k\) 和 \(j\) 正相关(\(b_{j,k}>0\)),那么持有 \(k\) 就相当于「变相」多持了一点 \(j\),所以要把 \(b_{j,k} \cdot OI^{k}\) 加到 \(j\) 的库存上去;如果两者负相关,这一项就是负的,相当于一部分 \(j\) 的头寸被抵消了。把所有 \(k\neq j\) 的股票都这样折算、再加总,就得到了 \(j\) 的「等价库存」——这才是 Ho-Stoll 眼中做市商真正扛在身上的、关于股票 \(j\) 的风险。Ho-Stoll 在两只股票的情形下证明了他们的命题 1,并指出推广到多只股票时,「为评估在股票 \(i\) 上一笔交易的影响,所有与 \(i\) 相关的股票 \(j\) 都用 \(b_{ji}=s_{ji}/s_i^{2}\) 作为权重加总进来」——也就是上面这个式子。

论文进一步把等价库存算了【四个版本】,差别只在两处:\(b_{j,k}\) 用总收益算还是用剔除市场因子后的「异常收益」算;以及求和范围是整个公司层面、还是只在同一行业台(industry desk)内部。

如此一来,三种理论就被翻译成了三套可以直接放进回归里的库存序列:普通库存 \(OI\)、总等价库存 \(TEI\)、不可对冲等价库存 \(UEI\)。剩下的,就是让数据来裁决。

4 数据:一份能「跨股票认人」的审计底稿

这篇论文能做成,靠的是一份别人没有的数据。

样本期是 1994 年 8 月 1 日到 10 月 31 日,共 65 个交易日。LSE 在当时(和 NASDAQ 类似)是一个【竞争性报价市场 (competing dealer market)】:做市商的买卖报价显示在屏幕上,但公众的成交往往通过电话双边谈判达成,可以获得价格改善。数据是 LSE 全部股票的逐笔报价与成交,带时间戳,并标明了每笔交易里是哪个做市商、是买还是卖、是作为代理还是自营。

这份数据真正的「独门」之处,论文说得很清楚:以往大多数研究(如 Hansch et al., 1998;Reiss & Werner, 1998)用的数据里,同一家做市商在不同股票上的代码是变化的,于是你根本没法把它在不同股票上的头寸拼起来,做不了任何「组合层面」的推断。而这份数据,给同一家做市商在所有股票上分配了【同一个代码】。正是这一点,让作者得以重建每家做市商在单只股票上、以及跨股票汇总后的库存——这恰恰是检验「逐股还是组合」这个问题的前提。

为了计算量与展示的方便,作者从大、中盘股里随机抽了 20 只(10 只 FTSE-100、10 只 FTSE-250)。库存序列按 Hansch et al.(1998)的办法做了标准化——因为不同做市商资本与风险厌恶不同,库存的绝对值不可比。权重 \(b_{j,k}\) 则用样本期前五年的 60 个月度收益估出来,\(j\) 跑遍 20 只样本股,\(k\) 跑遍其余 1,853 只。

表 1 给出了这 20 只股票的描述性统计,按换手率降序排列。样本股的日均总换手从 £30.1m£0.4m 不等,均值约 £6m;日均公众换手从 £16.3m£0.3m,均值 £3.7m;日均公众成交笔数从 172 到 4,均值 42 笔;公众与做市商间成交的平均规模分别约为 £112,000£210,000。每只股票平均约有 10 家做市商。

Table 1: reports descriptive statistics relating to the 20 sample stocks listed in

Table 1: reports descriptive statistics relating to the 20 sample stocks listed in

这里有两个数字,对全文的逻辑特别重要。

第一,相关性确实很强。 全公司层面、按总收益算的 \(b_{j,k}\),在 20 只样本股上从 0.150.86;按不可对冲收益算的,从 0.140.89。即便缩到行业台内部,\(b_{j,k}\) 也有 0.050.44(总风险)和 0.030.43(不可对冲风险),每个行业内的股票数从 6 只到 39 只、均值 14 只。

第二,系统性依赖普遍存在。 表 1 报告的市场模型 \(R^2\) 平均 37%,从 4%63%,20 只股票里有 16 只的 \(R^2\) 超过 30%。也就是说,对绝大多数样本股,库存之间本就【有理由】互相影响做市商的行为。换句话说,如果做市商真按组合管库存,这个样本里应该看得很清楚。这就把举证责任压到了实证结果身上:相关性这么强,等价库存却如果还是「不管用」,那才真说明问题。

5 四个检验,四次同样的答案

论文从四个角度检验了做市商的行为,每一个角度都在问同一句话:到底是普通库存说了算,还是等价库存说了算?而四次得到的,是同一个答案。

其一,库存的均值回复 (mean reversion)。 如果做市商在主动管理某种库存,那种库存就应当表现出更强的向均值回复的倾向(接了单偏离目标,就会想方设法把它拉回来)。结果是:普通库存的均值回复,比两种等价库存中的任何一种都更强。 做市商在「往回拉」的,是逐股的普通持仓,不是组合折算后的等价持仓。

其二,报价摆放策略 (quote placement)。 做市商调高调低自家报价,是为了诱导订单流来削减库存。那么报价的变动,是跟着哪种库存的变动走?答案是:报价变动显著地与普通库存的变动相关,而与两种等价库存都不相关。

其三,谁来成交。 在公众成交和做市商间成交里,是哪家公司挺身接单?理论上,等价库存最「长」(最「短」)的那家应当去卖(去买)。但数据显示:是普通库存出现分歧的公司,而非等价库存出现分歧的公司,在执行公众交易、在做市商之间相互交易。

其四,执行质量 (quality of execution)。 这是本文的一个原创贡献——首次把库存和「成交质量」联系起来。一家库存压力大、急着调头寸的做市商,应当愿意给出更好的价格来吸引能帮它减仓的那个方向的订单。结果再次一致:是普通库存出现分歧的公司,而非等价库存出现分歧的公司,提供了显著更好的执行质量。

于是反转出现了——准确地说,是「理论预言的那个反转,并没有发生」。相关性明明很强(\(b\) 高达 0.8 以上、\(R^2\) 平均 37%),等价库存按理应该主导,可四个维度异口同声:真正驱动做市商行为的,是一只一只各算各账的普通库存。 Ho-Stoll 与 Froot-Stein 所强调的相关风险敞口,在真实的交易行为里,并没有被充分定价。

把四块证据拼到一起,结论就只剩一个解释能站住:分散化做市模型。做市不是一个统一大脑在算组合,而是一群被单独考核的人在各管各的摊子。

Warning

注意这里的「负面结果」恰恰是最有信息量的。在一个相关性极强、按教科书最该看到组合效应的样本里,作者反复地、用四种不同方法,都没有找到等价库存主导的证据。这不是「没测出来」,而是「在最该测出来的地方都没有」——证据的分量正来自于此。

6 为什么这事远不止于做市商

如果故事到此为止,它只是一篇漂亮的市场微观结构论文。但作者用一段话,把它推向了更大的版图。

他们虽然研究的是伦敦的股票做市商,但结论对 NYSE 的专家做市商直接适用:2002 年 1 月,九家专家公司为 2,575 只股票做市,每家管 74 到 591 只不等,背后是约 500 名个体专家,每人通常只做四到十只。比如 Wagner Stott Bear Specialist 一家做 347 只股票、雇 86 名专家。本文的含义是:每个个体专家,只会盯着自己那几只股票的库存,而不会去管同公司其他专家手里那些可能相关的股票。

更进一步,这其实是一切「分散化决策」组织的通病。 跨国公司的财务教科书都建议:企业应当关注外汇敞口的【组合】,而不是一种货币一种货币地看。但本文的逻辑提示我们:被按「一两个国家的业绩」考核的经理人,有动机忽略公司内其他经理的抵消性敞口,于是把汇率风险也按「逐币种」来管。资本预算也一样——如果分部经理的薪酬绑在本分部的业绩上,他考虑的就是项目对【本分部】的总风险,而不是项目对【全公司】风险的边际贡献。

作者还特意把自己和 Vayanos(2003)区分开来:在 Vayanos 的模型里,分散化的代价来自信息聚合过程中的损耗;而在本文的做市商这里,代价主要来自「业绩考核被污染」。同样是「分散化有成本」,机制并不相同。

(关于「同一个大脑该不该统一管理多只相关股票的库存」,可以对照看一篇做市理论的近作《做市商的「一本账」:当一只股票的冲击,悄悄改写了另一只的报价》——那篇正是从理论上推演「一个统一的多资产做市商」会如何让一只股票的冲击外溢到另一只的报价上,恰好是本文用数据反驳的那个「理想做市商」形象。)

7 文献脉络

把这条线索捋直,故事是这样演进的。

最早,做市商的库存模型把每只股票当成孤岛:Amihud 和 Mendelson(1980)的经典做市模型里,做市商根据单一资产的库存来调整买卖报价。真正把「相关性」引入做市理论的,是 Ho 和 Stoll(1983)——他们告诉我们,孤立地看一只股票的库存是错的,应该看把相关头寸折算进来的等价库存。

接着,实证学界开始大量检验「做市商到底管不管库存」。Hasbrouck 和 Sofianos(1993)、Madhavan 和 Smidt(1993)、Madhavan 和 Sofianos(1998)盯住 NYSE 专家做市商的库存;Lyons(1995)研究单个外汇做市商,Mann 和 Manaster(1996)研究芝加哥期货市场的「剥头皮」交易员;在伦敦,Hansch、Naik 和 Viswanathan(1998)、Reiss 和 Werner(1998)检验了个体做市商的库存控制。这些研究几乎一致地确认:做市商确实在主动管理单只资产的库存。

文献脉络时间线
文献脉络时间线(按发表年份排布;红色为本文)

然后,Froot 和 Stein(1998)从风险管理的角度切入,把「可对冲 vs 不可对冲」的区分带进来,给「该按什么相关性折算」提供了第二个版本的答案。

但这一整条线索里,始终缺了一块拼图:所有这些实证研究用的数据,都【没法跨股票认出同一家做市商】,于是没人能真正检验「逐股还是组合」。Naik 和 Yadav(2003)——也就是本文——正是踩在这块空白上:他们拿到一份能跨股票追踪同一做市商的 LSE 审计数据,第一次把三种假说放在同一张桌子上对决,并给出了一个略带反讽的答案——理论上最该被定价的相关性,在分散化的组织里被悄悄忽略了。

(顺带一提,这份 LSE 数据后来被反复使用,比如《为什么大单反而能拿到折扣?——把伦敦交易所的「关系」算成一笔账》;而「做市商不靠改价管库存」这件事,在外汇市场也有呼应,见《全世界最大的市场,做市商却从不靠「改价」管库存》。)

8 评论与延伸(Q&A + 研究方向)

(a) 几个可能的疑问

Q:这和「做市商不管库存」是一回事吗?

不是,恰恰相反。本文确认了做市商【非常】积极地管理库存——只不过管的是逐股的普通库存。前一代文献(Hasbrouck-Sofianos 等)问的是「管不管」,本文问的是「按什么口径管」。结论是:管,但按股票一只只地管,不按组合管。

Q:等价库存「不显著」,会不会只是因为它根本没什么相关性可折算?

这正是作者花大力气堵上的漏洞。表 1 显示相关性其实很强:全公司口径的 \(b_{j,k}\) 高达 0.86–0.89,市场模型 \(R^2\) 平均 37%、16/20 只超过 30%。在一个相关性如此之强、最该出现组合效应的样本里仍然测不到等价库存主导,才使「普通库存主导」这个结论格外有说服力。

Q:为什么 Ho-Stoll 和 Froot-Stein 这两个版本【都】输了?

因为它们共享同一个致命前提——相关性应当被定价、库存应当在公司层面汇总。本文的发现是组织层面的:风险管理被切碎分给了一群按个人盈亏考核的交易员,于是无论你用总收益相关(Ho-Stoll)还是不可对冲收益相关(Froot-Stein)来折算,那个「跨人汇总」的动作在现实里根本没发生。输的不是某个具体的相关性定义,而是「集中化」这个共同假设。

Q:那理论模型岂不是被证伪了?

更准确的说法是「被加了一道边界条件」。Ho-Stoll 和 Froot-Stein 在「单一决策者」假设下都没错;本文指出,一旦把组织结构(信息摩擦 + 激励考核)放进来,这些模型的预测就不再成立。它不是推翻理论,而是揭示了理论的适用前提——这反而对建模者很有用。

Q:只有 20 只股票、65 个交易日,样本会不会太小?

这是合理的担心。但本文的检验是逐笔成交层面的(日均公众成交 4–172 笔、样本均值 42 笔),单位是「交易」而非「股票」,有效观测量远大于 20。更关键的是,结论是【四个相互独立的检验】(均值回复、报价、谁成交、执行质量)共同指向同一方向——任何一个偶然都不容易让四个一起偏。作者也提到做了大量稳健性检验(第 5 节)。

Q:把结论推广到跨国公司外汇管理、资本预算,是不是跨得太远?

这部分是「类比」而非「证据」,作者也说得比较克制。其底层机制——分部经理被按本分部业绩考核,于是忽略全公司层面的抵消敞口——确实和做市商完全同构,逻辑上站得住。但「逻辑同构」不等于「实证已证」,把它当作有待检验的猜想更稳妥。

(b) 几个可能的研究问题与提案

1. 把同样的检验搬到公司债做市商身上。 【经济故事】公司债是逐笔、场外、由交易员分券种做市的典型市场,且同一发行人的不同债券、同评级同行业的债券之间相关性极高——比股票更甚。如果连股票市场都「逐股管库存」,债券市场会不会更彻底?这直接关系到信用市场的流动性如何在相关券种间传染。 【可行性】中。TRACE 加上交易商身份(regulatory TRACE 或 FINRA 内部数据)可以重建交易商在多只债券上的库存;识别上可沿用本文的四类检验。难点在于拿到能跨券种认人的数据,以及债券交易稀疏带来的库存估计噪声。

2. 外资做市商 vs 本地做市商,谁更「组合化」? 【经济故事】跨国投行往往有全球风险台(global risk desk),本地券商则更碎片化。如果「组织集中度」决定了相关性能否被定价,那么风险管理更集中的外资做市商,理应比本地做市商更接近等价库存的预测。这能把「组织结构 → 定价行为」这条因果链做得更干净。 【可行性】中。需要带做市商类型标签、且能跨股票认人的交易数据(某些新兴市场或欧洲交易所有此类监管数据)。识别可用做市商内部重组(设立/撤销集中风险台)作为事件冲击。

3. 用一次「考核制度改革」做自然实验。 【经济故事】本文的核心机制是「按个人盈亏考核 → 污染顾虑 → 逐股管库存」。如果某家做市商把考核从「个人逐股盈亏」改成「交易台组合盈亏」,那么改革后它的行为应当向等价库存的预测移动。这能把本文的相关性证据升级为因果证据。 【可行性】低到中。最大障碍是找到这样一次清晰的、外生的薪酬/考核制度变更,并拿到改革前后的逐笔库存数据。一旦找到,识别会非常漂亮(DiD:改革台 vs 未改革台)。

4. 执行质量与库存口径的横截面定价含义。 【经济故事】本文发现普通库存分歧大的做市商给出更好的执行。那么投资者若能观察到做市商的库存状态,理论上可以「挑」做市商成交、系统性地省下交易成本。这把一个组织事实,连到了可交易的执行策略上。 【可行性】中。需要带做市商身份的逐笔成交 + 重建的库存序列;可检验「向库存压力大的做市商挂单」是否真能获得更优价格,以及这种机会是否随市场透明度而消失。

9 参考文献

我的判断。 这篇论文的贡献,不在于又测了一遍「做市商管不管库存」,而在于它把市场微观结构和组织经济学缝在了一起:它用一份罕见的、能跨股票认人的数据,证明了一个反直觉的事实——相关风险这件最该被定价的事,恰恰因为公司内部的分散化和激励考核而被系统性忽略。负面结果之所以可信,是因为它出现在一个相关性极强、最该出现组合效应的样本里,且由四个独立检验共同支撑。

对识别,我有两点保留。其一,20 只股票、三个月的样本,毕竟偏薄;虽然检验落在逐笔成交层面、有效样本不小,但跨市场、跨年代的外部有效性仍待验证。其二,本文的证据是相关性而非因果——它说明「行为符合分散化模型」,但没有一次外生冲击能直接证明「正是考核制度导致了逐股行为」。把薪酬/组织结构的变更当作处理,做一次干净的 DiD,是我最想看到的下一步。再往前,这个框架最有价值的延伸,恐怕是公司债与信用市场:那里券种相关性更高、做市更碎片化,「逐券还是组合」的答案,可能直接写在信用市场的流动性传染里。