数据卖一次，就稀释一次：当垄断者的对手，是明天的自己

[2025 JFE] Data Sales and Data Dilution

Jun He June 01, 2026

数据经济市场势力动态博弈信息经济学

Note

本文读的是 Liu, Ma & Veldkamp (2025, JFE)：一个数据集只此一家、复制成本几乎为零的「数据垄断者」，看起来该是天底下最赚钱的生意；可论文用一个动态模型证明，正因为卖家无法承诺以后不再卖，它其实在和「明天的自己」打价格战，市场势力被自己稀释得所剩无几。真正能把势力捞回来的，不是涨价，而是订阅——于是「卖断还是订阅」这件看似琐碎的合约选择，反而成了衡量数据市场势力的那把尺子。

1 一个反直觉的开场

先想一个问题。假如你手里攥着一份独一无二的数据集——别人没有，你也不愁复制成本（多卖一份的边际成本几乎是零）——你是不是一个标准的、可以为所欲为的垄断者？

直觉会斩钉截铁地说：是。经济学家和监管者也是这么担心的。数字经济里最让人焦虑的一件事，就是「数据天然是自然垄断」：固定成本巨大、复制免费，于是赢家通吃，垄断租金滚滚而来。欧盟那份《非个人数据自由流动条例》（Regulation EU 2018/1807）里，白纸黑字写着要防范数据市场里的「竞争扭曲」。

但这里藏着一个测量上的尴尬。传统上我们用加成率 (markup)——价格高出边际成本多少——来度量市场势力。可数据产品的边际成本是零，加成率是无穷大。按这把尺子，每一个数据卖家都是「无穷垄断」。这显然荒唐。所以问题不是「数据卖家有没有市场势力」，而是：在一个边际成本为零、人人都对自己那份数据握有垄断的市场里，我们到底该去找什么，才能看出谁真有定价权？

这正是 Liu, Ma & Veldkamp 这篇论文要回答的。他们的答案分两步走：先用一个理论模型告诉你「该去看什么指标」，再手工爬下一个真实的数据交易市场，去看那个指标。

2 故事的核心：你在和明天的自己竞争

接着，一个自然的问题是：垄断者为什么会管不住自己的市场势力？

论文的模型里有两个关键设定，缺一不可。

第一，信息是战略替代品 (strategic substitutability)。 这个想法老得很，可以一路追到 Grossman and Stiglitz (1980)：别人也知道的信息，对你就不值钱了。在这篇论文里，它被压成一个极简的产品市场——两家厂商生产同一种商品、做 Bertrand 价格竞争，谁手上有数据，谁的边际成本就更低，就能在对手身上赚到钱；可一旦两家都买了同一份数据，成本又拉平了，利润重新归零。于是每个买家对数据的支付意愿，都随着「还有多少别人也拿到了这份数据」而下降。

第二，卖家无法承诺 (limited commitment)。 这是全文的命门。卖家今天可以拍着胸脯说「我只卖给你一家」，但明天呢？把数据换个名字、做几个变量的线性组合、甚至掺一点点噪声，信息含量几乎不变，可你很难用合约去证明「这是同一份数据」并阻止它再被卖出去。所以卖家做不到承诺「以后不再卖」。

然后，把这两点合在一起，魔法（或者说诅咒）就出现了：一个理性的买家，今天在估算「这份数据值多少钱」时，会预期到卖家明天、后天还会继续往外卖，把数据稀释掉。预期到了，他今天的支付意愿就先打了折。卖家不是在和别的卖家竞争，它是在和明天的自己竞争。 这就是经典的 Coase (1972) 耐用品猜想在数据上的翻版——一个不能承诺不降价的耐用品垄断者，会被迫和未来的自己打价格战，当买家足够有耐心时，它甚至一分租金都赚不到（Fudenberg and Tirole, 1991, 第 10 章）。

但真正关键的一步在于：论文给这个老问题加了三样新东西。其一，把数据接到「半耐用品」上——信息会随世界状态变化而折旧，旧信息越来越不值钱；其二，引入买家之间的战略替代——卖家不只是在和自己更低的未来价格竞争，它还因为「管不住自己卖给别人」而受损；其三，把这股力量在真实的数据市场里量出来。

（关于「先把东西卖给一个中间商、用承诺去修好一个崩坏的市场」这条线，可参见《承诺去交易：为什么「先卖给中间商」反而能治好柠檬市场》；而「把信息卖给你的对手会发生什么」，则与《把信息卖给你的对手：证券借贷里那场无声的博弈》是同一种张力。）

3 模型：把「稀释」一步步推出来

这是一篇模型论文，核心的张力全在推导里，值得一步步走一遍。

消费者与厂商。 时间离散，$t=-1,0,1,2,\dots$。代表性消费者对一个连续统的商品有偏好：

$$ U=\sum_{t=0}^{\infty}\beta^{t}u_t,\qquad u_t=\int_0^1\Big(\frac{\sigma}{\sigma-1}\,q_{it}^{\frac{\sigma-1}{\sigma}}-p_{it}q_{it}\Big)\,di, $$

其中 $\sigma>1$ 是商品间的替代弹性。对每种商品都有两家厂商被随机配对、做 Bertrand 竞争。没有数据的厂商边际成本 $c=1$；买了数据的厂商能把成本降到 $c=1/z$，这里 $z>1$ 是数据质量。

对效用关于 $q_i$ 求一阶条件，得到需求曲线 $q_i=p_i^{-\sigma}$。当一家有数据、对手没有时，有数据的厂商收取价格 $p_d=\dfrac{\sigma}{(\sigma-1)z}$，对自己的成本 $1/z$ 形成 $\dfrac{\sigma}{\sigma-1}$ 的加成。

一份数据，一期值多少。 关键在于「战略替代」：只有在「我有、对手没有」这一种配型里厂商才赚钱；两家都有或都没有时，对称竞争把利润磨成零。设 $n$ 是这期里拥有数据的厂商测度（总测度为 2），那么一份数据的一期期望价值是

$$ \pi(n;z)=\frac{1}{\sigma}\Big(\frac{z(\sigma-1)}{\sigma}\Big)^{\sigma-1}\Big(1-\frac{n}{2}\Big).\tag{2} $$

注意那个 $\big(1-\tfrac{n}{2}\big)$ 项——拿到数据的人越多，每个人手里这份数据就越不值钱。这就是「稀释」的数学形态。

为了简化，定义经过单调变换的数据质量 $x\equiv\big(\tfrac{z(\sigma-1)}{\sigma}\big)^{\sigma-1}$，再令 $a\equiv 1/\sigma$、$b=a/2$，则每期利润可以写得干净利落：

$$ \pi(n;x)=x\,(a-bn).\tag{3} $$

它关于 $x$（质量）递增、关于 $n$（卖出的份数）递减——后者正是市场势力被稀释的引擎。

承诺解：一条数据版的拉弗曲线。 先看一个理想情形：卖家在选定质量后，能承诺每期只卖 $n$ 份。那它在每期解 $\max_n\; n\cdot\pi(n;x)$，即「每份的支付意愿 $\times$ 份数」。一阶条件 $x(a-2bn)=0$ 给出

$$ n^{*}=\frac{a}{2b}=1. $$

这条曲线很有意思：卖 $0$ 份没收入；卖到 $n=a/b=2$ 份时，每份的价值被稀释到零，总收入又是零；峰值恰好落在正中间 $n=1$。这和公共财政里那条「税率—税收」的拉弗曲线一模一样——卖太少赚不到，卖太多把价格压垮。承诺下，卖家的事前价值是

$$ V=\max_{x,n}\;\frac{n\cdot\pi(n;x)}{1-\max(\beta,\gamma)}-F(x),\tag{4} $$

其中 $F(x)=\tfrac{1}{2}(x-1)^2$ 是一次性的质量投资成本，$\gamma$ 是卖家的折现率。

Figure 1: Equilibrium choice of 𝑛 that maximizes profit under commitment

无承诺解：稀释如何吃掉势力。 现在把「承诺」这根拐杖抽走。卖家在每期重新优化，状态是「已卖出的累计份数 $n$」和质量 $x$。买家不是傻子——他今天愿意付的钱，等于他对未来整条销售路径的理性预期下、这份数据带给他的折现利润之和：

$$ \text{WTP}_t = \sum_{\tau=t}^{\infty} \cssId{a1}{\beta^{\tau-t}}\, \mathbb{E}_t\big[\cssId{a2}{\pi}(\cssId{a3}{n_\tau};x)\big] $$

这条式子把全文的张力浓缩成一行：卖家想多卖（眼前收入高），但每多卖一份，都会通过 $\pi(n_\tau;x)$ 这一项压低所有人今天的支付意愿。卖家无法承诺停手，买家也料到他不会停手，于是均衡里价格被一路压低——和耐用品垄断者被迫和未来的自己价格战，是同一个 Coase 逻辑。结果是：即便握有「独此一家」的极端垄断，卖家也榨不出多少租金。所以论文的政策结论相当反直觉——对数据市场的反垄断，应当更克制；该担心的不是数据被高价垄断，而是数据被供给不足。

Figure 2: Equilibrium paths of data sales, prices and profit, without commitment

4 反转：订阅，把势力捞回来

到这里故事还差最后一块。如果无承诺让卖家这么憋屈，现实里的数据商怎么活？

于是反转出现了：把「卖断」换成「订阅 (subscription)」。卖断是一锤子买卖，买家拿到永久使用权，卖家事后再卖只会稀释存量买家手里的价值——这正是承诺问题的温床。订阅则不同：买家每期付费、按期取用数据，卖家事先花一笔固定成本 $\eta$ 搭好订阅的基础设施。订阅把「使用权」做成了会过期的东西，等于变相恢复了对未来供给的控制——它修好了承诺问题，让卖家把因为无法承诺而丢掉的收入，重新捞回一大块。

那既然订阅这么好，为什么还有人卖断？模型干净地给出三个理由，让订阅变得不划算：

财务约束 (financial constraints)。 卖断能在企业生命周期早期一次性带来大量现金。一个等钱用的卖家，会为了眼前的流动性而牺牲长期的租金。
市场太小。 当潜在买家本就寥寥，未来「再卖出去稀释」的空间也小，承诺问题不严重，那卖断的损失就有限——小众、专门的数据，一锤子卖掉也无妨。
数据折旧快。 信息掉价越快，「以后还能再卖」这件事本就不值钱，订阅的优势随之缩水。

这就把一个抽象的承诺模型，翻译成了一组可观测、可检验的预测：订阅 ⟺ 强市场势力；卖断则更可能出现在「财务受约束、市场小、折旧快」的卖家身上。

5 数据与证据：去 Datarade 上数份额

理论说「去看卖断 vs. 订阅的占比和模式」，论文就真的去看了。

他们手工爬下了 Datarade——最大的在线数据交易市场之一——上 3,000+ 个数据产品，再把这些卖家匹配到公司层面的特征：用 Crunchbase、PitchBook、Compustat、CRSP 拿背景与融资历史，用 EDGAR 的 10-K 文本加上 Datarade 上的产品描述，去刻画它们所在市场的样子。

最扎眼的描述性事实是：64% 的数据产品提供「一次性付费买断」的选项，但超过 80% 提供订阅式付费（两者加起来超过 100%，因为很多卖家同时给好几种购买方式）。换句话说，至少一半的数据商，都具备相当强的攫取租金的能力——这与「数据垄断者其实势力孱弱」的悲观直觉，恰好形成张力：订阅的普遍存在，说明市场势力并没有被承诺问题彻底吃光。

Figure 4: Word cloud of product descriptions on Datarade

接着是把模型预测一条条对上去：

生命周期。 卖家选择卖断还是订阅，与它的年龄、拿过的 VC 轮数、累计融资额显著相关。越老、越不差钱的卖家，越倾向用订阅去攫取剩余——这正对应「财务约束 → 卖断」那条预测。
市场规模。 他们用一个巧办法度量「这份数据的市场有多大」：把数据描述的文本与全体 10-K 报告做相似度匹配，找出最相关的行业，再数有多少个相关行业。结果是——市场规模越大，越倾向订阅；越小，越倾向卖断，与模型一致。

Warning

这里要诚实：本文截断的正文只给到描述性比例（64%、80%、3,000+）和这些相关关系的方向，具体回归系数与 t 值在被截断的表格里，我没有把握逐一引用，因此不在这里编造数字。读者若要复现，应回到原文的 Table 1–6。

6 福利：订阅不只是卖家的胜利

最后一层，论文问了一个更大的问题：订阅对谁更好？

很容易以为「订阅 = 卖家把消费者的剩余多榨走一点 = 对社会更坏」。但模型给出的答案恰恰相反：订阅对消费者更好。原因在于——如果数据卖家赚不到任何垄断租金，它当初就没有动力去做一份高质量的数据（回想 $F(x)$ 那笔事前投资）。租金不是凭空的恶，它是「把好数据生产出来」的激励来源。订阅维持了这份激励，于是消费者最终拿到的是更高质量的数据。这也把论文推向一个更尖锐的政策判断：「市场势力本身就该被消灭」这个念头，是可疑的；垄断租金的存在，并不必然意味着对消费者不利的结局。

Figure 5: Do data sales or data subscriptions maximize welfare?

（关于「数据让定价更准，到底是谁的福利变好、谁的钱包变薄」，可对照《数据让定价更准，谁的钱包先变薄？——把「信息」翻译成福利的一道算术》，那是信用市场里同一类福利权衡的另一个版本。）

7 文献脉络

把这篇论文放回它的谱系里，会看得更清楚。

最上游是 Coase (1972) 的耐用品猜想：一个不能承诺不降价的垄断者，被迫和未来的自己竞争——这套动态承诺的逻辑后来被 Fudenberg and Tirole (1991) 写进了教科书。另一条上游是 Grossman and Stiglitz (1980)：信息是战略替代品，别人知道的信息对你就贬值；Hellwig et al. (2012) 进一步证明，在「行动是战略替代」的绝大多数环境里，信息也必然是战略替代。

接着是「信息销售」这条静态文献：Admati and Pfleiderer (1986, 1990) 问卖家该不该个性化数据、该不该卖成一项服务，Bergemann and Morris (2013)、Bergemann et al. (2018)、Yang (2022) 研究信息共享与「数据菜单」的最优设计——但它们大多是静态的，错过了本文最核心的那股动态张力。再往近看是「数据经济」这条更偏宏观/产业的文献：Jones and Tonetti (2020)、Cong et al. (2021)、Farboodi and Veldkamp (2022) 建起了数据经济的模型，但不含数据市场里的市场势力；Acemoglu et al. (2021) 与 Kirpalani and Philippon (2020) 触及效率与势力，却没人处理「卖家自己的动态承诺问题」。

本文恰好坐在这三条线的交汇点：把 Coase 的动态承诺、Grossman–Stiglitz 的战略替代，和数据经济的产业关切焊在一起，并第一次把这股「自我稀释」的力量在真实市场里量了出来。它与「债务稀释/信息泄露」（Brunnermeier and Oehmke, 2013；Green and Liu, 2021；DeMarzo and He, 2021）形似而神不同：数据可近零成本复制、会折旧、还能做成订阅——这三点是债务没有的。

8 评论与延伸（Q&A + 研究方向）

(a) 几个可能的疑问

Q：加成率为什么就不能用来衡量数据市场的势力？

因为数据多卖一份的边际成本几乎是零，价格除以边际成本是无穷大，于是每个数据卖家的加成率都是无穷——这把尺子把所有人都标成「极端垄断」，毫无区分度。论文的贡献正是：与其量加成率，不如去看合约形态（卖断 vs. 订阅），因为是「能否承诺」而非「价格高低」决定了真实势力。

Q：「无法承诺」凭什么是单边的？买家也可能违约转卖啊。

论文坦承这是个张力，并给了一个集体行动的解释：一个卖家面对许多买家。若某买家违约转卖，卖家有强烈动机去起诉；可若是卖家违约多卖，每个买家都更想「搭便车」等别人去告——合约执行成本不对称，于是承诺事实上是单边的。这是假设，不是定理，算本文一个可质疑的软肋。

Q：数据明明会过时，怎么能算「耐用品」？

论文在第 1.7 节专门讨论了折旧。关键在于：即便数据会折旧，「动态互补」——我现在想学、而别人以后才学的数据——仍然让数据的价值随时间下降。折旧改变的是稀释的速度，不改变稀释这件事的存在；而且折旧快本身就是「偏好卖断」的预测之一。

Q：如果数据是战略互补而非替代呢（比如投机性攻击、抢跑）？

论文明确承认这种情形存在：在投机攻击、价格设定这类场景里，越多人拿到数据、数据反而越值钱。那时卖家「无法承诺」的代价就小得多——因为多卖几份不再稀释、反而增值。所以本文的结论是有条件的，它刻画的是「替代占主导」的那一大类数据市场。

Q：订阅对消费者更好，这个结论稳健吗？会不会只是卖家多赚钱的话术？

机制是实打实的：没有租金就没有事前投资 $F(x)$ 去生产高质量数据。订阅通过修复承诺、保住租金，从而保住了「做好数据」的激励，消费者最终拿到更高质量的数据。这与「订阅 = 多榨消费者」的直觉相反，也是论文最值得玩味的福利反转。但它依赖模型里「质量靠一次性投资内生决定」的设定，换一个质量生成过程，结论强度可能变。

Q：实证能不能反过来——是不是「成熟大公司」本来就爱订阅，跟承诺无关？

这是识别上最该担心的内生性。年龄、融资轮数、市场规模都可能通过别的渠道同时影响合约选择，本文给的是相关关系而非因果。要把「承诺机制」从「公司成熟度的混杂」里干净地剥出来，需要外生冲击（见下方研究方向），目前这一步还没有走到。

(b) 几个可能的研究问题与提案

1. 金融数据供应商的合约形态，能否预测其在信用市场里的定价权？

【经济故事】Bloomberg、ICE、Markit 这类卖给债券投资者的数据商，几乎清一色用订阅。按本文逻辑，订阅是强势力的信号。那么「订阅依赖度高」的数据投入，是否对应着更高的数据费用加成、以及下游债券投资者更被动的议价地位？【可行性】中。终端/数据费用数据零散，但可从基金费用披露、券商支出与供应商财报间接拼出；识别需要一个改变某类数据「可订阅性」的外生事件（如监管要求数据可移植）。

2. 外资债券持有人是否更依赖订阅式数据，并由此影响其持仓与流动性贡献？

【经济故事】外资机构进入美国公司债市场，往往要先买当地数据来克服信息劣势。若这些数据多为订阅、且具强势力，外资的「信息成本」就被卖家攫取，进而影响它们的进入节奏与做市/持有行为，最终传导到公司债流动性。【可行性】中（与我自己关于外资与公司债流动性的研究天然衔接）。可用 13F/TIC 持仓数据 + Datarade 式的数据供应商画像匹配，识别上较难，需要数据供应商进入/退出某区域市场的时点变化。

3. 数据折旧速度的外生变化，如何改变「卖断 ⟶ 订阅」的切换？

【经济故事】本文预测折旧越快越偏向卖断。可找一些让数据突然「保质期变短」的冲击（如某行业进入高波动期、或监管让旧数据失效），看同一批卖家是否系统性地从订阅转向卖断。这能把「折旧 → 合约」这条预测做成准实验。【可行性】中偏低。难点在于度量「数据折旧速度」并找到外生冲击；Datarade 的横截面够，但时间序列与冲击的对齐是硬骨头。

4. 把「财务约束 → 卖断」做成因果。

【经济故事】本文用年龄/融资额做相关性。若能找到外生收紧数据商融资的冲击（如某轮信贷紧缩、某地 VC 退潮），就能检验「被迫缺钱的卖家是否更可能选一次性买断换现金」。这直接呼应 Whited and Wu (2006) 这条财务约束度量的文献。【可行性】中。需要把数据商匹配到可识别融资冲击的样本；私有公司居多，融资数据覆盖是主要障碍。

9 我的判断

这篇论文最漂亮的地方，是把一个「测量难题」翻译成了一个「合约观测」：当加成率因为零边际成本而失效时，它告诉你去看卖断 vs. 订阅——这是一个又干净、又可爬取、又有理论根基的代理变量。模型本身极简却抓住了要害：垄断者真正的对手是明天的自己，而订阅是它给自己重新戴上的承诺枷锁。三条「偏好卖断」的预测（财务约束、市场小、折旧快）逻辑自洽，且都能在 Datarade 上找到方向一致的证据。政策含义也足够大胆——对数据反垄断应更克制，因为该怕的是数据供给不足，而非租金过高。

对识别，我有两点担心。其一，所有公司层面的实证都是相关关系：年龄、融资、市场规模与合约选择之间，缺一个外生冲击把「承诺机制」从「公司成熟度混杂」里干净剥离，因果链条尚未闭合。其二，模型把势力流失的强度系于「单边承诺」这个假设，而那个「集体行动让承诺单边」的故事更像是合理化，而非被验证过的事实——如果买家转卖在某些市场其实可行，势力结构会很不一样。

后续我最想看到的，是把那把「订阅 = 势力」的尺子，从一般数据市场搬进信用与公司债这种我们更熟的市场：金融数据供应商的合约形态，能否预测下游投资者被攫取的信息租金、乃至债券流动性的差异？如果能，那这篇论文给的就不只是一个数据市场的洞见，而是一种衡量「信息中介势力」的通用方法论。

参考文献

Acemoglu, D., Makhdoumi, A., Malekian, A., Ozdaglar, A. (2021). Too much data: Prices and inefficiencies in data markets. American Economic Journal: Microeconomics (forthcoming).
Coase, R. H. (1972). Durability and monopoly. Journal of Law and Economics 15(1), 143–149.
Fudenberg, D., Tirole, J. (1991). Game Theory, Chapter 10. MIT Press.
Grossman, S. J., Stiglitz, J. E. (1980). On the impossibility of informationally efficient markets. American Economic Review 70(3), 393–408.
Hellwig, C., Kohls, S., Veldkamp, L. (2012). Information choice technologies. American Economic Review 102(3), 35–40.
Liu, E., Ma, S., Veldkamp, L. (2025). Data sales and data dilution. Journal of Financial Economics 169, 104053.
Segal, I. (1999). Contracting with externalities. Quarterly Journal of Economics 114(2), 337–388.
Whited, T., Wu, G. (2006). Financial constraints risk. Review of Financial Studies 19(2), 531–559.
Yang, K. (2022). Selling consumer data for profit: Optimal market-segmentation design and its consequences. American Economic Review 112(4), 1364–1393.