一秒一笔的数据,为什么只敢拿 5 分钟用一次?

[2005 RFS] How Often to Sample a Continuous-Time Process in the Presence of Market Microstructure Noise
Note

本文读的是 Aït-Sahalia, Mykland & Zhang (2005, Review of Financial Studies):当我们用高频数据估波动率时,如果对市场微观结构噪声视而不见,最优采样频率竟然是有限的——这与「数据越多越好」的统计直觉相悖;但只要把噪声写进似然函数、把所有数据都用上,「采样越密越好」又会被重新找回来,而且即便你把噪声分布设错了也无妨。一句话的答案是:能采多密,就采多密

1 一个让人不安的常识

先说一个统计学里几乎不容置疑的信条:在其他条件相同的情况下,数据越多越好

把这个信条搬到波动率估计上,故事似乎顺理成章。我们想估的是一只证券对数价格的扩散系数 \(\sigma^2\)。经典做法是把一天切成很多小段,算出每一段的对数收益 \(Y_i\),再把它们的平方加起来——这就是所谓的已实现波动率 (realized volatility),本质上是过程的二次变差 (quadratic variation) 的离散近似:

$$\hat\sigma^2 = \frac{1}{T}\sum_{i=1}^{N} Y_i^2$$

理论上,只要采样间隔 \(\Delta\) 趋于零、把数据切得越来越细,这个估计量就会在极限里收敛到真实方差——一个完美的估计。换句话说,按这套逻辑,面对一只每秒成交一笔的活跃股票,我们应该把每一秒都用上才对。

可现实里没人这么干。

A typical 6.5 小时的交易日,每秒一笔,就是 23,400 个观测。但你翻开高频实证文献,会发现大家用的采样间隔从 5 分钟 [Andersen et al. (2001)、Barndorff-Nielsen and Shephard (2002)] 一路拉到 30 分钟 [Andersen et al. (2003)]。用 5 分钟一次,意味着一天只留下 78 个观测——每 300 笔交易里,扔掉了 299 笔。 这跟「数据越多越好」简直背道而驰。

于是一个自然的问题浮出来:这到底是从业者偷懒拍脑袋,还是背后藏着一条我们没算清的账? 本文的第一个贡献,就是把这条账算到了闭式解。

2 没有噪声的世界:越密越好

先把基准情形讲干净。本文的设定极简:对数价格是一个时齐扩散,

$$dX_t = m(X_t,\theta)\,dt + \sigma\,dW_t$$

作者论证,在高频语境下,扩散项是 \((dt)^{1/2}\) 阶、漂移项只有 \(dt\) 阶,漂移在高频下数学上可以忽略;而且加进漂移反而会因为它本身估不准而拖累方差估计 [这一点早在 Merton (1980) 就指出过:估方差时不要把收益去中心化]。于是直接令 \(m=0\),

$$X_t = \sigma W_t$$

此时对数收益 \(Y_i = X_{t_i}-X_{t_{i-1}}\) 是独立同分布的 \(\mathcal{N}(0,\sigma^2\Delta)\),对数似然函数是

$$l(\sigma^2) = -\frac{N}{2}\ln(2\pi\sigma^2\Delta) - \frac{1}{2\sigma^2\Delta}\,Y'Y$$

极大似然估计恰好就是上面那个二次变差近似 \(\hat\sigma^2\)。它无偏,而且方差是

$$\mathrm{var}(\hat\sigma^2) = \frac{N\cdot 2\sigma^4\Delta^2}{T^2} = 2\sigma^4\Delta$$

结论一目了然:\(\Delta\) 越小,方差越小。在这个干净的世界里,常识成立——能采多密就采多密。

但真实的成交价不是 \(X\)。

3 把噪声请进来:收益变成了 MA(1)

市场微观结构文献早就告诉我们,观测到的成交价是「有效价格」加上一层噪声——这是 Black (1986) 以降的共识。本文采用了最简的约化形式:我们观测不到 \(X\),只能观测到带误差的 \(\tilde X\),

$$\tilde X_{t_i} = X_{t_i} + U_{t_i}$$

其中 \(U_{t_i}\) 是独立同分布、均值零、方差 \(a^2\) 的噪声,且独立于 \(W\)。这个 \(U\) 是一个「大杂烩」:买卖价差及其反弹、交易规模差异、知情交易者带来的信息不对称、价格离散化(tick)……全被塞进了一个项。作者特意指出,这个约化形式正是 Roll (1984)(\(U\) 全来自买卖价差)、Glosten and Harris (1988)(含逆向选择成分)、Hasbrouck (1993)(把 \(a\) 当作市场质量的概括性度量)、Madhavan, Richardson, and Roomans (1997) 等一系列结构模型的共同「出口」。

Tip

Roll (1984) 模型里 \(U_t = (s/2)Q_t\),\(Q_t\) 是 \(\pm 1\) 等概率的订单流方向,于是 \(\mathrm{var}[U]=a^2=s^2/4\),买卖价差可以从收益的一阶自协方差里反解出来。关于「如何在价格离散、一天只成交几笔时仍把价差量准」,可参见《一天只成交几笔,价差还能量准吗?》

噪声一进来,对数收益的结构就变了。因为

$$Y_i = \sigma(W_{t_i}-W_{t_{i-1}}) + U_{t_i} - U_{t_{i-1}} \equiv \varepsilon_i + \eta\,\varepsilon_{i-1}$$

——它从独立同分布变成了一个 MA(1) 过程。相邻两期共享了同一个 \(U_{t_{i-1}}\),于是收益被人为地引入了(负的)一阶自相关。把它换算回原参数,两条关系道破了天机:

$$\mathrm{var}[Y_i] = \sigma^2\Delta + 2a^2, \qquad \mathrm{cov}(Y_i,Y_{i-1}) = -a^2$$

第一条最关键。我们把它单独拎出来做一次解剖:

$$ \mathrm{var}[Y_i] = \cssId{a1}{\sigma^2\Delta} + \cssId{a2}{2a^2} $$

看清楚这个分解,整篇论文的直觉就到手了。信号 \(\sigma^2\Delta\) 会随着你切得越细而消失,噪声 \(2a^2\) 却纹丝不动。 用信噪比的语言说:在极短的时间间隔上,一笔对数收益里几乎全是微观结构噪声,关于波动率的信息少得可怜;只有把间隔拉长,波动率的「信号」才慢慢盖过噪声。噪声引起的那部分占比是

$$\pi = \frac{2a^2}{\sigma^2\Delta + 2a^2}$$

当 \(\Delta\to 0\),\(\pi\to 1\)——你以为在测波动,其实在测噪声。一阶自相关恰好是 \(-\pi/2\)。

4 反常识的结论:最优采样频率是有限的

现在把噪声忽略、仍然套用第 2 节那个「无噪声」的似然去估 \(\sigma^2\),会发生什么?本文的 Theorem 1 给出了小样本(任意有限 \(T\))下的精确偏差与方差。偏差是:

$$E[\hat\sigma^2] - \sigma^2 = \frac{2a^2}{\Delta}$$

这一行就足以推翻常识。\(\Delta\to 0\) 时偏差不是消失,而是爆炸到无穷。 直觉正是上一节那个 \(2a^2\):你采得越密,累加进来的噪声越多。用 \(n=T/\Delta\) 表示样本量,可以写成 \(E[\hat\sigma^2]\approx 2na^2/T\)——\(\hat\sigma^2\) 实际上在估噪声方差 \(a^2\),跟我们关心的 \(\sigma^2\) 几乎无关。

而方差项(含噪声的四阶累积量 \(\mathrm{cum}_4[U]\))是

$$\mathrm{var}(\hat\sigma^2) = \frac{2\left(\sigma^4\Delta^2 + 4\sigma^2\Delta a^2 + 6a^4 + 2\,\mathrm{cum}_4[U]\right)}{T} - \frac{2\left(2a^4 + \mathrm{cum}_4[U]\right)}{T^2}$$

于是出现了一个经典的偏差—方差权衡 (bias–variance trade-off):\(\Delta\) 越小偏差越大,\(\Delta\) 越大方差越大。这与非参数估计里带宽 \(h\) 的角色如出一辙——\(\Delta^{-1}\) 就扮演着带宽。两股力量一拉扯,均方根误差 (root mean squared error, RMSE) 存在唯一的最小值,对应一个有限的最优采样间隔 \(\Delta^*\)。它有闭式表达式;当 \(T\) 增大时,

$$\Delta^* = \frac{2^{2/3}\,a^{4/3}}{\sigma^{4/3}}\,T^{1/3} + O\!\left(\frac{1}{T^{1/3}}\right)$$

这就是给从业者的定量答案。把它对着文献里报告过的噪声水平做校准,结论很具体:在一天数据的情形下,最优采样间隔从 4 分钟到 3 小时不等,取决于噪声相对于标的收益方差的大小;若用更长时间窗,最优间隔还会显著拉长。那些「拍脑袋」选 5 分钟、30 分钟的做法,竟然落在了理论预测的合理区间里。

Warning

这里有一个微妙的转向值得记住:在无噪声世界里 RMSE 由方差主导、要选最小的 \(\Delta\);在有噪声世界里,\(T\to\infty\) 时方差趋于零,RMSE 被那个与 \(T\) 无关的偏差 \(2a^2/\Delta\) 主导,于是反过来要选最大的 \(\Delta\)。同一个估计量,两种世界,最优方向相反。

5 真正关键的一步:把噪声写进似然

到这里,故事似乎可以收尾了:有噪声,就老老实实地用那个有限的最优频率。

但作者偏不。因为「采 5 分钟、扔掉 299/300 的数据」从统计学上讲实在太浪费——它固然好过用每秒数据去硬算(那样偏差爆炸),却绝不是手握完整高频数据集时的最优解。问题出在估计量本身,而不是数据。

那真正关键的一步是什么?把噪声显式地建模进似然函数。既然带噪声的对数收益是一个 MA(1)、其参数 \((\gamma^2,\eta)\) 与 \((\sigma^2,a^2)\) 一一对应,那我们完全可以直接对这个 MA(1) 写出似然、做极大似然估计。作者在这里需要先假设噪声的分布——他们假设 \(U\) 是高斯的。

结论是:一旦这么做,「采样越密越好」这个一阶统计效应被重新找回来了。也就是说,正确建模噪声之后,\(\Delta\to 0\) 重新变成最优。被微观结构噪声「偷走」的高频数据,又物归原主。

6 于是反转出现:设错了分布也没关系

可是,假设噪声高斯,会不会闯祸?微观结构理论那么精致,真实噪声多半不是正态的。把分布设错,会不会比不设还糟?

这是全文最漂亮的反转。作者证明:即便你把噪声分布设错了——以为是正态,其实不是——基于高斯似然的这套修正依然有效。 不仅「采样越密越好」依然成立(这与「不修正」时的有限最优频率形成鲜明对照),而且估计量的方差,与你把噪声分布设对时完全一样

这是一个拟极大似然 (quasi-maximum likelihood) 的稳健性结果,思想可追溯到 White (1982) 关于误设模型下极大似然的经典工作。它的分量很重:它意味着,在用高频金融数据估连续时间模型时,只要把噪声的存在纳入估计量,哪怕你说不准噪声到底服从什么分布,也应该把噪声算进去。这才是作者真正想给从业者的建议。

所以回到标题的问句——多久采一次?答案是「能多密就多密」,前提是你在设计估计量时正视了噪声的存在(本文主推极大似然)。如果你执意只用平方收益之和这种朴素估计量、又不肯为噪声做任何修正,那才退而求其次,用第 4 节那个有限的最优频率。

Note

本文是参数化框架。它的姊妹篇 Zhang, Mykland, and Aït-Sahalia (2003)(即后来著名的「两时间尺度」TSRV)处理的是非参数情形:波动率本身是随机过程、对其结构一无所知,目标变成估一段时间(比如一天)的积分波动率,靠子采样与平均的两尺度估计量来同样地「用上全部数据」。

7 文献脉络

把这条线索捋一捋,会看到两条河流的交汇。

一条是市场微观结构的河。Black (1986) 那篇《Noise》立起了「观测价 = 有效价 + 噪声」的概念;Roll (1984) 用买卖价差给了噪声第一个结构化的身躯;Glosten (1987)、Glosten and Harris (1988) 把逆向选择拆进了价差;Harris (1990a, 1990b) 补上了价差之外的噪声来源;Hasbrouck (1993) 干脆把噪声标准差 \(a\) 提升为「市场质量」的概括性度量。French and Roll (1986) 早就注意到要为这种自相关去调整方差估计。

另一条是高频计量的河。一支主张估计方法应当对高频噪声稳健、不要求 \(\Delta\to 0\) [Aït-Sahalia (1996, 2002)、Hansen and Scheinkman (1995)];另一支则恰恰建立在 \(\Delta\to 0\) 之上,用已实现波动率去逼近二次变差 [Andersen et al. (2001, 2003)、Barndorff-Nielsen and Shephard (2002)、Bandi and Phillips (2003)]。后一支正是本文火力最集中的地方——它们用高频数据,却往往对噪声视而不见。

文献脉络时间线
文献脉络时间线(按发表年份排布;红色为本文)

本文站在两条河的汇流处:它用一个最简约化形式把微观结构噪声搬进了高频计量的核心问题,既给了「忽略噪声时」的闭式最优频率,又给了「正视噪声时」的稳健极大似然方案,最后由 Zhang, Mykland, and Aït-Sahalia (2003) 把同一套思想推向非参数。

8 评论与延伸(Q&A + 研究方向)

(a) 几个可能的疑问

Q:把漂移项直接扔掉(\(m=0\)),不会丢掉信息吗?

在高频语境下不会,反而是更优的选择。扩散项是 \((dt)^{1/2}\) 阶、漂移项只有 \(dt\) 阶,后者在高频极限下数学上可忽略;而且漂移本身估不准、标准误很大,强行估它会拖累方差估计。Merton (1980) 早就指出,估方差时不要去中心化收益。作者也在第 9.1 节验证:加回漂移不改变结论。

Q:为什么噪声一进来,收益就恰好是 MA(1),而不是更高阶?

因为噪声 \(U\) 是独立同分布、且只在相邻两期的收益里共享同一个端点 \(U_{t_{i-1}}\)。\(Y_i\) 与 \(Y_{i-1}\) 共用一个 \(U\) 项、与 \(Y_{i-2}\) 则不再有交集,所以自协方差在一阶之后就截断了——这正是 MA(1) 的定义性特征。一旦放松「噪声序列不相关」的假设(第 9.2、9.3 节),结构会复杂化,但不改变核心结论。

Q:「最优采样频率有限」是因为方差太大,还是因为偏差太大?

是两者的权衡,但主导项随 \(T\) 变化。\(T\) 固定时是经典的偏差—方差权衡;\(T\to\infty\) 时方差趋于零,RMSE 由那个不随 \(T\) 衰减的偏差 \(2a^2/\Delta\) 主导,于是要把 \(\Delta\) 调大去压偏差。这与无噪声情形(要把 \(\Delta\) 调到最小)方向相反,是全文最反直觉的地方。

Q:高斯似然的稳健性,凭什么对「设错分布」免疫?

这是拟极大似然(White 1982)的一般现象:当被估的目标参数主要由二阶矩(这里是 \(\sigma^2\)、\(a^2\))决定时,高斯似然的得分方程在矩条件层面仍然成立,即使真实分布有非零的高阶累积量。作者进一步证明,不仅一致性保住了,连渐近方差都与分布设对时相同——这是比「设错也不偏」更强的结论。

Q:那 4 分钟到 3 小时这么宽的区间,到底说明了什么?

说明「最优频率」对噪声相对大小 \(a^2/\sigma^2\Delta\) 极其敏感,没有放之四海的「正确频率」。它给文献里那些 5 分钟、30 分钟的 ad hoc 选择提供了一个可计算的标尺,但也提醒我们:与其纠结频率,不如换一个正视噪声的估计量。

Q:这套结论能直接搬到公司债、外汇这种 OTC 市场吗?

不能照搬。本文假设等间隔采样、噪声独立同分布且独立于价格过程。OTC 市场成交稀疏、时间间隔随机(本文第 8 节才开始处理随机采样),且噪声常与订单流、库存相关。把这套框架移植到债券,需要重新建模噪声的相关结构——这恰恰是下面研究方向的切入点。

(b) 几个可能的研究问题与提案

  1. 公司债的「最优采样」与流动性度量。 【经济故事】公司债成交极稀疏、价格里塞满了交易商加价、库存与逆向选择,正是「微观结构噪声」最浓的市场之一。本文那个 \(\mathrm{var}[Y]=\sigma^2\Delta+2a^2\) 的分解,意味着债券收益里被噪声占据的比例 \(\pi\) 可能远高于股票,估出来的 \(a^2\) 本身就是一个流动性指标。【可行性】中。数据用 TRACE 逐笔成交即可,识别上的难点是债券成交非等间隔、且当日可能只有寥寥几笔——需要先把本文第 8 节的随机采样框架嫁接过来,doable 但需谨慎处理稀疏性。

  2. 把 \(a\) 当作「市场质量」的资产定价因子。 【经济故事】Hasbrouck (1993) 把 \(a\) 解读为市场质量的概括度量。若能从高频数据稳健地估出每只债券/股票的 \(a\),它是否在横截面上被定价?即流动性差(\(a\) 大)的资产是否要求更高的预期收益?【可行性】高。\(a\) 的极大似然估计本文已给出,构造横截面组合做 Fama–MacBeth 即可,与现有流动性定价文献能直接对话。

  3. 外资持有人与微观结构噪声。 【经济故事】外资比例高的市场/证券,订单流的信息含量与库存压力可能不同,进而改变噪声方差 \(a^2\) 与其自相关结构。一个自然的问题是:外资进入是降低了 \(a\)(提升市场质量),还是抬高了 \(a\)(带来更多逆向选择)?【可行性】中。需要把噪声参数估计与外资持股数据(如 KOSPI、新兴市场的可投资度变量)结合,识别上可借用本文已有的可投资度自然实验思路。

  4. 误设稳健性在「相关噪声」下还成立吗? 【经济故事】本文的稳健性建立在噪声独立同分布之上。但逆向选择会让 \(U\) 与 \(W\) 相关、且呈现一阶自相关(作者第 9.2、9.3 节已部分放松)。一个值得做的理论工作是:在噪声与价格相关的情形下,高斯拟似然是否仍然「设错也不偏」?【可行性】中偏低。纯理论推导,需要扩展 White (1982) 的论证到相关误差,doable 但技术门槛高。

  5. 频率选择对异象/风险溢价估计的传导。 【经济故事】既然采样频率直接决定了波动率估计的偏差,那么用不同频率估出的已实现方差,会不会系统性地扭曲依赖波动率的下游结论(如波动率风险溢价、beta 异象)?【可行性】高。把本文的频率—偏差公式作为「测量误差模型」嵌入下游回归,做敏感性分析即可,数据现成。

9 我的判断

这篇论文的贡献在于它的简洁与建设性:它没有去构造更复杂的微观结构结构模型,而是用一个最朴素的「有效价 + 独立同分布噪声」约化形式,把一个长期被含糊处理的实务问题(多久采一次)推到了闭式解,并且给出了一个可操作的、且对分布误设稳健的替代方案。那句「sample as often as possible, provided you account for the noise」是真正有政策含义的结论——它把争论从「选哪个频率」转移到了「选哪个估计量」,这是更高层次的进步。

要说对识别(这里其实是对设定)的担忧,核心都在那几条简化假设上:噪声独立同分布、独立于价格、等间隔采样。现实里,逆向选择会让噪声与价格相关并带自相关,OTC 市场的采样是随机且稀疏的——作者在第 8、9 节做了部分松绑,但「稳健性结果」在相关噪声下能保留多少,仍是开放的。

后续我最想看到的,是把这套「正视噪声」的哲学搬到公司债与信用市场:在一个成交以天计、噪声以交易商加价为主体的市场里,本文的偏差公式与噪声参数 \(a\) 会呈现出什么形态?它能不能直接产出一个比现有买卖价差更干净的流动性度量?这才是把一篇优雅的计量论文,真正接回到我们关心的市场里去。

参考文献