1. 引言

本文将概述稳健统计(Robust Statistics)的基本概念。稳健统计是一类对异常数据或模型微小偏差具有容忍性的统计方法。我们将介绍稳健性的主要衡量指标,并说明最常用的集中趋势和统计离散度的稳健估计量。

2. 什么是稳健统计?

稳健统计的目标是找到在统计模型略微偏离假设时依然表现良好的估计量。稳健统计的基础工作始于20世纪60年代,代表人物包括John Tukey(1960)、Peter Huber(1964)和Frank Hampel(1971)。

传统估计方法依赖于模型假设,而这些假设在现实中往往难以满足。例如,在数据分析中,常假设误差服从正态分布或中心极限定理成立,以保证估计值服从正态分布。但实际中,模型通常只描述了大部分观测值,而某些观测值可能遵循不同的模式,甚至是异常值(outliers)。

经典估计量在数据中存在少量异常值时表现较差。样本均值和样本标准差分别是集中趋势和离散度的经典估计量,但它们对异常值非常敏感。

以以下六组测量值为例(其中一个是异常值,用粗体标出):

$$ [3.10, \quad 3.01, \quad 3.08, \quad 3.21, \quad 3.11, \quad \mathbf{29.1}] $$

计算出的样本均值 $\bar{x} = 7.44$,标准差 $s = 10.61$。显然,这两个值严重偏离了大部分数据。如果剔除异常值 29.1,重新计算后得到 $\bar{x} = 3.10$、$s = 0.07$,此时结果更符合数据的真实分布。这说明单个异常值就可能完全破坏样本均值和标准差的估计。

3. 稳健性度量指标

如何评估一个估计量的稳健性? 文献中提出了多种稳健性度量方式,其中最重要的是:

  • Breakdown Point(崩溃点)
  • Sensitivity Curve(敏感性曲线)
  • Influence Function(影响函数)

3.1. 崩溃点(Breakdown Point)

崩溃点定义为数据集中最小比例的异常值(outliers)导致估计值无限大的情况,即估计量“崩溃”。

以样本均值为例:只要有一个观测值被极端大值替换,样本均值就会“爆炸”。因此其崩溃点为 $1/N$。当 $N \to \infty$ 时,崩溃点趋近于 0,这是最差的情况。

崩溃点越高,估计量越稳健。

3.2. 敏感性曲线(Sensitivity Curve)

敏感性曲线衡量单个异常值对估计量的影响。它通过比较加入一个观测值前后估计值的差异,并归一化处理来定义:

$$ \operatorname{SC}\left(x ; x_{1}, x_{2}, \ldots, x_{N}, \hat{\theta}\right)=\frac{\hat{\theta}\left(x_{1}, x_{2}, \ldots, x_{N}, x\right)-\hat{\theta}\left(x_{1}, x_{2}, \ldots, x_{N}\right)}{1 /(N+1)} $$

如果敏感性曲线是有界的,则估计量是稳健的。

对于样本均值,其敏感性曲线为:

$$ \operatorname{SC}\left(x ; x_{1}, x_{2}, \ldots, x_{N}, \bar{x}\right)= x - \bar{x}\left(x_{1}, x_{2}, \ldots, x_{N}\right) $$

这是无界的函数,说明样本均值不稳健。

⚠️ 敏感性曲线依赖于具体的样本值。

3.3. 影响函数(Influence Function)

影响函数是敏感性曲线的渐进行为版本,它不依赖有限样本,而是依赖特定分布。它衡量当向分布中加入污染(contamination)时,估计值的变化情况。

污染分布定义为:

$$ \tilde{F} = (1 -\varepsilon) F + \varepsilon \delta_x $$

其中 $\delta_x$ 是在点 $x$ 处取值为 1 的 Dirac 测度。影响函数定义为:

$$ \operatorname{IF}\left(x ; F, \theta\right)=\lim _{\varepsilon \rightarrow 0} \frac{\hat{\theta} (\tilde{F})- \hat{\theta}(F)}{\varepsilon} $$

对于正态分布的均值估计,其影响函数为:

$$ \operatorname{IF} \left(x ; g, E \right)= x $$

这说明如果污染值 $x$ 很大,它对均值估计的影响也很大,因此均值不稳健。

4. 集中趋势的稳健估计量

集中趋势表示数据向某个中心值聚集的趋势。传统方法使用均值,但它对异常值敏感。常见的稳健估计量有:

  • 中位数(Median)
  • 截尾均值(Trimmed Mean)

4.1. 中位数(Median)

中位数是将数据排序后位于中间位置的值。其定义如下:

$$ \operatorname{median}(x_i)= \begin{cases} x_{(N+1)/2} & \text{若 } N \text{ 为奇数} \ (x_{N/2} + x_{N/2+1}) \cdot 0.5 & \text{若 } N \text{ 为偶数} \end{cases} $$

✅ 中位数的崩溃点为 0.5,表示最多可承受 50% 的异常值。

4.2. 截尾均值(Trimmed Mean)

截尾均值通过忽略前 $M$ 个最小值和后 $M$ 个最大值后计算平均值:

$$ \hat{\mu}{\alpha}=\frac{1}{N-2 M} \sum{i=M+1}^{N-M} x_{(i)} $$

其中 $M = \alpha (N-1)$,且 $0 \leq \alpha < 0.5$。

✅ 截尾均值的崩溃点为 $(M+1)/N$,其稳健性随 $\alpha$ 增大而增强。

5. 离散度的稳健估计量

离散度描述数据的变异程度。传统方法使用标准差,但对异常值非常敏感。常见的稳健估计量有:

  • 中位数绝对偏差(Median Absolute Deviation, MAD)
  • 四分位距(Interquartile Range, IQR)

5.1. 中位数绝对偏差(MAD)

MAD 是所有观测值与中位数之差的绝对值的中位数:

$$ \operatorname{MAD}(x_i) = \operatorname{median} \left( |x_i - \operatorname{median}(x_i)| \right) $$

为了使其在正态分布下成为标准差的一致估计量,需乘以修正因子 1.482:

$$ \operatorname{MADN}(x_i) = 1.482 \cdot \operatorname{MAD}(x_i) $$

✅ MAD 的崩溃点为 50%,非常稳健。

5.2. 四分位距(IQR)

IQR 是数据的 75% 分位数与 25% 分位数之差:

$$ \operatorname{IQR} = P_{75}(x_i) - P_{25}(x_i) $$

同样地,为使其成为标准差的一致估计,需乘以修正因子 0.7413:

$$ \operatorname{IQRN}(x_i) = 0.7413 \cdot \operatorname{IQR}(x_i) $$

✅ IQR 的崩溃点为 25%,稳健性中等。

6. 总结

本文介绍了稳健统计的核心概念,包括崩溃点、敏感性曲线和影响函数等稳健性度量指标,并详细说明了集中趋势和离散度的稳健估计方法,如中位数、截尾均值、MAD 和 IQR。

在实际数据分析中,面对异常值时使用稳健估计量可以显著提升模型的鲁棒性和可靠性。✅

建议实践:

  • 对于集中趋势:优先使用中位数或截尾均值
  • 对于离散度:优先使用 MAD 或 IQR
  • 谨慎使用均值和标准差,尤其在存在异常值的数据集中


原始标题:Robust Estimators in Robust Statistics