在概率论与数理统计中,超几何分布是一种重要的离散型概率分布,常用于描述在不放回抽样情况下,成功事件出现次数的概率分布。对于实际应用中的许多问题,如质量检测、抽样调查等,了解超几何分布的数学期望和方差具有重要意义。
一、什么是超几何分布?
超几何分布描述的是在一个有限总体中进行不放回抽样的情况。设总体中有 $ N $ 个个体,其中有 $ K $ 个“成功”个体,其余为“失败”个体。从中随机抽取 $ n $ 个样本,其中恰好有 $ k $ 个成功个体的概率服从超几何分布。
其概率质量函数(PMF)为:
$$
P(X = k) = \frac{{\binom{K}{k} \binom{N - K}{n - k}}}{{\binom{N}{n}}}
$$
其中,$ X $ 表示在 $ n $ 次抽样中成功出现的次数,$ k = 0, 1, 2, ..., \min(n, K) $。
二、超几何分布的数学期望
数学期望是衡量随机变量平均取值的一个重要指标。对于服从超几何分布的随机变量 $ X $,其期望值 $ E(X) $ 可以通过以下公式计算:
$$
E(X) = n \cdot \frac{K}{N}
$$
这个结果可以理解为:从总体中抽取 $ n $ 个样本,每个样本被选中的概率为 $ \frac{K}{N} $,因此期望的成功数量就是 $ n $ 乘以这个概率。
例如,若总体有 100 个产品,其中 20 个是次品,从中抽取 10 个样本,则期望的次品数量为:
$$
E(X) = 10 \times \frac{20}{100} = 2
$$
三、超几何分布的方差
方差是衡量随机变量偏离其均值程度的指标。超几何分布的方差公式为:
$$
\text{Var}(X) = n \cdot \frac{K}{N} \cdot \left(1 - \frac{K}{N}\right) \cdot \frac{N - n}{N - 1}
$$
这个公式中,前半部分 $ n \cdot \frac{K}{N} \cdot \left(1 - \frac{K}{N}\right) $ 与二项分布的方差形式类似,但后面多了一个修正因子 $ \frac{N - n}{N - 1} $,这是因为超几何分布是不放回抽样,导致样本之间存在相关性,从而影响了方差。
举个例子,如果总体有 100 个产品,其中 20 个是次品,从中抽取 10 个样本,那么方差为:
$$
\text{Var}(X) = 10 \times \frac{20}{100} \times \left(1 - \frac{20}{100}\right) \times \frac{100 - 10}{100 - 1} = 10 \times 0.2 \times 0.8 \times \frac{90}{99} \approx 1.4545
$$
四、超几何分布与二项分布的区别
虽然超几何分布和二项分布在形式上有些相似,但它们的核心区别在于是否放回抽样。二项分布适用于独立重复试验,而超几何分布则适用于不放回抽样,因此其方差会受到样本数量与总体大小比例的影响。
五、总结
超几何分布广泛应用于实际问题中,尤其是在小样本或有限总体的抽样场景下。掌握其数学期望和方差的计算方法,有助于我们更准确地预测和分析实验结果。
- 数学期望:$ E(X) = n \cdot \frac{K}{N} $
- 方差:$ \text{Var}(X) = n \cdot \frac{K}{N} \cdot \left(1 - \frac{K}{N}\right) \cdot \frac{N - n}{N - 1} $
通过这些公式,我们可以快速估算出在特定条件下成功的平均次数及其波动范围,从而为决策提供数据支持。