混合分布(mixture distribution)

2023-11-18

文章目录

- - 1 基本概念
  - 2 基本性质

1 基本概念

在概率与统计中，如果我们有一个包含多个随机变量的随机变量集合，再基于该集合生成一个新的随机变量，则该随机变量的分布称为混合分布(mixture distribution)。具体来说，首先，根据给定概率从集合中随机选取一个随机变量，然后再实现(realize)该随机变量的值。集合中的随机变量可以是随机实数，也可以是随机向量（每个向量的维数相同），在这种情况下，混合分布是多变量分布。
如果集合中的随机变量是连续的，则生成的随机变量也将是连续的，其概率密度函数有时被称为混合密度(mixture density)。累积分布函数（以及概率密度函数，如果存在的话）可以表示为其它分布函数和密度函数的凸组合（即加权和，非负权重总和为1）。单分布(individual distribution)被组合在一起形成混合分布，我们称这些单分布为混合分量(mixture component)，与每个分量对应的概率（或权重）称为混合权重。混合分布中分量的个数通常是有限的，尽管在某些情况下分量个数可能无穷大。
需要区分两种情况。第一种情况，某个随机变量的分布函数或密度是分量集合（例如，混合分布）之和；第二种情况，一个随机变量的值是两个或者更多基本随机变量的和，这时用卷积运算给出分布。举例来说，两个均值不等的联合正态分布随机变量之和，仍然满足正态分布。然而，用两个具有不同均值的正态分布产生的混合密度，只要两个均值距离足够远，则分布会具有两个峰值，表明这个分布与正态分布有根本不同。

下面我们就来具体看下这个例子。我们考虑随机变量集合中有两个正态分布的随机变量，这两个正态分布的方差相等，但均值不等。现在从该集合中等概率(50%)地选取一个随机变量，得到结果变量。与单个正态分布相比，总体分布将呈现较低的峰度–单个正态分布的均值落在总体分布的肩膀上。如果两个峰值离得足够远，例如标准偏差的两倍以上即 ∣ μ 1 − μ 2 ∣ > 2 σ |\mu_1-\mu_2|>2\sigma ∣μ1−μ2∣>2σ，就形成双峰分布；否则就只是具有宽峰。结果变量的变化也较两个原始随机变量的变化更剧烈（由于从不同均值扩展而来），因此与偏差固定为 σ \sigma σ的正态分布相比，呈现出过度分散性。然而，如果与偏差等于整体分布偏差的正态分布相比，则结果变量的分布不会表现出过度分散性。换句话说，过度分散性是由于两个均值带来的。
反之，如果两个随机变量的均值相等，则结果变量的分布将呈现大的峰度，即具有比单个正态分布更为陡峭的峰值和更严重的拖尾（也即肩膀更浅）。

2 基本性质

有限可数混合
给定概率密度函数集合 p 1 ( x ) , … , p n ( x ) p_1(x),\ldots, p_n(x) p1(x),…,pn(x)，或者相应的累计分布函数 P 1 ( x ) , … , P n ( x ) P_1(x),\ldots, P_n(x) P1(x),…,Pn(x)，以及权重 w 1 , … , w n w_1,\ldots,w_n w1,…,wn，这里 w i ≤ 0 w_i\le 0 wi≤0且 ∑ w i = 1 \sum w_i=1 ∑wi=1，可得密度函数
p ( x ) = ∑ i = 1 n w i p i ( x ) , p(x)=\sum_{i=1}^n w_ip_i(x), p(x)=i=1∑nwipi(x),或分布函数
F ( x ) = ∑ i = 1 n w i P i ( x ) , F(x)=\sum_{i=1}^{n}w_iP_i(x), F(x)=i=1∑nwiPi(x),这里二者均为凸组合。
凸性
概率密度函数的组合不一定是概率密度，因为它可能为负或者积分结果不为零。然而，概率密度函数的凸组合保持了这两个特性（非负以及积分等于1），因此混合密度本身就是概率密度函数。
矩
设 X 1 , X 2 , … , X n X_1,X_2,\ldots,X_n X1,X2,…,Xn表示 n n n个分量分布的随机变量， X X X表示混合分布的随机变量。因此，对于函数 H ( ⋅ ) H(\cdot) H(⋅)，如果 E [ H ( X i ) ] {\mathbb E}[H(X_i)] E[H(Xi)]存在，并且假定分量分布 p i ( x ) p_i(x) pi(x)存在，则有
E [ H ( X ) ] = ∫ − ∞ ∞ H ( x ) ∑ i = 1 n w i p i ( x ) d x = ∑ i = 1 n w i ∫ − ∞ ∞ p i ( x ) H ( x ) = ∑ i = 1 n w i E [ H ( X i ) ] . \begin{aligned} {\mathbb E}[H(X)]&=\int_{-\infty}^{\infty}H(x)\sum_{i=1}^{n}w_ip_i(x)dx\\ &=\sum_{i=1}^{n}w_i\int_{-\infty}^{\infty}p_i(x)H(x)\\ &=\sum_{i=1}^{n}w_i{\mathbb E}[H(X_i)]. \end{aligned} E[H(X)]=∫−∞∞H(x)i=1∑nwipi(x)dx=i=1∑nwi∫−∞∞pi(x)H(x)=i=1∑nwiE[H(Xi)].不难发现， j j j阶原点矩是分量 j j j阶矩的加权平均。进一步，关于 H ( x ) = ( x − μ ) j H(x)=(x-\mu)^j H(x)=(x−μ)j的均值（即 j j j阶中心距）为二项式展开
E [ ( X − μ ) j ] = ∑ i = 1 n w i E [ ( X i − μ i + μ i − μ ) j ] = ∑ i = 1 n w i ∑ k = 0 j ( j k ) ( μ i − μ ) j − k E [ ( X i − μ i ) k ] \begin{aligned} {\mathbb E}[(X-\mu)^j]&=\sum_{i=1}^{n}w_i{\mathbb E}[(X_i-\mu_i+\mu_i-\mu)^j]\\ &=\sum_{i=1}^{n}w_i\sum_{k=0}^{j}\binom{j}{k}(\mu_i-\mu)^{j-k}{\mathbb E}[(X_i-\mu_i)^k] \end{aligned} E[(X−μ)j]=i=1∑nwiE[(Xi−μi+μi−μ)j]=i=1∑nwik=0∑j(kj)(μi−μ)j−kE[(Xi−μi)k]其中 μ i \mu_i μi表示第 i i i个分量的均值。
考虑权重为 w i w_i wi，均值为 μ i \mu_i μi，方差为 σ i \sigma_i σi的一维分布的混合分布，其均值和方差为
E [ X ] = μ = ∑ i = 1 n w i μ i , E [ ( X − μ ) 2 ] = σ 2 = ∑ i = 1 n w i [ ( μ i − μ ) 2 + σ i 2 ] = ∑ i = 1 n w i ( μ i 2 + σ i 2 ) − μ 2 . \begin{aligned} &{\mathbb E}[X]=\mu=\sum_{i=1}^{n}w_i\mu_i,\\ &E[(X-\mu)^2]=\sigma^2=\sum_{i=1}^{n}w_i[(\mu_i-\mu)^2+\sigma^2_i]=\sum_{i=1}^{n}w_i(\mu_i^2+\sigma_i^2)-\mu^2. \end{aligned} E[X]=μ=i=1∑nwiμi,E[(X−μ)2]=σ2=i=1∑nwi[(μi−μ)2+σi2]=i=1∑nwi(μi2+σi2)−μ2.这些关系突出了混合分布有可能具有非平凡高阶矩（如偏斜和峰度（肥尾）以及多模态）的潜力，即使分量本身没有此类特征。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Estimation