3.卡尔曼滤波理论基础之最优估计（最小方差估计）

2023-05-16

文章目录

一、最小方差估计
- 例子
二、线性最小方差估计
三、其他最优估计
- 1、极大验后估计
- 2、极大似然估计
四、总结

一、最小方差估计

       前两篇文章对最优估计中的最小二乘估计进行了较为系统的介绍。我们已经知道，所谓最优估计就是让估值结果的某一项最优指标达到最小，而最小二乘估计的指标是让量测的方差最小。之前也说了，正因为是让这个指标是让量测最优，所以并不能保证估计最优。
       那费这么大劲干嘛？直接把最优估计的指标设置成估计结果最优不好吗？当然可以。这就是我们下面要提的最小方差估计。
最小方差估计的最优指标就是求估计值，使得下面这个式子达到最小：
E x , z { [ X − X ^ ] T [ [ X − X ^ ] } E_{x,z} \{[X-\hat X]^T[[X-\hat X]\} Ex,z{[X−X^]T[[X−X^]}
       达到最小时的 X ^ \hat X X^。说的容易做得难，因为上个式子X本来就是我们要估的值，也就是不知道的，而这时却要求 X ^ \hat X X^，没法弄。顺便提一下，最小方差估计通常用 X ^ M V ( Z ) \hat X_{MV}(Z) X^MV(Z)表示，意思就是在观测Z的条件下的X的最小方差估计。数学家们发现了一个定理：
       量测Z条件下的X的最小方差估计等于在量测条件下的X的条件均值。
X ^ M V ( Z ) = E [ X / Z ] \hat X_{MV}(Z)=E[X/Z] X^MV(Z)=E[X/Z]
       所以最小方差估计的求解变成了条件均值的求解。这在已知X和Z的概率分布情况下就可以求解了。虽然仍然很繁琐。幸好在实际应用中很多都可以做特殊情况处理，比如X和Z都是正态分布的情形（这种特殊情况其实是反而却是普遍现象）。
       那么，我这里就可以直接给出最小方差估计的公式了： X ^ M V ( Z ) = m X + C X Z C Z − 1 ( Z − m Z ) \hat X_{MV}(Z)=m_X+C_{XZ}C_Z^{-1}(Z-m_Z) X^MV(Z)=mX+CXZCZ−1(Z−mZ)
估值精度也可以给出来：
V a r [ X − X ^ M V ( Z ) ] = C X − C X Z C Z − 1 C Z X Var[X-\hat X_{MV}(Z)]=C_X-C_{XZ}C_Z^{-1}C_{ZX} Var[X−X^MV(Z)]=CX−CXZCZ−1CZX
       这是啥？
       呵呵，别急。咱不是说好了X和Z都是正态分布吗，那么X和Z的正态分布参数就应该已知啦，上面两个式子中的 m X m_X mX和 m Z m_Z mZ是X和Z的正态分布中心值，就是的数学期望， C X C_X CX和 C Z C_Z CZ是X和Z的正态分布的方差 C X Z C_{XZ} CXZ是两个正态分布的协方差。注意，以上都是矩阵形式的。
       而如果X和Z之间是线性关系，就是最小二乘估计的那个关系： Z = H X + V Z=HX+V Z=HX+V
       那可以进一步简化
X M V ( Z ) = m X + C X H T ( H C X H T + C V ) − 1 ( Z − H m X ) X_{MV}(Z)=m_X+C_XH^T(HC_XH^T+C_V)^{-1}(Z-Hm_X) XMV(Z)=mX+CXHT(HCXHT+CV)−1(Z−HmX)
       那个 C V C_V CV就是观测的方差矩阵，之前见过，就是那个R阵。精度也可以写出来： P = ( C X − 1 + H T C V − 1 H ) − 1 P=(C_X^{-1}+H^TC_V^{-1}H)^{-1} P=(CX−1+HTCV−1H)−1
       好吧，在举个例子。

例子

X服从正态分布，均值为 m X m_X mX，方差为 C X C_X CX，用m台设备直接测量，测量噪声的方差为 C V C_V CV，求X的最小方差估计。

       每次测量为 Z i Z_i Zi,i从1到m。所以
Z = ( Z 1 Z 2 ⋮ Z m ) , H = ( 1 1 ⋮ 1 ) , V a r ( V ) = C V I Z=\begin{pmatrix}Z_1\\Z_2\\\vdots\\Z_m\end{pmatrix},H=\begin{pmatrix}1\\1\\\vdots\\1\end{pmatrix},Var(V)=C_VI Z=⎝⎜⎜⎜⎛Z1Z2⋮Zm⎠⎟⎟⎟⎞,H=⎝⎜⎜⎜⎛11⋮1⎠⎟⎟⎟⎞,Var(V)=CVI
       代入公式就可得到以下结果：
X ^ M V = m X + m C X m C X + C V ( 1 m ∑ i = 1 m Z i − m X ) \hat X_{MV}=m_X+\frac{mC_X}{mC_X+C_V}\left(\frac{1}{m}\sum_{i=1}^mZ_i-m_X\right) X^MV=mX+mCX+CVmCX(m1i=1∑mZi−mX)
P = C X C V m C X + C V P=\frac{C_XC_V}{mC_X+C_V} P=mCX+CVCXCV
       上式可以看出，测量次数越多，m越大，P越小，所以估计精度也越高。

二、线性最小方差估计

       上一节我们已经知道，当X和Z都是正态分布的变量时候的公式样子了。那如果这两个变量不满足正态分布，但我要将X的估计写成Z的线性函数，且指标仍然要估值方差最小行不行呢（注意啊！这已经是不同于最小方差估计的另外一种最优指标了）？
       其实是可以的。无外乎是上一节最小方差估计的最优指标加了个限定条件， X ^ \hat X X^必须要写成Z的线性函数而已。这种估计叫做线性最小方差估计。
       最优指标：X为被估，Z为量测，如果有 X ^ L ( Z ) = A Z + b \hat X_L(Z)=AZ+b X^L(Z)=AZ+b能够使得 E { [ X − X ^ ] T [ [ X − X ^ ] } E\{[X-\hat X]^T[[X-\hat X]\} E{[X−X^]T[[X−X^]}
       达到最小。则称 X ^ L ( Z ) \hat X_L(Z) X^L(Z)为X在Z上的线性最小方差估计。
       可以严格证明此时这个估计值 X ^ L \hat X_L X^L的求解公式与X和Z同为正态分布时的最小方差估计求解公式相同，即 X ^ L ( Z ) = m X + C X Z C Z − 1 ( Z − m Z ) \hat X_L(Z)=m_X+C_{XZ}C_Z^{-1}(Z-m_Z) X^L(Z)=mX+CXZCZ−1(Z−mZ)

P = C X − C X Z C Z − 1 C Z X P=C_X-C_{XZ}C_Z^{-1}C_{ZX} P=CX−CXZCZ−1CZX
       这说明一个事，就是如果X和Z都是正态分布的那么X的最小方差估计和线性最小方差估计是相同的。
       最小方差估计是所有估计中的最优估计，因为它的最优指标就是让估计精度达到最优。而上面这个情况则说明，当X和Z都是正态分布时，线性最小方差估计也是所有估计中的最优。
       我们以后会提到的卡尔曼滤波其实就是一种线性最小方差估计的推导结论。而卡尔曼滤波数理的数据大多是都是符合正态分布规律的，所以说，卡尔曼滤波是理论上性能最优的估计算法，也正因为如此，卡尔曼滤波才能在很多领域广泛应用。

三、其他最优估计

这里就简单提一下好了，除了以上讲的最小二乘估计，最小方差估计和线性最小方差估计意外，其实还有别的最优估计方法，看看它们的最优指标其实觉得很合理，但由于计算处理难度太大，工程上应用的不多。

1、极大验后估计

       最优估计指标：X为被估，Z为X的量测， p ( x / z ) p(x/z) p(x/z)为Z在z条件下的X的条件概率密度，如果估值 X ^ M A ( z ) \hat X_{MA}(z) X^MA(z)能够满足这个指标：
p ( x / z ) ∣ x = X ^ M A ( z ) = m a x p(x/z)|_{x=\hat X_{MA}(z)}=max p(x/z)∣x=X^MA(z)=max
       则 X ^ M A ( z ) \hat X_{MA}(z) X^MA(z)就被称为极大验后估计。
       很合理啊，说白了，就是当量测Z获得后，求出X在Z条件下概率最大的点。为什么叫验后，那是因为在z条件下的X的条件概率密度 p ( x / z ) p(x/z) p(x/z)一般被称为X的验后概率密度。
       这种估计的精度也很高，因为，当X和Z都是正态分布时，可以证明，极大验后估计和最小方差估计是相等的。

2、极大似然估计

       最优指标：X为被估，Z为量测， p ( z / x ) p(z/x) p(z/x)是X=x条件下Z的条件概率密度，如果在此条件下获得的Z=z解算获得的估计值 X ^ M L ( z ) \hat X_{ML}(z) X^ML(z)能够使得 p ( z / x ) ∣ x = X ^ M L ( z ) = m a x p(z/x)|_{x=\hat X_{ML}(z)}=max p(z/x)∣x=X^ML(z)=max
则 X ^ M L ( X ) \hat X_{ML}(X) X^ML(X)称为X的极大似然估计。
       通俗点讲，似然就是好像，既然某次测量获取了Z，那么我就认为这个Z是最优可能出现的测量值，就是z的条件概率密度最大的点，以此标准来计算X的估计。
       这个跟最小二乘法有些类似，最优指标不是考虑估值的性能，而是考虑观测值的性能。所以，一般情况下，极大似然估计的精度是不如极大验后估计的，除非不知道x的验后概率密度分布。
       比较极大似然和极大验后，极大似然其实有两个好处，第一就是通常来讲，获取量测z的概率密度要比获取x的概率密度要容易。第二就是极大似然估计不要求X是随机变量，非随机的量也能估计。

四、总结

介绍了这么多最优估计是时候总结一下了。

最小二乘估计适用于对常值向量的估计，虽然精度不高，但算法简单，所需条件少，在工程上被大量使用；
最小方差估计为所有估计中均方差最小的估计，在所有估计方法中性能最佳，但需要确定量测和被估值在量测条件下的条件均值，这件事很难。
线性最小方差估计是所有线性估计中的性能最优者，而且当被估和量测都是正态分布是，这个估计与最小方差估计等同。估计过程需要知道被估量和量测量的一阶和二阶矩。对于非平稳过程，这些矩是随时间变化的，必须知道每一时刻的值，计算量有些大。
极大似然和极大验后估计都与条件概率密度有关，除了一些特殊分布，计算都很难，用得不多。

下一篇就要正式开始介绍卡尔曼滤波了。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)