线性代数 --- 最小二乘在直线拟合上的应用与Gram-Schmidt正交化（上）

2023-10-26

最小二乘在直线拟合上的应用

在前一篇最小二乘的文章中：

线性代数 --- 投影与最小二乘下(多元方程组的最小二乘解与向量在多维子空间上的投影)_松下J27的博客-CSDN博客多变量方程组的最小二乘，向量到多维子空间上的投影。https://blog.csdn.net/daduzimama/article/details/129559433?spm=1001.2014.3001.5501

我们知道了：1，正规方程， 2，计算最优解的方法，3，计算投影的方法

在这篇文章中，我会从最小二乘在拟合直线上的应用开始，先是用实例来说明最小二乘的实际应用。紧接着，我会从这个例子出发，循序渐进的引出为什么我们希望A的列向量不仅仅是相互独立的，更希望他们是相互正交的。从而导出，如何令A的列向量彼此正交，这就是著名的Gram-Schmidt正交化。（需要再次重申的是，学习不是为了考试，不是为了背公式，更不需要题海战术，而是“知其(Gram-Schmidt)然，知其(Gram-Schmidt)所以然”）

拟合直线

拟合直线可以说是最小二乘最好的应用之一。简而言之，就是用m>2个点(也可以说是m个观测点，及其所对应的m个数据)去拟合一条直线。

对某个实验而言，如果他的实验结果是线性的，且没有任何实验误差，则两次实验的结果就能确定一条符合这一实验规律的直线b=C+Dt，而且后续所有的实验结果都应当落在这条直线上。假定现有m个实验结果，他们在横坐标上的值为 $t_{1}$ , $t_{2}$ ,..., $t_{m}$ ，他们在纵坐标中所对应的值分别是 $b_{1}$ , $b_{2}$ ,..., $b_{m}$ 。现在我们用方程 $b_{i}$ =C+D $t_{i}$ 表示一条穿过这些点的直线，得到如下方程组：

如果m个实验结果都没有误差，则，上述方程组有解，且有唯一解C,D。但，如果实验结果有误差，则不可能找到一个完美的C,D，让这条直线穿过所有的点。这是一个(overdetermined system)超定方程组，m>2个方程，2个未知数，方程组无解。用矩阵来表示为：

因实验结果的误差导致方程组无解，因此，我们只能找一条尽可能贴近所有点的直线。对于矩阵A而言，他有两个列向量，方程组无解，所以无法通过线性组合得到等式右端的列向量。在维持A的两个列向量不变的情况下，我们通过新的线性组合 $\hat{C}$ ， $\hat{D}$ ，在A的列空间中找到了最接近向量b的向量p，即，b在A的列空间C(A)上的投影。

同时，也最小化了每个点与直线之间的纵向误差 $e_{i}$ ，即，最小化 $E={e_{1}}^{2}+{e_{2}}^{2}+...+{e_{m}}^{2}$ 。其中， $e_{i}=b_{i}-C-Dt_{i}$ 。（但这不是我推崇的思维，应该优先考虑用投影的角度思考！）

方程左右两边同时乘以 $A^{T}$ ，得到“正规方程(Normal Equation)”：

$A^{T}A\hat{x}=A^{T}b$ (或 $A^{T}A\hat{x}=Pb$ ,其中P为投影矩阵)

其中等式左边 $A^{T}A$ 等于：

等式右边 $A^{T}b$ 等于：

最终得到 $A^{T}A\hat{x}=A^{T}b$ ：

Example 1:

如图（a），在一个实验中的不同时刻t1,t2,t3下，得到三组测量值b1,b3,b3，分别是(注意，他们并不是等间隔的)：

对应的方程组为：

方程组无解，因为这三点不在一条直线上。通过求解最小二乘方程组，联立正规方程 $A^{T}A\hat{x}=A^{T}b$ 。

$\large A=\begin{bmatrix} 1 &-1 \\ 1 &1 \\ 1 &2 \end{bmatrix}$ $\large \hat{x}=\begin{bmatrix} \hat{C}\\ \hat{D} \end{bmatrix}$ $\large b=\begin{bmatrix} 1\\ 1\\ 3 \end{bmatrix}$

左边 $A^{T}A$ ：

$\large \mathbf{A^{T}A=\begin{bmatrix} 1 & 1 &1 \\ -1& 1 & 2 \end{bmatrix} \begin{bmatrix} 1 &-1 \\ 1 &1 \\ 1 &2 \end{bmatrix} = \begin{bmatrix} 3 & 2\\ 2 & 6 \end{bmatrix}}$

右边 $A^{T}b$ ：

$\large A^{T}b=\begin{bmatrix} 1 &1 &1 \\ -1&1 & 2 \end{bmatrix}\begin{bmatrix} 1\\ 1\\ 3 \end{bmatrix} = \begin{bmatrix} 5\\ 6 \end{bmatrix}$

得到：

最终得到最优解为， $\hat{C}=9/7$ , $\hat{D}=4/7$ 。

$\large \hat{x}=(A^{T}A)^{-1}A^{T}b=\begin{bmatrix} 6 &-2 \\ -2& 3 \end{bmatrix} \begin{bmatrix} 5 \\ 6 \end{bmatrix} = \begin{bmatrix} 9/7\\ 4/7 \end{bmatrix}$

对应的最佳拟合直线为：

$\large f(x)=9/7+4/7t$

投影p为：

$\large p=A(A^{T}A)^{-1}A^{T}b=A\hat{x}=\begin{bmatrix} 1 & -1\\ 1 & 1\\ 1 & 2 \end{bmatrix}\begin{bmatrix} 9/7\\ 4/7 \end{bmatrix}=\begin{bmatrix} 5/7\\ 13/7\\ 17/7 \end{bmatrix}$

现在我们结合下图（b），从投影的角度来回顾一下这个问题。向量b无法通过矩阵A的两个列向量[1,1,1]和[-1，1,2]通过线性组合得到，因为，b不在A的列空间内。通过把向量b投影到A的列空间上，在A的列空间上找到了一个离向量b最近的向量p，这个投影向量p可以通过A的两个列向量的线性组合得到，线性组合的权重为 $\hat{C}=9/7$ , $\hat{D}=4/7$ 。

Attention:

现在，我们已经得到了最优拟合的直线方程f(t)=9/7+4/7t，我们把t=(-1, 1, 2)时在直线上所对应的点求出来，看看有什么神奇的事发生！

当t=-1时，f(t=-1)=9/7-4/7=5/7，当t=1时，f(t=1)=9/7+4/7=13/7，当t=2时，f(t=2)=9/7+8/7=17/7。然后把这些点绘制到图（a）上，并且把图（a）和图（b）放在一起看。

接下来我们会看到，这两幅图以不同的艺术形式描述了同一个数学问题, 且, 他们是密切相关的！

关联1：投影向量p

最开始，我们在图（a）中，描绘了三个不在同一直线上的数据点(t1=-1,b1=1),(t2=1,b2=1),(t3=2,b3=3)。然后，我们用投影的方式/求解正规方程的方式求得了最小二乘解 $\large \hat{x}$ ，同时也求出了向量b在A的列空间C(A)上的投影向量p=[5/7, 13/7, 17/7]，这些都体现在了图（b）中。最后，我们根据最优拟合直线的函数，算出了t=(t1,t2,t3)时在直线上所对应的数据点(t1=-1,p1=5/7),(t2=1,p2=13/7),(t3=2,p3=17/7)，并绘制到图（a）中。

可见，投影向量p中三个元素的值，正好是拟合直线上t所对应的点。对于图（b）而言，用线性代数的语言说，是把b拉到了子空间C(A)上。对于图（a）而言，通过最小化每个点到最优拟合直线上的距离e1,e2,e3，把本不在同一直线上的三个点b1,b2,b3拉到了同一条直线上。且p1,p2,p3正好等于投影向量p中元素的值。

换句话说，“把b投影到A的列空间上”和“把三个原始数据点(t1,b1),(t2,b2),(t3,b3)移到了同一条直线上”，这两个概念是等同的。

关联2：误差向量e

向量b减去投影向量p，就能得到误差向量e(他垂直于C(A))：

$\large e=b-p=\begin{bmatrix} 1\\ 1\\ 3 \end{bmatrix} - \begin{bmatrix} 5/7\\ 13/7\\ 17/7 \end{bmatrix} = \begin{bmatrix} 2/7\\ -6/7\\ 4/7 \end{bmatrix}$

向量e中的每个元素值的含义是什么? 实际上就是图（a）中，每个b与p之间的误差。

（全文完）

作者 --- 松下J27

参考文献(鸣谢)：

1，线性代数及其应用，侯自新，南开大学出版社，1990.

2，Linear Algebra and Its Applications(Fourth Edition) - Gilbert Strang（文中大部分插图来自于这本书）

3，Introduction to Linear Algebra，Fifth Edition - Gilbert Strang

格言摘抄：

（配图与本文无关）

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)