介绍
要理解最优解和损失函数,我们需要先弄明白什么是误差。
以简单线性回归为例,如下图所示,青色数据样本为真实值
y
y
y,直线上同一
x
x
x位置的红色样本点为预测值
y
^
\hat{y}
y^,它们之间的空间距离
r
=
∣
y
−
y
^
∣
r=|y-\hat{y}|
r=∣y−y^∣就是误差,即真实样本点与预测样本点之间的距离。那么,如果我们把直线上每一个样本点的误差相加求和,就可以得到一个模型的整体误差。
什么是最优解?
根据上面的说明,我们明白了整体误差的概念,但它只是某一个时刻的。如果我们再对图中直线进行平移或改变角度,各样本之间的距离就会发生变化,这样又可以得到新的整体误差值。
最终,经过
n
n
n次变化计算,我们能得到模型在
n
n
n个不同时刻的整体误差值。而其中整体误差值最小的时刻对应的模型,就是我们要找的“最优解”。这一时刻,也是直线拟合数据样本点效果最好的时刻。简而言之,“最优解”就是我们能找到的整体误差最小的模型。
什么是损失函数?
损失函数就是用来求解模型最优解的公式。
要求最优解,就得先定义一个Loss损失函数。对于线性回归来说,损失函数称为MSE(Mean Squared Error)平方均值误差,先求平方再求平均。其表达式为
L
o
s
s
=
M
S
E
=
1
m
∑
i
m
(
y
i
−
y
i
^
)
2
Loss=MSE=\frac{1}{m}\sum_{i}^{m}(y_i-\hat{y_i})^2
Loss=MSE=m1∑im(yi−yi^)2,
m
m
m表示总样本数,
i
i
i代表1到
m
m
m之间的任意一条样本,
(
y
i
−
y
i
^
)
2
(y_i-\hat{y_i})^2
(yi−yi^)2表示求每条样本真实值与预测值差的平方(即每个样本点误差/损失的平方),然后对所有结果进行加和,再除以样本总数
m
m
m,得到平均均值误差。