1 间隔和支持向量
对上图所示的数据集,有多个超平面可以划分。直观上来说,最中间加粗的那个超平面是最好的,因为离两类数据都比较远。“离两类数据都比较远”的好超平面指的是离超平面最近的点到超平面的距离最大。
y
i
w
x
i
∣
∣
w
∣
∣
y_i \frac {{\boldsymbol w}x_i}{||{\boldsymbol w}||}
yi∣∣w∣∣wxi表示所有数据到超平面的距离。
d
i
s
t
<
=
y
i
w
x
i
∣
∣
w
∣
∣
dist <= y_i \frac {{\boldsymbol w}x_i}{||{\boldsymbol w}||}
dist<=yi∣∣w∣∣wxi表示dist是最小距离。
m
a
x
d
i
s
t
max\ dist
max dist表示要最大化最小距离。
这样,如图所示的最优化问题的求解结果就是希望找的最优超平面。
使用拉格朗日函数法求解该最优化问题。最后可以证明对参数w和b有影响的数据都是离最优超平面最近的点,其他点不影响参数。这些最近的点称为支持向量。在实际学习过程中常使用SMO算法以加快学习速度。
2 核函数
对于非线性可分的数据,可将样本映射到更高维的空间
x
−
>
φ
(
x
)
{\boldsymbol x}->\varphi ({\boldsymbol x})
x−>φ(x),比如
x
−
>
x
2
x -> x^2
x−>x2。已经证明,当非线性可分数据特征有限时,一定存在某个高维空间使得其线性可分。问题是,我们事先并不知道该如何映射,不知道是将x映射为平方还是立方。核函数
K
(
x
1
,
x
2
)
=
φ
(
x
1
)
∗
φ
(
x
2
)
K({\boldsymbol x}_1, {\boldsymbol x}_2) = {\varphi({\boldsymbol x}_1)}*{\varphi ({\boldsymbol x}_2)}
K(x1,x2)=φ(x1)∗φ(x2)让我们不必知道具体的映射
φ
(
x
)
\varphi ({\boldsymbol x})
φ(x),只用知道映射之后内积的结果。常用核函数如下图所示。
3 软间隔和正则化
当数据含有噪声时,我们可以适当降低最大距离的要求。同时,加入惩罚项避免一味降低要求。和之间避免过拟合加入正则项类似。
4 参考文献
周志华 机器学习 清华大学出版社
谢文睿、秦州 机器学习公式详解 人民邮电出版社
李航 统计学习方法第二版 清华大学出版社
部分图片和文字源自网络和书本,如有侵权联系删除