感知机:追求最大程度正确划分,最小化错误,容易造成过拟合
SVM:追求大致正确分类的同时,最大化分类间隔,一定程度上避免过拟合
1.普通感知机不能产生最大间隔,而SVM可以
2.带margin的感知机可以通过两种手段实现:
感知机公平对待每个数据(只以分队为目的):
A:
带margin的感知器:
B:
损失函数就是hinge loss,这个改进使得感知器具备了产生最大间隔的潜质,在hinge loss的平坦区,允许数据被分错,撑起一个管道,类似于SVM。
带margin的感知器有了hinge loss,但依然不能产生最大间隔:
C:
这和B式是等价的,只是将解放大了倍得到的解。
如果,得到了任意大的间隔函数
如果,就退化成了不带margin的感知机
函数间隔不是目的,集合间隔才是目的(集合间隔=函数间隔/模长)
带margin的感知器可以通过增大权向量的模长而增大函数间隔,但是几何间隔却是不变的,这显然不是我们想要的。如果我们能限制模长的增长,就有可能获得大的几何间隔。而限制模长的方法有两个:早停和正则化。
早停
[图片上传失败...(image-5fb4b8-1572837521463)]
趁着权向量还没有来得及快速增大就停止学习。
正则化
加入对权向量的L2正则化,限制模长的增长:
所以,SVM可以视为对感知器的二阶改进:第一阶改进是加入了 [图片上传失败...(image-c8ee81-1572837521462)]
获得hinge loss,从而具备了产生大间隔的潜质;第二阶改进是加入了权向量的L2正则化项,从而避免产生无意义的大函数间隔,而是产生大的几何间隔。