一些参考:
维基百科线性分类器 and
支持向量机 (SVM),
scikit-learn SVM,
一个有 3 个类的例子,
关于 SO 的问题/标记/分类,
3000多stats.stackexchange 上的问题/标记/分类,
400多个关于数据科学.stack 交换的问题/标记/分类 .
对于您的二类问题,请执行以下步骤:
找到红点的中点 Rmid、黑点的 Bmid、地段的中点
从 Rmid 到 Bmid 画线 L
穿过 Mid 且垂直于线 L 的(超)平面就是您想要的:线性分类器。
或者您可以只比较距离 |x - Rmid|和 |x - Bmid|:
将x 靠近Rmid 称为红色,靠近Bmid 称为黑色。
但还有更多要说的。
将所有数据点投影到直线 L 上给出一个一维问题:
rrrrrrrrrrbrrrrrrrrbbrrr | rrbbbbbbbbbbbbbbb
绘制这条线上的所有点是个好主意,
到see并更好地理解数据。
(对于 5 或 10 维的点云,这可能很有趣和/或信息丰富
从不同角度查看 2d 或 3d 切片。)
每切一个“|”上面给出了一个由 4 个数字组成的“混淆矩阵”:
R-correct R-called-B e.g. 490 10
B-called-R B-correct 50 450
这可以粗略地了解红色/黑色预测的错误率;打印出来,讨论一下。
最佳切割取决于成本,
例如如果称 R 为 B 比称 B 为 R 更糟糕 10 倍或 100 倍。
如果红点和黑点具有不同的散布/协方差,请参见Fisher 线性判别式 .
(“SVM”是一类“良好”分离超平面/超曲面方法的行话——
没有“机器”。)