使用 KNN 算法,假设 k=5。现在我尝试通过获取 5 个最近的邻居来对未知对象进行分类。如果确定 4 个最近邻居后,接下来的 2 个(或更多)最近对象具有相同的距离,该怎么办?应选择这 2 个或更多对象中的哪一个作为第 5 个最近邻居?
应选择这 2 个或更多对象中的哪一个作为第 5 个最近邻居?
这实际上取决于您想要如何实现它。
大多数算法会执行以下三件事之一:
- 包括所有等距离点,因此对于此估计,他们将使用 6 个点,而不是 5 个。
- 使用两个距离相等的“第一个”找到的点。
- 从找到的 2 个点中选择一个随机点(通常具有一致的种子,因此结果可重现)。
话虽这么说,大多数基于径向搜索的算法都有一个固有的平稳性假设,在这种情况下,选择上面的哪个选项实际上并不重要。一般来说,从理论上讲,它们中的任何一个都应该提供合理的默认值(特别是因为它们是近似值中最远的点,并且应该具有最低的有效权重)。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)