我需要根据不同介词的分布找到自然出现的名词类别(如施事、工具、时间、地点等)。我尝试使用 k-means 聚类,但帮助较少,效果不佳,我正在寻找的类有很多重叠(可能是因为类的非球状形状和 k-means 中的随机初始化) )。
我现在正在使用 DBSCAN,但我无法理解此聚类算法中的 epsilon 值和小点值。我可以使用随机值还是需要计算它们?有人可以帮忙吗?特别是对于 epsilon,至少如果我需要的话如何计算它?
用你的领域知识选择参数。 Epsilon 是半径。您可以将其视为最小簇大小。
显然随机值不会很好地工作。作为启发式方法,您可以尝试查看 k 距离图;但它也不是自动的。
无论哪种方式,首先要做的就是选择一个好的距离函数为了您的数据。并进行适当的标准化。
至于“minPts”,它再次取决于您的数据和needs。一个用户可能想要与另一个用户截然不同的值。当然,minPts 和 Epsilon 是耦合的。如果将 epsilon 加倍,则大致需要将 minPts 增加 2^d(对于欧几里得距离,因为这就是超球面体积增加的方式!)
如果您想要大量小而精细的簇,请选择较低的 minpts。如果您想要更大和更少的簇(以及更多的噪声),请使用更大的 minpts。如果您根本不需要任何集群,请选择大于您的数据集大小的 minpts...
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)