我遇到了一个真正的问题。我需要对 500 万个向量进行一些 Kmeans 聚类,每个向量包含大约 32 列。
我尝试了 Mahout,它需要 Linux,而我在 Windows 上,我无法使用 Linux 操作系统和任何类型的模拟器。
谁能建议一种可扩展至 5M 向量并且可以快速收敛的 KMeans 聚类算法?
我已经测试了一些,但它们无法扩展。这意味着它们很慢并且需要很长时间才能完成。
Thanks
好的,如果想要对大规模数据集进行聚类,唯一的方法就是使用 Mahout。 IT需要Linux平台。所以我不得不使用virtual box,在上面放置Ubuntu,然后使用Mahout。设置 Mahout 的过程很长,但我使用的两个链接如下。
http://www.michael-noll.com/wiki/Running_Hadoop_On_Ubuntu_Linux_(单节点_集群)
http://www.michael-noll.com/wiki/Running_Hadoop_On_Ubuntu_Linux_(多节点_集群)
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)