我有一个训练集,我想使用分类方法根据我的训练集对其他文档进行分类。我的文档类型是新闻,类别是体育、政治、经济等。
我完全理解朴素贝叶斯和KNN,但是SVM和决策树很模糊,我不知道我是否可以自己实现这个方法?或者有使用这种方法的应用程序吗?
我可以用这种方式对文档进行分类的最佳方法是什么?
thanks!
虽然这是最简单的算法,并且一切都被认为是独立的,但在实际文本分类情况下,这种方法效果很好。我肯定会首先尝试这个算法。
KNN 用于聚类而不是分类。我认为您误解了聚类和分类的概念。
SVM有SVC(分类)和SVR(回归)算法来进行类别分类和预测。它有时效果很好,但根据我的经验,它在文本分类方面表现不佳,因为它对良好的分词器(过滤器)有很高的要求。但数据集的字典总是有脏标记。准确率确实很差。
我从未尝试过这种文本分类方法。因为我认为决策树需要几个关键节点,而很难找到用于文本分类的“几个关键标记”,而随机森林对于高稀疏维度效果不佳。
FYI
这些都是我的经验,但对于您的情况,您没有更好的方法来决定使用哪种方法,只能尝试每种算法来适合您的模型。
Apache 的 Mahout 是机器学习算法的一个很好的工具。它集成了推荐、聚类、分类三个方面的算法。你可以试试这个库。但是你必须学习一些关于Hadoop的基础知识。
而对于机器学习,weka是一个集成了多种算法的体验软件工具包。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)