我已经成功评估了tf-idf 函数 http://en.wikipedia.org/wiki/Tf-idf对于给定的语料库。如何找到每个文档的停用词和最佳词?据我所知,给定单词和文档的 tf-idf 较低意味着它不是选择该文档的好单词。
停用词是那些在文档中非常常见的词,因此失去了代表性。观察这一情况的最佳方法是测量某个术语出现的文档数量,并过滤出现在其中超过 50% 的文档数量,或者前 500 个或您必须调整的某种类型的阈值。
文档中最好的(更具代表性的)术语是那些具有较高 tf-idf 的术语,因为这些术语在文档中很常见,而在集合中很少见。
快速说明一下,正如 @Kevin 指出的那样,集合中非常常见的术语(即停用词)无论如何都会产生非常低的 tf-idf。但是,它们会改变一些计算,如果您假设它们是纯噪声(根据任务的不同,这可能不正确),那么这将是错误的。此外,如果包含它们,您的算法会稍微慢一些。
编辑:
正如 @FelipeHammel 所说,您可以直接使用 IDF (记住反转顺序)作为与 df (成反比)成比例的度量。这对于排名目的来说是完全等价的,因此选择前“k”个术语。然而,不可能使用它来基于比率进行选择(例如,出现在超过 50% 的文档中的单词),尽管简单的阈值处理可以解决这个问题(即选择 idf 低于特定值的术语) 。一般来说,使用固定数量的术语。
我希望这有帮助。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)