1.TF-IDF是什么?
TF-IDF :term frequency-inverse document frequency
1.tf-idf 作为一种权重经常被用作信息检索和文本挖掘领域
2.这样一种权重时通过统计计算得出的。来衡量 在一个语料库或者文本集中, 一个term 或者 word对于一个文档的重要性。(比如,有k个文档,其中一个文档d种有一个词w,衡量 w对于k中的d的重要性)
3.直观上看,tf-idf的大小与word在文档中出现频率成正比,与在语料中出现的频率成反比
4.可以用来表达一个文档,比如有k个文档,这个语料库共V个word,那么每一篇文档就由一个V维向量表达,每一维时对应word的tf-idf值。sklearn已有中有具体实现。
2.如何计算TF-IDF
3.举例
一个文档有100个word,其中cat出现了3次,那么tf(cat)=3/100=0.03.
现有我们又10,000,000个文档,其中1000个文档出现了cat,那么idf(cat)=log(10,000,000/1000)=4,那么最后cat的tf-idf权重为0.03*4=0.12
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)