Suppose D
是一个文本文档,并且
K = < k1, ..., kN >
表示文档中包含的一组术语。例如:
D = "What a wonderful day, isn't it?"
K = <"wonderful","day">
我的目标是看看文件是否D
谈论中的所有单词K
作为一个整体。例如:
D = "The Ebola in Africa is spreading at high speed"
K = <"Ebola","Africa">
是一种情况D
密切相关K
, while:
D = "NEWS 1: Ebola is a dangerous disease that is causing thousands of deaths. Many governments are taking precautions to prevent its spread. NEWS 2: population in Africa is increasing."
K = <"Ebola","Africa">
是一种情况D
不相关K
,因为“埃博拉”和“非洲”在文件的不同点中以单独的句子提及,并且不相关。
我怎样才能综合这个“相关性”的概念D
to K
?是否有一些最先进的技术可以利用?
Thanks.
A 向量空间模型 http://en.wikipedia.org/wiki/Vector_space_model可能就是您正在寻找的。
您可以将 D 转换为与 K 相同的格式,即单词列表,例如。这是通过称为标记器的东西来完成的。
之后,您可以删除没有意义的无用单词,例如“and”,“the”,“it”等。要删除的单词称为停用词 http://www.ranks.nl/stopwords,存储在停止列表中。
您还应该将所有单词转换为小写(甚至大写),以便“What”和“what”不会被归类为不同的单词。
此后,文档可以表示为单词及其频率的列表(看一下倒排索引 http://en.wikipedia.org/wiki/Inverted_index).
计算余弦相似度 http://en.wikipedia.org/wiki/Vector_space_model文档 (D) 和查询 (K) 之间。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)