文档与多个关键字的相关性

2024-01-06

Suppose D是一个文本文档,并且

K = < k1, ..., kN >

表示文档中包含的一组术语。例如:

D = "What a wonderful day, isn't it?"
K = <"wonderful","day">

我的目标是看看文件是否D谈论中的所有单词K作为一个整体。例如:

D = "The Ebola in Africa is spreading at high speed"
K = <"Ebola","Africa">

是一种情况D密切相关K, while:

D = "NEWS 1: Ebola is a dangerous disease that is causing thousands of deaths. Many governments are taking precautions to prevent its spread. NEWS 2: population in Africa is increasing."
K = <"Ebola","Africa">

是一种情况D不相关K,因为“埃博拉”和“非洲”在文件的不同点中以单独的句子提及,并且不相关。

我怎样才能综合这个“相关性”的概念D to K?是否有一些最先进的技术可以利用?

Thanks.


A 向量空间模型 http://en.wikipedia.org/wiki/Vector_space_model可能就是您正在寻找的。

您可以将 D 转换为与 K 相同的格式,即单词列表,例如。这是通过称为标记器的东西来完成的。

之后,您可以删除没有意义的无用单词,例如“and”,“the”,“it”等。要删除的单词称为停用词 http://www.ranks.nl/stopwords,存储在停止列表中。

您还应该将所有单词转换为小写(甚至大写),以便“What”和“what”不会被归类为不同的单词。

此后,文档可以表示为单词及其频率的列表(看一下倒排索引 http://en.wikipedia.org/wiki/Inverted_index).

计算余弦相似度 http://en.wikipedia.org/wiki/Vector_space_model文档 (D) 和查询 (K) 之间。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

文档与多个关键字的相关性 的相关文章

  • 有没有可以让我按图像搜索的 API?

    我有一张图片 我想搜索看看它是什么 有可用的 API 吗 我相信有不少 您想要搜索基于内容的图像检索 CBIR 维基百科有一个页面CBIR 引擎 包括广泛的开源列表 例如 isk守护进程 and LIRE都是开源 CBIR 库 isk da
  • 使用 Lucene 增强新文档

    Lucene 是否提供了增强新文档的方法 例如 假设 Lucene 文档包含一个日期字段 是否有可能在用户不改变其查询的情况下 以更高的分数呈现最新的文档 我不想诉诸粗略的 按日期排序 解决方案 因为它将完全取消评分算法 您可以看到 Luc
  • 如何从 Firefox 扩展执行页面定义的 JavaScript 函数?

    我正在创建一个 Firefox 扩展用于演示目的 我从扩展调用文档中的特定 JavaScript 函数 我在 HTML 文档中写了这个 不是在扩展内 而是由 Firefox 加载的页面 document funcToBeCalled fun
  • 如何在 IE 中的文档上触发“onload”事件

    我目前正在为 Javascript 方法开发单元测试 用于检测文档的准备情况 该代码已经处于框架级别 因此请避免提及已在 jQuery 或其他库中实现的代码 我已使用以下代码成功模拟了 readystatechange 更改事件 var e
  • 将 Mongoose 文档转换为 json

    我以这种方式将 mongoose 文档作为 json 返回 UserModel find function err users return res end JSON stringify users 但是 user proto 也被返回 没
  • PHP DomDocument 更改条件注释

    我有这个带有条件注释的 html 文件
  • 使用 GENSIM 进行 RAKE

    我正在尝试计算相似度 首先 我使用 RAKE 库从爬行的作业中提取关键字 然后我将每个作业的关键字放入单独的数组中 然后将所有这些数组组合到 documentArray 中 documentArray 愤怒 命令 自信 平易近人 适应性 真
  • 关于如何衡量IR评估的排名、AP、MAP、召回率的一些想法和方向

    我有关于如何评估信息检索结果好坏的问题 例如计算 相关文档的Rank Recall Precision AP MAP 目前 一旦用户输入查询 系统就能够从数据库中检索文档 问题是我不知道如何做评估 我得到了一些公共数据集 例如 克兰菲尔德集
  • $(window).scrollTop() 与 $(document).scrollTop()

    有什么区别 window scrollTop and document scrollTop Thanks 他们都会有一样的效果 然而 正如评论中指出的 window scrollTop 更多网络浏览器支持 than html scrollT
  • 如何在 Apache POI(java) 中读取 .docx 中的字体大小和字体名称

    这是我的代码 XWPFRun run runlist get 0 double fontsize double run getFontSize String fontfamily String run getFontFamily 当它读取
  • 如何使 Finder “打开方式”适用于我的应用程序(Xcode、OS X)?

    我创建了一个能够播放音频文件的应用程序 这本身工作得很好 从查找器拖放到我的应用程序也是如此 我还希望人们可以使用 打开方式 菜单从 Finder 中使用我的应用程序 甚至允许他们将我的应用程序设置为特定文件类型的默认应用程序 经过大量搜索
  • UIWebView - 加载带有链接资源的本地 .html 文件

    我不知道已经看了多少个论坛 但我真的不知道为什么不起作用 我有一个 iPhone 应用程序 我想向我的用户展示一本 Epub 书籍 用户可以在线阅读 也可以下载到Application Documents目录后阅读 我构建了与在线版本相同的
  • 使文档可通过 java/servlet 下载

    我需要知道java servlet中是否有一种方法可以使存储在数据库中的文档 doc pdf 可供用户按请求的方式下载 请参见下文 例如 有一个网页和其中文档的链接 现在是这样完成的 如果用户单击该链接 则会打开一个新的空白窗口 并显示下载
  • 如何将RapidJSON文档序列化为字符串?

    如何将RapidJSON文档序列化为字符串 在所有示例中 序列化文本通过以下方式重定向到标准输出 FileStream 但我需要将其重定向到字符串变量 In the 项目的第一页 http rapidjson org 代码已经展示了如何将文
  • 从头开始构建一个快速的私人文章语义MySQL搜索引擎

    我正在开展一个项目 其中涉及全文 and semantic搜索网站内的文章 如果无法合并 用户可以选择任一选项 这些文章是订阅式的 只有登录后才能搜索 因此外部搜索引擎或其 API 无法访问它们 我读过有关狮身人面像的文章 http www
  • 使用 document.getElementById 更改“id=”的值

    这是正确的方法吗 a href class btn load add a a href here a 如
  • 如何替换窗口中的文档?

    var newDoc document implementation createHTMLDocument someTitle swap newDoc with document DOMImplementation createHTMLDo
  • 维基百科文本下载

    我正在寻找为我的大学项目下载完整的维基百科文本 我是否必须编写自己的蜘蛛才能下载此内容 或者是否有在线维基百科的公共数据集 为了给你一些我的项目的概述 我想找出我感兴趣的几篇文章中有趣的单词 但是为了找到这些有趣的单词 我计划应用 tf i
  • 如何通过 git 共享 odt/doc 文档

    我的想法是我想通过 git 共享和跟踪文档 我考虑过使用可以用任何文本编辑器 不是二进制 编辑的文本文档 功能上看 起来像 docx odt 的 markdown 文档 哪里可以找到这样的东西 有更好的解决方案吗 LaTeX 非常适合将其与
  • TFIDF 计算混淆

    我在网上找到了以下计算TFIDF的代码 https github com timtrueman tf idf blob master tf idf py 我在函数 def idf word documentList 中添加了 1 这样我就不

随机推荐