文档与多个关键字的相关性

2024-01-06

Suppose D是一个文本文档，并且

K = < k1, ..., kN >

表示文档中包含的一组术语。例如：

D = "What a wonderful day, isn't it?"
K = <"wonderful","day">

我的目标是看看文件是否D谈论中的所有单词K作为一个整体。例如：

D = "The Ebola in Africa is spreading at high speed"
K = <"Ebola","Africa">

是一种情况D密切相关K, while:

D = "NEWS 1: Ebola is a dangerous disease that is causing thousands of deaths. Many governments are taking precautions to prevent its spread. NEWS 2: population in Africa is increasing."
K = <"Ebola","Africa">

是一种情况D不相关K，因为“埃博拉”和“非洲”在文件的不同点中以单独的句子提及，并且不相关。

我怎样才能综合这个“相关性”的概念D to K？是否有一些最先进的技术可以利用？

Thanks.

A 向量空间模型 http://en.wikipedia.org/wiki/Vector_space_model可能就是您正在寻找的。

您可以将 D 转换为与 K 相同的格式，即单词列表，例如。这是通过称为标记器的东西来完成的。

之后，您可以删除没有意义的无用单词，例如“and”，“the”，“it”等。要删除的单词称为停用词 http://www.ranks.nl/stopwords，存储在停止列表中。

您还应该将所有单词转换为小写（甚至大写），以便“What”和“what”不会被归类为不同的单词。

此后，文档可以表示为单词及其频率的列表（看一下倒排索引 http://en.wikipedia.org/wiki/Inverted_index).

计算余弦相似度 http://en.wikipedia.org/wiki/Vector_space_model文档 (D) 和查询 (K) 之间。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Document

informationretrieval

keywordsearch

文档与多个关键字的相关性的相关文章

有没有可以让我按图像搜索的 API？

我有一张图片我想搜索看看它是什么有可用的 API 吗我相信有不少您想要搜索基于内容的图像检索 CBIR 维基百科有一个页面CBIR 引擎包括广泛的开源列表例如 isk守护进程 and LIRE都是开源 CBIR 库 isk da
使用 Lucene 增强新文档

Lucene 是否提供了增强新文档的方法例如假设 Lucene 文档包含一个日期字段是否有可能在用户不改变其查询的情况下以更高的分数呈现最新的文档我不想诉诸粗略的按日期排序解决方案因为它将完全取消评分算法您可以看到 Luc
如何从 Firefox 扩展执行页面定义的 JavaScript 函数？

我正在创建一个 Firefox 扩展用于演示目的我从扩展调用文档中的特定 JavaScript 函数我在 HTML 文档中写了这个不是在扩展内而是由 Firefox 加载的页面 document funcToBeCalled fun
如何在 IE 中的文档上触发“onload”事件

我目前正在为 Javascript 方法开发单元测试用于检测文档的准备情况该代码已经处于框架级别因此请避免提及已在 jQuery 或其他库中实现的代码我已使用以下代码成功模拟了 readystatechange 更改事件 var e
将 Mongoose 文档转换为 json

我以这种方式将 mongoose 文档作为 json 返回 UserModel find function err users return res end JSON stringify users 但是 user proto 也被返回没
PHP DomDocument 更改条件注释

我有这个带有条件注释的 html 文件
使用 GENSIM 进行 RAKE

我正在尝试计算相似度首先我使用 RAKE 库从爬行的作业中提取关键字然后我将每个作业的关键字放入单独的数组中然后将所有这些数组组合到 documentArray 中 documentArray 愤怒命令自信平易近人适应性真
关于如何衡量IR评估的排名、AP、MAP、召回率的一些想法和方向

我有关于如何评估信息检索结果好坏的问题例如计算相关文档的Rank Recall Precision AP MAP 目前一旦用户输入查询系统就能够从数据库中检索文档问题是我不知道如何做评估我得到了一些公共数据集例如克兰菲尔德集
$(window).scrollTop() 与 $(document).scrollTop()

有什么区别 window scrollTop and document scrollTop Thanks 他们都会有一样的效果然而正如评论中指出的 window scrollTop 更多网络浏览器支持 than html scrollT
如何在 Apache POI(java) 中读取 .docx 中的字体大小和字体名称

这是我的代码 XWPFRun run runlist get 0 double fontsize double run getFontSize String fontfamily String run getFontFamily 当它读取
如何使 Finder “打开方式”适用于我的应用程序（Xcode、OS X）？

我创建了一个能够播放音频文件的应用程序这本身工作得很好从查找器拖放到我的应用程序也是如此我还希望人们可以使用打开方式菜单从 Finder 中使用我的应用程序甚至允许他们将我的应用程序设置为特定文件类型的默认应用程序经过大量搜索
UIWebView - 加载带有链接资源的本地 .html 文件

我不知道已经看了多少个论坛但我真的不知道为什么不起作用我有一个 iPhone 应用程序我想向我的用户展示一本 Epub 书籍用户可以在线阅读也可以下载到Application Documents目录后阅读我构建了与在线版本相同的
使文档可通过 java/servlet 下载

我需要知道java servlet中是否有一种方法可以使存储在数据库中的文档 doc pdf 可供用户按请求的方式下载请参见下文例如有一个网页和其中文档的链接现在是这样完成的如果用户单击该链接则会打开一个新的空白窗口并显示下载
如何将RapidJSON文档序列化为字符串？

如何将RapidJSON文档序列化为字符串在所有示例中序列化文本通过以下方式重定向到标准输出 FileStream 但我需要将其重定向到字符串变量 In the 项目的第一页 http rapidjson org 代码已经展示了如何将文
从头开始构建一个快速的私人文章语义MySQL搜索引擎

我正在开展一个项目其中涉及全文 and semantic搜索网站内的文章如果无法合并用户可以选择任一选项这些文章是订阅式的只有登录后才能搜索因此外部搜索引擎或其 API 无法访问它们我读过有关狮身人面像的文章 http www
使用 document.getElementById 更改“id=”的值

这是正确的方法吗 a href class btn load add a a href here a 如
如何替换窗口中的文档？

var newDoc document implementation createHTMLDocument someTitle swap newDoc with document DOMImplementation createHTMLDo
维基百科文本下载

我正在寻找为我的大学项目下载完整的维基百科文本我是否必须编写自己的蜘蛛才能下载此内容或者是否有在线维基百科的公共数据集为了给你一些我的项目的概述我想找出我感兴趣的几篇文章中有趣的单词但是为了找到这些有趣的单词我计划应用 tf i
如何通过 git 共享 odt/doc 文档

我的想法是我想通过 git 共享和跟踪文档我考虑过使用可以用任何文本编辑器不是二进制编辑的文本文档功能上看起来像 docx odt 的 markdown 文档哪里可以找到这样的东西有更好的解决方案吗 LaTeX 非常适合将其与
TFIDF 计算混淆

我在网上找到了以下计算TFIDF的代码 https github com timtrueman tf idf blob master tf idf py 我在函数 def idf word documentList 中添加了 1 这样我就不

随机推荐

限制域类中的字符串长度

我有一个持久性无知的域模型它使用抽象存储库来加载域对象我的存储库数据访问层 DAL 的具体实现使用实体框架从 SQL Server 数据库获取数据数据库的许多 varchar 列都有长度限制现在假设我有以下域类 public cl
为什么程序有时会“跳过”printfs？

我有以下代码 if strcmp ent child gt d name eeprom printf tread from driver found a match DEBUG get child path child path child
当值包含美元符号时，如何按属性值选择元素？

我有以下 HTML 元素
Python - 仅对列表中的某些元素进行洗牌

我试图仅将列表中的元素从第三个位置打乱到最后一个位置以便前两个元素始终保持在原位例如 list a b c d e into list a b d e c 由于某种原因这不起作用 list a b c d e import rando
如何创建二维码应用程序？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案您能解释一下 QR 码实际上是如何创建的以及如何跟踪它们吗生成的代码存储在数据库中我实际上对二维码阅读器应用程序的工作原理感到困惑
滚动子 div 会滚动窗口，我该如何阻止它？

我有一个带有滚动条的 div 当它到达末尾时我的页面开始滚动我有办法阻止这种行为吗您可以通过执行以下操作来禁用整个页面的滚动 div div
Python Turtle：旋转自定义光标图像

我们班上正在尝试坦克游戏我可以加载坦克图像但图像不会旋转我进行了搜索但找不到解决方案或者简单的解决方案如果存在的话这是我到目前为止所拥有的非常基本我希望有一个简单的解决方案来旋转图像以左右转 import turtle
create-react-app 无法在 Windows 10 中创建新的 React 应用程序

I have Create react app version 1 4 3安装当我尝试创建新的 App 时我在命令提示符中收到以下消息请帮助我找到并解决问题 C Users GSI KOL Desktop server gt crea
在 WinForms RichTextBox 中重置 RTF 格式而不丢弃其文本？

我正在尝试重置 RichTextBox WinForms 而不是 WPF 中的格式我以前使用过 richTextBox Text richTextBox Text 然而这似乎突然让我失望了现在无论我设置什么richTextBox T
Objective-C/cocoa相当于Python的os.path.split()获取目录名和文件名

当我有路径时我可以在Python中使用os path split 来获取目录名和文件名 gt gt gt x a b c hello txt gt gt gt import os path gt gt gt os path split x
如何通过ID获取json数组中的数据

我有一个问题你可以帮助我吗我有一个 json 数组 category id 1 product id product 1 type ball id 2 product id product 2 type pen 我的问题是如果我有一个
事件驱动的 CMS - 优点和缺点

我正在尝试确定事件驱动的 CMS 的一些优点和缺点事件驱动并不罕见您可以在许多涉及客户端的脚本语言中看到它例如 Actionscript javascript jquery 在事件及其响应发生在服务器上的 CMS 中怎么样这种方法有
Visual Studio 使用什么来确定构建是否是最新的？

我编写了一个 VS 插件它拦截 Visual Studio 的构建命令并使用另一个构建系统来进行构建我的构建以正确的格式显示错误以便您可以在 VS 中单击它们但要实现完全无缝集成剩下的一步是防止 VS 的运行或调试命令抱怨
如何绘制 lmer 模型结果的预测值和标准误差？

我对四个位置和四个基质取自每个位置进行了移植实验我已经确定了每个种群在每个位置和基质组合中的存活率该实验重复三次我创建了一个lmm 如下所示 Survival model lt lmer Survival Location Sub
“new Image()”和“new Option()”等构造函数的记录在哪里？

不是在 Mozilla 而是 for image 谢谢Rickard https stackoverflow com users 600633 rickard用于识别 http www w3 org html wg drafts html
iOS 8 iPhone 模拟器应用程序大小不正确

我决定从头开始重写我的一个应用程序以清理代码并可能针对 iOS 8 进行优化但是当我在 iPhone 模拟器中运行新版本时分辨率似乎不正确应用程序的顶部和底部边缘周围有信箱但旧版本即使在同一个 Xcode 6 模拟器上运行也没有即
如何更改 android 小部件选择对话框中显示的图像？

如何更改渲染 Specify the android previewImage属性 http developer android com guide topics appwidgets index html preview在您的应用程序小部
pair 对作为 unordered_map 问题的键

My code typedef pair
如何在iOS中计算地理边界框？

我想在 iOS 中进行地理边界框计算它可以是大约输入参数当前位置示例 41 145495 73 994901 半径米示例 2000 所需输出敏龙示例 41 9995495 最小纬度示例 74 004901 MaxLong
文档与多个关键字的相关性

Suppose D是一个文本文档并且 K lt k1 kN gt 表示文档中包含的一组术语例如 D What a wonderful day isn t it K lt wonderful day gt 我的目标是看看文件是否D谈论中的

文档与多个关键字的相关性

文档与多个关键字的相关性 的相关文章

随机推荐

热门标签

文档与多个关键字的相关性的相关文章