以同样的方式处理由空格分隔的单词

2024-01-01

我试图找到同时出现在多个文档中的单词。

让我们举个例子。

doc1: "this is a document about milkyway"
doc2: "milky way is huge"

正如您在上面两个文档中看到的，单词“milkyway”在两个文档中都出现，但在第二个文档中术语“milkyway”由空格分隔，而在第一个文档中则不是。

我正在执行以下操作来获取 R 中的文档术语矩阵。

library(tm)
tmp.text <- data.frame(rbind(doc1, doc2))
tmp.corpus <- Corpus(DataframeSource(tmp.text))
tmpDTM <- TermDocumentMatrix(tmp.corpus, control = list(tolower = T, removeNumbers = T, removePunctuation = TRUE,stopwords = TRUE,wordLengths = c(2, Inf)))
tmp.df <- as.data.frame(as.matrix(tmpDTM))
tmp.df

         1 2
document 1 0
huge     0 1
milky    0 1
milkyway 1 0
way      0 1

Term milkyway根据上述矩阵仅出现在第一个文档中。

我希望能够在上述矩阵中的术语“milkyway”的两个文档中都得到 1。这只是一个例子。我需要对很多文档执行此操作。最终我希望能够以类似的方式对待这些词（“milkyway”和“milky way”）。

EDIT 1:

我是否可以强制术语文档矩阵以这样的方式进行计算：对于它试图查找的任何单词，它不应该只将该单词作为字符串中的单独单词查找，而且还要在字符串中查找该单词？例如，一个术语是milky并且有一个文件this is milkyway所以目前在这里milky不会出现在本文档中，但如果算法在字符串中查找相关单词，它也会找到该单词milky在字符串内milkyway, 这样的话milky and way将计入我的两个文档中（前面的示例）。

EDIT 2:

最终我希望能够计算文档之间的相似度余弦索引。

您需要将文档转换为一包原始词之前的代表。其中一个原始词与一组单词匹配。原始词也可以在语料库中。

例如：

milkyway -> {milky, milky way, milkyway} 
economy -> {economics, economy}
sport -> {soccer, football, basket ball, basket, NFL, NBA}

您可以在使用同义词词典和像 levenstein 这样的编辑距离计算余弦距离之前构建这样的词典，这将完成同义词词典。

计算“运动”键更加复杂。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

以同样的方式处理由空格分隔的单词的相关文章

rmarkdown 中的内部链接不起作用

我使用 rmarkdown 来渲染 pdf 文档现在我想在文本中添加内部链接在帮助页面中降价 http rmarkdown rstudio com authoring pandoc markdown html links 它说内部链接定
r : 直方图上的 ECDF

在 R 中与ecdf我可以绘制经验累积分布函数 plot ecdf mydata 与hist我可以绘制数据的直方图 hist mydata 如何在同一图中绘制直方图和 ecdf EDIT 我尝试做类似的东西 https mathemati
闪亮的演示文稿 (ioslides)：自定义 CSS 和徽标

我安装了以下内容 RStudio 预览版版本 0 98 864 2014 年 5 月 24 日 knitr 和shiny 的开发版本来自 devtools install github c yihui knitr rstudio shi
Shiny 中的模态对话框：可以调整宽度但不能调整高度

在我的 Shiny 应用程序中我有几个来自闪亮BS 包的模式窗口我可以像这样调整这些模式窗口的宽度 tags head tags style HTML modal lg width 1200px abs 1 background col
返回带有参数的函数的函数

创建一个应返回包含原始函数参数的函数时我应该如何处理例如考虑这个函数 a lt function value function x x value 我希望它返回我在结果函数的参数中指定的值如下所示 b lt a 3 gt b gt f
尽管提供了群落矩阵，纯素食 DBRDA 物种得分为空

我使用纯素社区生态包在 R 中执行了基于距离的冗余分析 dbRDA 我想在 dbRDA 结果的排序图中显示鱼类营养群体对样本之间差异营养级鱼类组合的丰度数据的相对贡献 IE 将箭头和营养级组名称叠加到排序图上其中箭头线的长度表示
profvis() 何时以及为何显示“源不可用”？

我经常分析 R 代码并大量使用 profvis 对于某些函数浏览器窗口的上半部分会显示源代码有时则不会我不知道什么时候会出现这种情况对我来说这似乎是随机的有谁知道 profvis 何时以及为什么无法在顶部窗口中显示代码发生这种
如何从 data.frame 中选择行和列的子集

我有这个 d d Age gt 2 它返回 Age 超过 2 的所有行但我只想返回几列中的值例如 d X 和 d Y 而不是全部无论如何我可以做到这一点吗 Thanks d d Age gt 2 c X Y
ggplot 中跨组的连续线

我有一个数据时间序列其中观察了一些数据模拟了一些数据我想生成整个数据系列随时间变化的图其中颜色表示数据源但是我只能弄清楚如何使 ggplot 中的 geom line 连接同一组中的点这是一个例子来说明 Create samp
按绝对值排序

有谁知道如何按绝对值对 R 中的向量进行排序所以 2 3 1 gt 1 2 3 etc 如果我在 python 中这样做我会创建一对每个值及其符号按绝对值对对列表进行排序然后重新应用符号但我对 R 很陌生所以不知道如何执行此操作
R 条形图中的 X 轴

我想问一个关于 barplot 轴的问题首先请看我的数据 SerNo DOY Rain 1 350 0 2 351 0 3 352 0 4 353 0 5 354 0 6 355 0 7 356 0 8 357 0 9 358 0 10
如何在 R 地图库中绘制正确的颜色

我正在尝试使用 R 地图库为特定国家绘制特定颜色我可以填写颜色但它们与各自的国家地区没有正确关联我想知道是否有人能知道为什么我的数据框是 filld 有 3 列第一列是国家名称第二列只是一些数字数据第三列是颜色 countr
带有嵌套分组变量的多行轴标签，用于 - R 中的堆积条形图

我想使用 ggplot 制作一个包含多个类别的堆叠条形图并带有嵌套的标记 X 轴类似于我使用 Excel 制作的条形图如此处所示我尝试使用给出的例子here https stackoverflow com questions 181
R中有字典功能吗

有没有办法在 R 中创建一个字典使其具有对一些效果 x dictionary c Hi Why water c 1 5 4 x Why 5 我问这个是因为我实际上正在寻找两个分类变量函数所以如果 x dictionary c a b
当子集长度为零时，如何简洁地处理子集？

从向量中排除元素x x lt c 1 4 3 2 我们可以减去位置向量 excl lt c 2 3 x excl 1 1 2 这也是动态工作的 excl lt which x which max x gt quantile x 25 1 2
R 中带有边缘箱线图的直方图

如何使直方图中的 X 轴与边缘箱线图匹配 data lt rnorm 1000 nf lt layout mat matrix c 1 2 2 1 byrow TRUE height c 1 3 layout show nf par mar
如何优化 R 中的 sapply 来计算数据帧上的运行总计

我在 R 中编写了一个函数来按月份计算累积总数但随着数据集变大我的方法的执行时间呈指数增长我是一名 R 程序员新手你能帮我提高效率吗该函数以及我调用该函数的方式 accumulate lt function recordnum d
在 Linux 下更改 RStudio 用户界面（不是图形等）中的字体大小

This is not关于更改使用 RStudio 生成的图表中的字体大小的问题我已经知道该怎么做了我在配备视网膜显示屏的 MacBook Pro 上的 Linux 下使用 RStudio 我使用 KDE 作为我的窗口管理器我可以
for 循环与 cor.test 在许多类别上

我正在尝试在 R 中编写一个循环它将循环遍历 3 个不同的物种以计算两个连续变量 Redness 和 VarNormAbund 之间的相关性我的循环正在运行但 3 个物种中每一个的输出都是相同的这让我认为循环卡在第一个物种上 co
使用插入符和方法 = gamLoess 进行训练时 R 崩溃

当我运行下面的代码时 R 崩溃了如果我在训练调用中注释掉tuneGrid行就不会发生崩溃我已经用另一个数据集尝试过此操作但仍然使 R 崩溃崩溃消息是 R 会话中止 R遇到致命错误会话被终止开始新会话代码是 library s

随机推荐

为什么 Applicative 应该是 Monad 的超类？

Given Applicative m Monad m gt mf m a gt b ma m a 这似乎被认为是一项法律 mf lt gt ma do f lt mf a lt ma return f a 或者更简洁地说 lt gt ap
获取鼠标相对于饼图的位置（方程）

我已经从一组数据创建了一个画布饼图我现在尝试定位相对于饼图的鼠标位置以检测正在悬停的数据部分我快到了但我被一个方程式困住了我的逻辑运行良好所以我认为这更像是一个数学问题但会看看其他人对我的方法的看法这是我的饼图和我正在使用的
Maven `pom.xml` 中和标签之间的区别[重复]

这个问题在这里已经有答案了配置我的时pom xml 我必须配置一个插件我发现的是
为什么这个特征中需要“Sized”界限？

我有一个具有两个相关功能的特征 trait WithConstructor Sized fn new with param param usize gt Self fn new gt Self Self new with param 0 为
laravel重置密码不重置密码

我正在使用 laravel 6 我第一次尝试为我的 laravel 项目实现忘记密码我自定义了登录忘记密码重置密码页面的默认设计我已经集成了mailtrap用于发送电子邮件我已经成功地实现了这样的流程单击忘记密码链接获取用户输
无论操作系统如何，在 Java 中执行计划任务的最佳解决方案是什么？

我想在我的 Java 桌面应用程序上生成警报设置特定日期时间的警报可以是 5 分钟或 5 个月内我需要能够在触发警报时创建 SWT 应用程序我需要它能够在任何操作系统上工作软件用户可能使用 Windows 其中 90 其余使用
CVXPY 在二次规划优化问题上返回不可行/不准确

我正在尝试使用 CVXPY 来解决非负最小二乘问题附加约束是解向量中的条目之和必须等于 1 然而当我使用 SCS 求解器在这个简单的二次程序上运行 CVXPY 时我让求解器运行最多 100000 次迭代最后遇到错误指出二次程序不可
为什么运行 Rspec 时会出现未定义方法“有”错误？

我最近升级到 Rails 4 除了 Rspec 测试之外一切正常 require spec helper describe Invoice do before each do user FactoryGirl create activat
Laravel 查询生成器 - sum() 方法问题

我是 Laravel 的新手查询生成器有一些问题我想构建的查询是这样的 SELECT SUM transactions amount FROM transactions JOIN categories ON transactions c
如何在 remix run 中从实用程序函数重定向

我正在使用 Remix run 我想从 auth 实用程序函数重定向到我的登录页面但它不起作用这是与我的身份验证实用程序方法类似的功能 import redirect from remix async function authenti
在 for 循环中使用“else”的 Pythonic 方法[重复]

这个问题在这里已经有答案了我几乎没有注意到Python程序在for循环中使用了else 我最近使用它在退出时根据循环变量条件执行操作因为它在范围内在 for 循环中使用 else 的 Python 方式是什么有什么值得注意的用例吗
Jquery找到所有以字符串开头的id？

只是想知道如何在整个页面中搜索以 content 开头的所有 id 以及如何仅在名为 extra content 的命名 div 中找到它们一旦我有了所有的ID 我想隐藏它们下面是我想找到的示例 div div lt Find div
使用 Maven 的 JavaScript 缩小工作流程

我想知道是否有任何最佳实践可以将现代 JavaScript 构建工作流程集成到生成 WAR 工件的 Maven 构建中我发现了几个处理串联和缩小的 Maven 插件 WRO4J https code google com p wr
如何开始 VOIP 编程？ [关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 如何开始开发 VoIP 产品想听听
抛出异常时不调用析构函数

考虑以下代码 include
MongoDB 和 C#：不区分大小写的搜索

我在用MongoDB http www mongodb org 和MongoDB 的 C 驱动程序 http www mongodb org display DOCS CSharp Language Center CSharpLanguag
Android GUI架构-Surface/view/window/canvas之间的关系

更新经过几天的谷歌搜索和实验 https github com pierrchen understandAndroidUI 我已经找到了大部分愚蠢问题的答案查看我提交的答案 Android Window 的职责是什么这里有一些问题它
给定替换 S 和列表 X，如何将 S 应用于 X

假设我有一个替代品S并列出Xs 其中每个变量出现在Xs也发生在S 我如何找到该列表S Xs 即通过应用替换获得的列表S到列表Xs 更具体地说我有一组谓词和 DCG 规则看起来像 pat P gt seg P seg seg X Y Z
Android - 构建通知，TaskStackBuilder.addParentStack 不起作用

我正在尝试从 Android 文档解释的通知启动活动但是当我打开通知然后按后退按钮时 HomeActivity 父级不会打开而是应用程序关闭我究竟做错了什么 Intent resultIntent new Intent contex
以同样的方式处理由空格分隔的单词

我试图找到同时出现在多个文档中的单词让我们举个例子 doc1 this is a document about milkyway doc2 milky way is huge 正如您在上面两个文档中看到的单词 milkyway 在两个文

以同样的方式处理由空格分隔的单词

以同样的方式处理由空格分隔的单词 的相关文章

随机推荐

热门标签

以同样的方式处理由空格分隔的单词的相关文章