从 R 中的语料库创建单词子集

2024-03-30

我使用 XML 包根据 Twitter 搜索创建了一个 1,500 行向量。然后我将其转换为语料库以与 tm 包一起使用。我希望最终使用其中一些（最常见的）单词创建一个词云，因此我将其转换为 TermDocumentMatrix，以便能够找到频率最小的术语。我创建了对象“a”，它是这些术语的列表。

a <- findFreqTerms(mydata.dtm, 10)

wordcloud 包不适用于文档矩阵。所以现在，我想过滤原始向量以仅包含“a”对象中包含的单词（如果我使用该对象本身，当然，我只有每个频繁单词的一个实例）。

非常感谢任何建议。

您可以将 tdm 对象转换为矩阵并使用它来获得wordcloud可以与：

library(tm)
library(wordcloud)
# example data from the tm package
data(crude)
tdm <- TermDocumentMatrix(crude,
                      control = list(removePunctuation = TRUE,
                                     stopwords = TRUE))
v <- rowSums(as.matrix(tdm))
names(v) <- rownames(as.matrix(tdm))
v <- sort(v, decreasing=T)

现在，您可以使用标准子集过滤掉不常见的单词（[），或者您可以使用min.freq论证wordcloud当你想绘制时：

wordcloud(names(v), v, min.freq=10, scale=c(10,.3))

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

corpus

WordCloud

从 R 中的语料库创建单词子集的相关文章

R中IF函数的使用

我正在短跑ifR 中的函数但收到以下警告消息 In if runif 50 0 1 lt 0 69 the condition has length gt 1 and only the first element will be used
使用点阵个性化 R 上显示的 X 轴值

我收集了大量包含日期客户端及其 NFS 使用情况的数据我正在使用lattice R包进行绘图正如对超级用户的建议 https superuser com questions 523195 plot custom log data on
R：如何将字符/数字转为1，NA转为0？

有没有一种简单的方法可以将列的字符数字变为 1 将 NA 变为 0 这里有一些示例数据我想将其应用于 3 4 structure list Item Code c 176L 187L 191L 201L 217L 220L Item x
如何在 R 中的 dygraph 标题中使用 UTF-8 字符

使用 Rstudio Windows8 当我使用 dygraph 函数绘制时间序列时在尝试在主标题中使用 UTF 8 字符时遇到问题 library dygraphs dygraph AirPassengers main T tulo 这
扩展数据框以使其具有与原始行中两列的范围一样多的行[重复]

这个问题在这里已经有答案了我有一个数据框如下 structure list symbol c u n v i a start c 9L 6L 10L 8L 7L end c 14L 15L 12L 13L 11L Names c symb
R：单纯形错误：在下标赋值中不允许使用 NA

对于以下具有目标函数和约束的最小化 boot simplex返回错误 Error in tab pr lt tab pr tab pr pc pv o tab pr NAs are not allowed in subscripted as
计算 R 行中的非零条目数

我有以下类型的数据 mode1 mode2 mode3 1 8 1 0 2 0 0 0 3 6 5 4 4 1 2 3 5 1 1 1 数据使用dput structure list mode1 c 8L 0L 6L 1L 1L mode2
rvest 函数 html_nodes 返回 {xml_nodeset (0)}

我正在尝试抓取以下网站的数据框 http stats nba com game 0041700404 playbyplay http stats nba com game 0041700404 playbyplay 我想创建一个表格其中包
无法编译包“maps”

当我安装 maps 包时安装中出现警告 ld warning ignoring file Library Developer CommandLineTools SDKs MacOSX10 14 sdk usr lib libSystem
R 数据结构的运算效率

我想知道是否有任何关于操作效率的文档R 特别是那些与数据操作相关的例如我认为向数据框添加列是有效的因为我猜您只是向链接列表添加一个元素我想添加行会更慢因为向量保存在数组中C level你必须分配一个新的长度数组n 1并将所有元素复
安装 2.15 后 ggplot2 中的 alpha 通道不起作用

更新到 R 2 15 后 ggplot 中的 alpha 通道似乎不再起作用 plot rnorm 100 rnorm 100 bg cc000055 pch 21 工作得很好但是 qplot rnorm 100 rnorm 100 col
使用“assign()”为列表项分配值

首先了解一些背景我写了一个中缀函数本质上取代了这个习惯用法 x length x 1 lt y 或者简单地说x lt append x y 对于向量这里是 lt function x y xcall lt substitute x x
使用data.table进行聚合

经过 SO 用户的多次建议后我终于尝试将我的代码转换为使用data table library data table DT lt data table plate paste0 plate rep 1 2 each 5 id rep c
如何在R中分离两个图？

每当我运行这段代码时第一个图就会简单地覆盖前一个图 R中有没有办法分开得到两个图 plot pc title main abc xlab xx ylab yy plot pcs title main sdf xlab sdf ylab x
如何使用plotmath更新ggplot图例标签

我正在尝试更新ggplot要使用的图例标签plotmath但是当我这样做时它将之前组合的图例分成两部分通过一个例子可能更容易理解 test data and the default plot gives the correct col
R 中图周围的圆形边框

我需要在情节周围放置平滑的边框代码 plot 0 10 0 10 type n xlab X ylab Y box figure col blue 除了简单的蓝线我如何放置带有圆角的平滑灰线非常感谢 library grid plot
计算字符串向量中连续数字的函数

我想创建一个函数它接受至少 1 个元素的字符串对象并包含数字 2 到 5 并确定是否存在至少 N 长度的连续数字其中 N 是实际数字值如果是则返回字符串 true 否则返回字符串 false 例如 Input 555123 Outp
识别包含字符串的行的最快方法[重复]

这个问题在这里已经有答案了我有一个字符串数据框尺寸为 30 列 x 500 万行我想识别包含任何预定义字符串列表的行有没有比下面我的 apply any 方法更快的方法这是一个可重现的示例请注意此示例中的字符串是随机数但在我
如何使用合并或替换来更新 R 中具有多列的表

我想做一些与这个问题非常相似的事情如何使用 merge 更新 R 中的表 https stackoverflow com questions 3190118 how to use merge to update a table in r
函数速度测试的奇怪结果

我编写了一个使用递归来查找最大公因数分母的函数 gt gcd function a b if length a length b gt 1 warning Only scalars allowed using first element

随机推荐

在微服务中使用 json Web 令牌进行会话管理

我试图弄清楚如何在微服务架构中使用 json Web 令牌来管理会话看看这个设计article http nordicapis com how to control user identity within microservices 我
C++ 流如何为输入分配空间？

例如 is type std istream str type std string is gt gt str 这是怎么长出来的str适应输入它逐个字符地读取并调用str push back 或类似的东西或者它是否有一种机制可以在读取输
作为 Xcode 构建过程的一部分，如何运行上传符号来上传 dSYM？

好的所以我正在尝试自动上传 dSYM 我正在遵循此官方文档中的说明 https firebase google com docs crashlytics get deobfuscated reports https firebase go
左右声道与麦克风录音分离

我试图从麦克风录制并将录制的数据仅发送到左通道右通道上有零但我的技术似乎不起作用我正在使用 PCM 16 和单声道模式的录音和音轨我似乎做错了什么 package com example leftrighttest import a
色彩图的非线性缩放以增强对比度

以下 python 代码创建包含正态分布值的矩阵热图 import numpy as np from matplotlib import pylab as plt np random seed 123 make sure we all ha
如何迁移到WKWebView？

我试图了解如何使用 iOS8 中新的 WKWebView 但找不到太多信息我读了 http developer telerik com featured why ios 8s wkwebview is a big deal for hyb
学习 Objective-C 的好资源 [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
Maven 获取特定类

有没有一种方法可以让 maven 在将依赖项导入 uber jar shade 时仅包含特定的 class 文件我正在寻找一种方法来将名称中包含 Client 的文件从依赖项 jar 中提取出来并添加到最终的 jar 中任何帮助都会很棒
Python 中的字母数字排序和负数

我有一个相当简单的列表一个数字后跟一个句子这里按正确的顺序 347 a negative number 100 another negative number 25 and again a negative number 17 some
ArrayCollection 删除排序

对我的数据提供程序数组集合应用数字排序后我无法通过平铺列表对项目重新排序我是否需要从 arrayCollection txt 中删除排序如果是这样这只是设置 collection sort null 的情况吗 var sortF
为什么用户控件加载事件没有被触发

我有一个用户控件我有时再次遇到这种情况但总是可以通过使用 New 构造函数但我仍然想知道我做错了什么因为如果加载了控件则必须触发 load 事件这是一些代码
签名 url 中存在 MalformedSecurityHeader 错误 - 标头包含在签名标头中，但未包含在请求中

我正在尝试使用签名 URL 使用 React 和 Node js 通过 Google 应用程序引擎上传文件我能够生成签名 URL 但在控制台中收到 CORS 错误时当我在浏览器中打开签名 URL 时收到以下错误
错误 LNK1120：1 未解析的外部 - VS13 C [重复]

这个问题在这里已经有答案了我尝试编译这段代码 include
如何在 Yahoo PHP5 Sdk yos-social-php5 上使用 YQL 获取私有数据

我在用雅虎 PHP5 SDK https github com yahoo yos social php5并使用它从表 Social contacts 中获取用户联系人该表是私有数据在 Delicious 的示例中它仅显示从 YQL
使用 Swift 的预期声明错误

我正在尝试传递 a 的布尔值UISwitch到另一个班级使用NSUserDefaults 由于某种原因在包含开关的类中 if应该将值设置为的语句NSUserDefaults无法读取 switch 声明 ViewController swi
jquery .eq() 方法中的“eq”代表什么？

例子 td eq 2 css color red or td eq 2 css color red 我想知道缩写 eq 代表什么我不是问 eq 方法是做什么的可以找到here http api jquery com eq 关于这个问题的
Mono Cecil 生成 PDB 时出错

下面的代码允许我更改方法主体并保存回程序集 Recreate PDB var assemblyResolver new DefaultAssemblyResolver var assemblyLocation Path GetDirecto
当值是列表时交换字典键和值

类似于这个问题 https stackoverflow com questions 1031851 python best way to exchange keys with values in a dictionary and 这个问题
初始化 Facebook 评论后加载 jScrollPane - 如何？

Facebook 评论插件是否有 onComplete 状态或类似状态我正在尝试将 jScrollPane 滚动条添加到其中包含 FB Comments 的内容框发生的情况是我将 FB Comments iframe 放置在框内容的顶部
从 R 中的语料库创建单词子集

我使用 XML 包根据 Twitter 搜索创建了一个 1 500 行向量然后我将其转换为语料库以与 tm 包一起使用我希望最终使用其中一些最常见的单词创建一个词云因此我将其转换为 TermDocumentMatrix 以便能够找

从 R 中的语料库创建单词子集

从 R 中的语料库创建单词子集 的相关文章

随机推荐

热门标签

从 R 中的语料库创建单词子集的相关文章