删除 R 中过于常见的单词（出现在超过 80% 的文档中）

2023-12-11

我正在使用“tm”包来创建语料库。我已经完成了大部分预处理步骤。剩下的事情就是删除过于常见的单词（在超过 80% 的文档中出现的术语）。有人能帮我解决这个问题吗？

dsc <- Corpus(dd)
dsc <- tm_map(dsc, stripWhitespace)
dsc <- tm_map(dsc, removePunctuation)
dsc <- tm_map(dsc, removeNumbers)
dsc <- tm_map(dsc, removeWords, otherWords1)
dsc <- tm_map(dsc, removeWords, otherWords2)
dsc <- tm_map(dsc, removeWords, otherWords3)
dsc <- tm_map(dsc, removeWords, javaKeywords)
dsc <- tm_map(dsc, removeWords, stopwords("english"))
dsc = tm_map(dsc, stemDocument)
dtm<- DocumentTermMatrix(dsc, control = list(weighting = weightTf, 
                         stopwords = FALSE))

dtm = removeSparseTerms(dtm, 0.99) 
# ^-  Removes overly rare words (occur in less than 2% of the documents)

如果你做了一个怎么办removeCommonTerms功能

removeCommonTerms <- function (x, pct) 
{
    stopifnot(inherits(x, c("DocumentTermMatrix", "TermDocumentMatrix")), 
        is.numeric(pct), pct > 0, pct < 1)
    m <- if (inherits(x, "DocumentTermMatrix")) 
        t(x)
    else x
    t <- table(m$i) < m$ncol * (pct)
    termIndex <- as.numeric(names(t[t]))
    if (inherits(x, "DocumentTermMatrix")) 
        x[, termIndex]
    else x[termIndex, ]
}

然后，如果您想删除文档中 >=80% 的术语，您可以这样做

data("crude")
dtm <- DocumentTermMatrix(crude)
dtm
# <<DocumentTermMatrix (documents: 20, terms: 1266)>>
# Non-/sparse entries: 2255/23065
# Sparsity           : 91%
# Maximal term length: 17
# Weighting          : term frequency (tf)

removeCommonTerms(dtm ,.8)
# <<DocumentTermMatrix (documents: 20, terms: 1259)>>
# Non-/sparse entries: 2129/23051
# Sparsity           : 92%
# Maximal term length: 17
# Weighting          : term frequency (tf)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

textmining

tm

删除 R 中过于常见的单词（出现在超过 80% 的文档中）的相关文章

如何确定 R 包的作者？

如何确定包的作者是谁鉴于我们拥有这个广泛使用的代码库我认为参考我在分析中使用的软件是合适的有没有办法以编程方式检索作者和任何其他相关信息在伪代码中我想执行以下操作 references base 我怎样才能做到这一点为了能够引用
更改 pander 中的默认对齐方式 (pandoc.table)

我目前正在切换到pander对于我的大部分时间knitr markdown格式化因为它提供了如此出色的pandoc支持我不太满意的一件事是默认的居中对齐营销人员可能会喜欢它但对于技术报告来说这是一个可怕的事情使用的最佳选择Hmis
使用 RDCOMClient 搜索 Outlook 收件箱

我尝试使用 RDCOMClient 在 Outlook 收件箱中搜索电子邮件中的特定主题然后获取附件我在一封电子邮件上进行了这项工作但由于主题包含日期元素我需要搜索成为一个类似的子句但不太清楚这适合我的下面的查询 outlook
如何将同一行中以逗号分隔的值拆分到R中的不同行

我有一些数据来自谷歌表格 https forms gle rGQQL3tvA1PrE4dD8我想拆分以逗号分隔的答案 and 复制参与者的 ID 数据如下 gt head data names Q2 Q3 Q4 1 PART 1 fruit
如何在 R 中绘制一列与其余列的关系图

我有一个数据集其中 1 是时间接下来的 14 个是幅度我想在一张图表上散布所有大小与时间的关系其中每个不同的列都是网格化的分层在另一个之上我想使用原始数据来制作这些图表并单独制作它们但只想执行此过程一次数据集A 唯一的自变
如何在 R 中将字符串解析为层次结构或树

有没有办法将表示组的字符串解析为 R 中的层次结构假设我的小组结构如下 1 1 1 1 1 1 1 1 1 1 1 1 2 1 1 3 1 1 3 1 1 1 3 2 1 1 3 3 1 2 1 2 1 1 2 1 1 1 2 1 2 1
当有很多列时，使用 readr::read_csv() 导入数据时覆盖列类型

我正在尝试使用 R 中的 readr read csv 读取 csv 文件我导入的 csv 文件大约有 150 列我只包含示例的前几列我希望将第二列从默认类型我执行 read csv 时为日期覆盖为字符或其他日期格式 GIS Jo
如何绘制大时间序列（数千次给药次数/药物剂量）？

我正在尝试绘制医院中如何开出单一药物的图解在这个虚拟数据库中我在 2017 年 1 月 1 日之后遇到了 1000 名患者绘图的目的是了解该药物的给药模式在接近入院出院或患者住院期间是否更频繁高剂量给药 Get random d
通过使用 navbarPanel() 并隐藏导航栏构建多页闪亮应用程序用户端（在 ui.R 中）？

我想构建一个多页闪亮应用程序我可以在其中控制用户可以看到哪个页面迪安阿塔利确实这个演示应用程序中有类似的东西 https github com daattali advanced shiny tree master multiple
如何使用 R 将每个文件的数据添加为附加行，从而将不同的 .csv 文件合并为一个完整的文件？

我有几个不同的文件夹它们都包含一个 csv 文件所有这些 csv 文件都有一个单独的列其中包含实验的一种条件的数据我想以将每个文件的数据添加为新列的方式合并这些 csv 文件目前它看起来像这样 C1 csv 102 106 15
一段 R 代码会影响 foreach 输出中的随机数吗？

我使用运行模拟foreach and doParallel并与随机数名为random在代码中简而言之我模拟一个足球联赛随机生成所有比赛的获胜者以及相应的结果在dt base没有比赛进行在dt ex1 and dt ex24场比赛
跟踪循环迭代

抛硬币成功你赢100 否则你输50 你会一直玩直到你口袋里有钱a 的价值如何a在任何迭代中都被存储 a lt 100 while a gt 0 if rbinom 1 1 0 5 1 a lt a 100 else a lt a 50
使用字符串中的变量名称访问变量值，R

Intro 一个数据集有大量的age year变量 age 1990 age 1991 etc 我有一个字符串值数组length age years 表示这些变量使得age years 1 回报 age 1990 etc Need 我想搜
无法更新/编辑从 R 中的包（`gratia`）导出的 ggplot2 对象

我希望我在这里遗漏了一些令人痛苦的明显的东西我希望更新例如修复标题实验室等由生成的 ggplot 对象gratia draw 不太确定为什么我无法更新该对象有一个简单的解决方案吗 devtools install github
从 n,k 维矩阵数组中减去 n,k 维矩阵

如果我有一个数组A A lt array 0 c 4 3 5 for i in 1 5 set seed i A i lt matrix rnorm 12 4 3 如果我有矩阵 B set seed 6 B lt matrix rnorm
为什么数据帧上的 is.vector 不返回 TRUE？

tl dr R 中的向量到底是什么长版 R 中很多东西都是向量例如数字是长度为 1 的数值向量 is vector 1 1 TRUE 列表也是一个向量 is vector list 1 1 TRUE 好的所以列表是一个向量显然数
R 中两个时间戳之间的左连接

我的目标是执行左连接intervals哪里的bike id比赛和created at时间戳在records在之间start and end in the intervals table gt class records 1 data ta
如何在 data.table 中分组后使用条件计算行数

我有以下数据框 dat lt read csv s1 s2 v1 v2 a b 10 20 a b 22 NA a b 13 33 c d 3 NA c d 4 5 NA c d 10 20 dat gt A tibble 6 x 4 gt
如何在 Shiny 中提取动态生成的输入值？

我正在创建一个闪亮的应用程序它将根据客户的不同功能为客户生成分数在我闪亮的应用程序中我提供了 checkboxGroupInput 来选择所需的功能根据所选功能应用程序将动态地将 numericInput 添加到 Web ui 以
绘制 Cox 回归的 Kaplan-Meier 图

我使用 R 中的以下代码设置了一个 Cox 比例风险模型来预测死亡率添加协变量 A B 和 C 只是为了避免混淆即年龄性别种族但我们真正对预测变量 X 感兴趣 X 是一个连续变量 cox model lt coxph Surv t

随机推荐

有没有一种干净的方法可以在 Spring Web API 中将字符串返回为 json？

例如我必须执行如下 RequestMapping value get string method RequestMethod GET public ResponseBody String getString return Hello Wo
Python <> 运算符是什么

到底是什么 lt gt Python 中的运算符为什么它没有文档记录据我所知是不是一样 or is not In Python 2 x lt gt 是相同的 i e 不等于而不是is not这是不等同于但后者是首选比较运算符
MySQL：要求 SSL 未显示在拨款中

MySQL 8 不显示REQUIRE SSL in the SHOW GRANTS output 在 MariaDB 上当我使用创建用户时REQUIRE SSL 它显示在补助金中 Server version 10 2 22 MariaD
如何将 C# 数据表传递给 JavaScript 函数

我在代码隐藏中有这些数据并尝试以各种格式将其传递给 javascript 函数列表数组 json 字符串但无法通过 javascript var 对象获取数据这是后面代码中最后一个数据格式 List
如何阻止 Visual Studio“发布网站”发布我的 ReSharper 文件夹？

这真的很烦人因为它们不是该项目的一部分我知道这确实很旧但也许我的回复会对其他人有所帮助我在这里找到了解决方案 http www meadow se wordpress p 137 基本上将这些行添加到选项卡上方 Web 部署项目文
Windows 7 上的 XAMPP 上的 Kohana 3.2 错误：目录 APPPATH\cache 必须可写

当我查看使用 Kohana 3 2 创建的网站时会出现狂野的错误 Kohana Exception 0 目录 APPPATH cache 必须可写我使用 Windows 7 和 XAMPP 但不知道该怎么做因为目录 logs 是可写的
数据框中列表列的极坐标交集

import polars as pl df pl DataFrame a 1 2 3 8 9 4 b 2 3 4 4 5 6 所以给定数据帧 df a b 1 2 3 2 3 4 8 9 4 4 5 6 我想要一个c列它是a和b的交集
解决方案克隆发生在连续产生“新的最佳分数”的步骤中

最近引起我注意的是当产生新的最佳成绩时步子比其他人慢这绝对是在产生新的最佳分数的每一步中发生的解决方案克隆因此如果新的最佳得分步骤不是连续的这也没关系例如如果我们连续执行 50 个步骤则解决方案克隆过程将执行
使用 boost 通过 TCP 序列化和发送对象

我正在尝试通过 tcp 连接发送 C 对象我的对象都是可序列化的使用增强序列化 TCP服务器客户端是用boost asio制作的基本上我想发送这样的消息其中包含消息类型正在发送的对象的类型和数据本身序列化对象以及数据的大小
如何使用 CLI 2.x 添加 preAuthorizedApplications

在 Azure AD 中在公开 API 部分下我希望使用 CLI 2 x 自动注册 API 和 Web 应用程序我查看了文件here但找不到任何涉及 preAuthorizedApplications 的内容搜索仅产生了遗留支持的信
为什么释放堆内存比分配它慢得多？

这是一个经验假设分配比解除分配更快这也是one我猜想为什么基于堆的存储比如STL容器或其他选择不将当前未使用的内存返回给系统这就是为什么缩小以适合成语诞生当然我们不应该混淆 heap 记忆与 heap 类似的数据结构 So
有人可以向我解释 git diff 在这里看到什么区别吗？

我在 Windows 7 上通过 msysgit 使用 git 最近让我非常痛苦的一个问题是一旦我切换到某些分支 git 就会认为某些文件已被更改然后我无能为力让它停止认为这些文件已更改在我的案例中重现的步骤可能与每个人都不相关如
如何更改 JTextPane 中特定单词的颜色？

如何更改特定单词的颜色JTextPane就在用户打字时我应该覆盖吗JTextPane paintComponent method 不您不应该重写 PaintComponent 方法相反你应该使用StyledDocument 您还应该
Chrome 网上应用店扩展应用程序内购买 INTERNAL_SERVER_ERROR

Chrome 扩展程序中的 Chrome InApp 购买流程取得了部分成功我已包含 buy js 文件并实现了此处 Chrome 演练中列出的流程 https developer chrome com webstore payments
在 GNU C 内联汇编中使用 LDRD？使用什么限制？

TL DR我在玩 easm 并烧伤了我的手指我的限制有意义吗当我玩弄内存时我想测试在 ARM CPU 皮质 A9 上手动读取一些内存免责声明这里的学习目的当然我同意依赖优化器在 99 999 的情况下都是正确的做法但我真的很想
Tensorflow 安装错误：__ 在此平台上不支持轮子

我正在尝试在我的电脑上安装tensorflow 但我不断收到错误我在网上看到了很多关于tensorflow安装错误的帖子但我找到的只是解决方案说python的版本不兼容但是我使用的是 python 3 8 并且使用的是tensor
我可以在c#中创建一个新对象变量的名称吗？

例如 car Audi new car 是否有可能是这样的 string name Microsoft VisualBasic Interaction InputBox Name of new car Add car car name ne
将.key和.pem文件导入到jks文件并在Java/Spring中使用

我从服务团队获得了以下密钥证书用于通过 SSL 调用他们的 API 我通过curl 命令对其进行了验证 1 QA test key 2 QA test pem 卷曲命令 curl key QA test key cert QA test
基本矩阵的分解：验证 R 和 T 的四种可能解决方案

我想使用 OpenCV 进行一些运动结构到目前为止我已经有了基本矩阵和基本矩阵有了基本矩阵我正在做 SVD 来获得 R 和 T 我的问题是我有 2 个可能的 R 解决方案和 2 个可能的 T 解决方案这导致整体姿势有 4 个解决
删除 R 中过于常见的单词（出现在超过 80% 的文档中）

我正在使用 tm 包来创建语料库我已经完成了大部分预处理步骤剩下的事情就是删除过于常见的单词在超过 80 的文档中出现的术语有人能帮我解决这个问题吗 dsc lt Corpus dd dsc lt tm map dsc stripW

删除 R 中过于常见的单词（出现在超过 80% 的文档中）

删除 R 中过于常见的单词（出现在超过 80% 的文档中） 的相关文章

随机推荐

热门标签

删除 R 中过于常见的单词（出现在超过 80% 的文档中）的相关文章