从 R 中用户定义的语料库中删除停用词

2023-12-26

我有一组文件：

documents = c("She had toast for breakfast",
 "The coffee this morning was excellent", 
 "For lunch let's all have pancakes", 
 "Later in the day, there will be more talks", 
 "The talks on the first day were great", 
 "The second day should have good presentations too")

在这组文档中，我想删除停用词。我已经删除了标点符号并转换为小写，使用：

documents = tolower(documents) #make it lower case
documents = gsub('[[:punct:]]', '', documents) #remove punctuation

首先我转换为 Corpus 对象：

documents <- Corpus(VectorSource(documents))

然后我尝试删除停用词：

documents = tm_map(documents, removeWords, stopwords('english')) #remove stopwords

但最后一行会导致以下错误：

THE_PROCESS_HAS_FORKED_AND_YOU_CANNOT_USE_THIS_COREFOUNDATION_FUNCTIONALITY___YOU_MUST_EXEC() 进行调试。

这已经被问过here https://stackoverflow.com/questions/18688599/the-process-has-forked-error-while-using-tm-package-in-r但没有给出答复。这个错误是什么意思？

EDIT

是的，我正在使用 tm 包。

这是 sessionInfo() 的输出：

R版本3.0.2 (2013-09-25) 平台：x86_64-apple-darwin10.8.0（64位）

当我遇到tm问题我经常最终只是编辑原始文本。

要删除单词有点尴尬，但您可以将正则表达式粘贴在一起tm的停用词列表。

stopwords_regex = paste(stopwords('en'), collapse = '\\b|\\b')
stopwords_regex = paste0('\\b', stopwords_regex, '\\b')
documents = stringr::str_replace_all(documents, stopwords_regex, '')

> documents
[1] "     toast  breakfast"             " coffee  morning  excellent"      
[3] " lunch lets   pancakes"            "later   day  will   talks"        
[5] " talks   first day  great"         " second day   good presentations "

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

tm

topicmodeling

从 R 中用户定义的语料库中删除停用词的相关文章

R 中的“右”滚动平均值和“左”滚动平均值是什么？

如果我想计算之前的n意味着年份滞后于当年我将如何实现这一点它像右滚动平均窗口一样简单吗或者它是一个左滚动平均窗口我不确定这里使用哪个窗口样本数据 set seed 1234 dat lt data frame year c
有没有一种简单的方法可以在 R 的 igraph 中按度数对网络节点进行着色？

使用igraphR 包我想按度数对网络节点进行着色颜色应代表渐变例如从蓝色到红色或从黄色到红色从网络中观察到的最低程度到最高程度我找到了一个可行的解决方案 https stackoverflow com questions 40
使用 ggplot 2 使用线条或线段将堆栈条形图与多个组连接起来

我正在对一些患有某种疾病的患者进行一项研究并在 3 个不同的时间点使用顺序量表评估功能状态我想在这些时间点的堆叠条形图中连接多个组我查看了这些主题但尚未使用这些建议使其发挥作用如何将线条放置在堆积条形图的边缘 https stac
使用从变量中选择的列名称逐行索引数据框

考虑以下数据框 TEST lt structure list Value c NA NA NA NA NA NA NA NA NA NA NA NA Select structure c 2L 1L 3L 2L 2L 1L 1L 2L 1L
单击 hPlot 图表中闪亮的数据点时打印组名称

我有一个闪亮的应用程序它使用 rCharts 中的 highcharts 库显示一些图表在某些情况下我在单个图表上有多个图表这些图表是使用 hPlot 中的组选项创建的我希望在单击图表时打印单个数据点的所有参数 x y 和组值我
如何根据另一列的条件语句将因子列添加到数据框？

我有一个数据框我需要根据条件语句添加一个因子列这里是data https www dropbox com s hujiacus8ek5o5z MoroccoCGE CC Stats csv Code morstats agri f lt
在 R 中，如何获得某些向量值的所有可能组合？

背景我有一个需要一些参数的函数我想要获得所有可能的参数组合的函数结果一个简化的例子 f lt function x y return paste x y sep colors c red green blue days c Monda
在 R 中使用 apply() 时出现未使用参数错误

当我尝试对日期列使用 apply 条件以返回一组系数时收到错误消息我有一个数据集为简单起见此处进行了修改但可重现 ADataset lt data table Epoch c 2007 11 15 2007 11 16 2007
基于两列对数据框中的行进行求和[重复]

这个问题在这里已经有答案了我想添加一列的值将它们按两列分组我找到了如何在一列上执行此操作但无法弄清楚如何在两列上执行此操作例如如果我有以下数据框 x c a a b b c c a a b b c c a a b b c c y
data.table 相当于 dplyr::filter_at

考虑数据 library data table library magrittr vec1 lt c Iron Copper vec2 lt c Defective Passed Error set seed 123 a1 lt sampl
如何使用 R 更改 png 文件的大小

我正在绘制 png 文件并获取一张小图片你知道一些可以改变 png 图大小的简单代码吗我的地块太高太薄另外有没有办法改变情节的分辨率谢谢伊格尔 png png filename Rplot 03d png width 480 h
使用 R 将图例添加到绘图中

我使用 R 在一个图中创建了 4 条线这是代码 Define 2 vectors cars lt c 123 07 110 51 96 14 98 71 101 3 trucks lt c 110 31 89 91 89 81 89 31
闪亮的传单添加大量分离的折线

我有一个 200k 行数据集其中包含出发地和目的地的坐标我有一个 R 闪亮的应用程序带有传单地图可以在这些坐标上显示圆圈尽管坐标数量很大但效果很好这是数据的简化示例每行包含出行id 出发地经纬度目的地经纬度 id lat
如果 RCurl::getURL() 执行时间太长，如何停止执行？

有没有办法告诉 R 或 RCurl 包在超过指定时间段时放弃尝试下载网页并转到下一行代码例如 gt library RCurl gt u http photos prnewswire com prnh 20110713 NY34814 b
R 监督潜在狄利克雷分配包

我在用着这个LDA包 https cran r project org web packages lda 对于 R 具体来说我正在尝试做监督潜在狄利克雷分配 slda https www cs princeton edu blei pap
闪亮的仪表板侧边栏中的可折叠菜单项

我的侧边栏中有两个菜单项目前如果我单击任何菜单项则会显示所有菜单项的选项卡项我想让它可折叠如果我单击多个名称菜单单个分析应该折叠如果我单击单个分析多个分析应该折叠目前的设计是相同的可重现代码是 library shiny
LDA 主题建模 - 训练和测试

我读过 LDA 并且了解当输入一组文档时如何生成主题的数学原理参考文献称 LDA 是一种算法只要给定一个文档集合无需任何监督就可以揭示该集合中的文档所表达的主题因此通过使用 LDA 算法和吉布斯采样器或变分贝叶斯我可以输入
有没有一种明智的方法可以在 R 中执行诸如文档字符串之类的操作？

这不仅仅是一个编码风格问题如果您了解 python 我认为 Ruby 也有类似的东西您可以在函数中拥有文档字符串这样您就可以通过发出 help 命令轻松获取该字符串例如 def something t None Do somethi
缩放geom_密度以将geom_bar与y上的百分比相匹配

因为我对数学感到困惑上次我尝试问这个问题 https stackoverflow com questions 32412805 ggplot2 histogram with density curve that sums to 1 这是另一
ggplot2以限制为中心的多边形世界地图给出了有趣的边缘

使用下面的代码我生成了一张以华盛顿特区为中心的地图解决方案基于科斯克的解决方案在这里 https stackoverflow com questions 10620862 use different center than the pri

随机推荐

Pandas 与带有 WHERE 子句的 JOIN 类似

我正在 python 的 pandas 中连接两个数据框 A 和 B 目标是接收来自 B 的所有纯行 sql 模拟在 A client id B client id 上右连接 B 其中 A client id 为 null 在 panda
如何使用 runhaskell 增加堆栈大小？

我正在编写一些一次性 Haskell 脚本来解决一些问题欧拉计划 http projecteuler net问题我真的不想编译它们因为我经常需要进行大量的更改但在某些情况下我发现堆栈空间不足的文档runhaskell表示以下语法应
MySQL 5.6 中的全局查询超时

我需要在我的应用程序中在全局级别应用查询超时查询 SET SESSION max execution time 1MySQL 5 7 就是这样做的我使用的是MySQL 5 6 目前无法升级任何使用 SQL Alchemy 的解决方案也
jSpinner时间选择器模型编辑

我有 jSpinner 用于时间选择问题一用户可以编辑小时分钟和秒分隔符并可以写入额外的数字例如 123 问题2 模型始终获取当前时间我想要 00 00 00 当我在代码中编写此内容而不是 hh mm ss 时用户无法编辑这些值
Hibernate 4 -> 5 迁移：NamingStrategy 更改，找不到表

我想做的事我正在尝试从 WildFly 8 2 0 迁移到 WildFly 10 0 0 这意味着我已经并且想要从 Hibernate 4 3 迁移到 Hibernate 5 0 Setup Java 8u40 Spring 4 1
WPF ListView 关闭选择

是否可以关闭WPF的选择ListView 那么当用户单击行时该行不会突出显示 source konim5am at artax karlin mff cuni cz https artax karlin mff cuni cz 7Ekon
.NET：可执行文件应该进行强名称签名吗？私有 DLL 怎么样？

我的应用程序由三个程序集组成一个引用几个 DLL 的 EXE 这些 DLL 是我的应用程序私有的它们仅由该可执行文件使用应该给这些程序集起一个响亮的名字吗 FxCop 建议他们应该对于目前生产的所有组件 CA2210 使用强名称密钥
Visual Studio 2015 OpenMP 支持

我在 Visual Studio 2015 中获取 OpenMP 支持时遇到问题我已经将项目选项配置为使用 openmp 项目 gt 属性 gt C C gt 语言 gt OpenMP支持是代码如下非常简单的代码用于测试OpenM
仅打印字符串中的第一个字段

我有一个约会12 12 2013 14 32我想将其转换为仅12 12 2013 该字符串可以是1 1 2013 12 32 or 1 10 2013 23 41我只需要日期部分您可以使用各种 Unix 工具轻松完成此操作 cut d f
将 ul 嵌套在 ol 中

我试图创建一个有序列表其中包含两个项目每个列表下包含三个项目其中有项目符号点我的代码未通过验证因为它表示在此上下文中不允许元素 ul 作为元素 ol 的子元素但我到处都看到它说这没问题这是我的代码 ol li First nu
链接器输入文件未使用，因为链接未完成 - gcc

我是编写 makefile 的初学者我有一个类似这样的 makefile PATH1 ref CC gcc LINK gcc INCLUDES INCLUDES I PATH1 inc I PATH1 abc inc I PATH1 de
Modernizr 如何做边框半径

你能帮我解释一下吗Modernizr 如果我使用某个功能例如 border radius 我使用旧版浏览器运行它现代化者是否会自动将 css 添加到页面或者我应该编写代码来呈现控件以使其看起来像有边框一样如果第二种情况属实那么我为
如何验证历史数据？

目前我们正在使用日历实例读取日期以便使用 SparkSQL 选取最后一个月的记录现在我们需要如果在前一天添加额外的事件我们还必须能够手动插入摘要开始和结束日期以防我们需要手动重新运行之前时间段的作业例如手动重新运行表可能如下
HTML5 和 RDFa 支持

我即将向现有的 HTML5 Web 应用程序引入开放图谱协议并且我希望包含必要的 RDFa 数据而不引入任何不必要的杂项我看过HTML RDFa 1 1 http www w3 org TR rdfa in html 草稿并与Face
CSS 中内嵌的 SVG 图像

这是一个基本的 SVG 图像悬停动画有没有一种编码方法可以避免编写 SVG 代码两次 body background color 181818 a webkit transition all 3s ease moz transition
Pandas Concat 遇到内存错误

我正在尝试预处理数据以进行进一步分析首先我从 csv 文件 x 中读取数据然后我把它分成三个部分最后我需要使用转换一个数组get dummies concat and sum的结果groupby import pandas as p
Android 中的静音流

我构建了一个小应用程序可以使用该类将音乐流静音取消静音AudioManager 事实上它一直有效直到我关闭应用程序即我已将流静音关闭应用程序重新启动应用程序并且按钮不再取消流静音我在网上搜索过但似乎没有人遇到过这个问题
我应该使用哪种分层模型？邻接、嵌套还是枚举？

我有一个表其中包含世界上所有地理位置及其关系的位置这是一个显示层次结构的示例您将看到数据实际上存储为所有三个枚举路径邻接表嵌套集数据显然也永远不会改变以下是英国布莱顿地点的直系祖先的示例该地点的 woeid 为 13911
使用 PDO 处理错误的最佳实践

Problem 寻找使用 PDO 进行错误处理的最佳实践我在网站 SO 书籍等上找到的选项许多网站表示您应该在您的catch block SO 上的大量用户表示由于安全风险您永远不应该回显错误消息其他人建议将其记录到文档根目录之外
从 R 中用户定义的语料库中删除停用词

我有一组文件 documents c She had toast for breakfast The coffee this morning was excellent For lunch let s all have pancakes L

从 R 中用户定义的语料库中删除停用词

从 R 中用户定义的语料库中删除停用词 的相关文章

随机推荐

热门标签

从 R 中用户定义的语料库中删除停用词的相关文章