从包含多个文档的语料库中删除行

2024-03-20

我的语料库中有 4000 个文本文档。作为数据清理的一部分，我想从每个文档中删除包含特定单词的行。

例如：

library(tm)
doc.corpus<-  VCorpus(DirSource("C:\\TextMining\\Prototype",pattern="*.txt",encoding= "UTF8",mode = "text"),readerControl=list(language="en"))

doc.corpus<- tm_map(doc.corpus, PlainTextDocument)

doc.corpus[[1]]

#PlainTextDocument
Metadata:  7
Content:  chars: 16542

    as.character(doc.corpus)[[1]]


$content


"Quick to deploy, easy to use, and offering complete investment
protection,   our product is clearly differentiated from all
competitive offerings by its common, modular platform, seamless
integration, broad range of support to heterogeneous products from
Microsoft,Apple, Oracle and unequalled scalability, support for
industry standards, and business application-to-storage system
correlation capabilities."
"Microsoft is U.S. registered trademarks of Microsoft Corporation, Oracle is a U.S. registered trademarks of Oracle Corporation and Apple
is a U.S. registered trademarks of Apple Corporation."

我的问题是从该文档和所有其他文档中删除包含“商标”一词的第二行。目前，我使用 grepl() 函数来识别行，并尝试使用处理数据框时通常使用的方法排除这些行，但该方法不起作用：

corpus.copy<-corpus.doc
corpus.doc[[1]]<-corpus.copy[[1]][!grepl("trademark",as.character(corpus.copy[[1]]),ignore.case = TRUE),]

只要它适用于第一个文档，我就可以轻松地使用“for 循环”在语料库内的所有文档中实现。

任何提示/解决方案表示赞赏。我可以轻松地使用替代路线，将语料库转换为数据帧，以删除不需要的行并再次转换回语料库。谢谢。

System.info:
[1] "x86_64-w64-mingw32"; 
[1] "R version 3.1.0 (2014-04-10)"
[1] tm_0.6-2

不需要 for 循环 - 尽管它长期以来一直是一个令人沮丧的功能tm一旦文本位于语料库对象中，就很难访问它们。

我已经将“行”的含义解释为文档 - 因此上面的示例是两个“行”。如果情况并非如此，则需要（但很容易）调整此答案。

尝试这个：

txt <- c("Quick to deploy, easy to use, and offering complete investment
protection,   our product is clearly differentiated from all
competitive offerings by its common, modular platform, seamless
integration, broad range of support to heterogeneous products from
Microsoft,Apple, Oracle and unequalled scalability, support for
industry standards, and business application-to-storage system
correlation capabilities.",
"Microsoft is U.S. registered trademarks of Microsoft Corporation, Oracle is a U.S. registered trademarks of Oracle Corporation and Apple
is a U.S. registered trademarks of Apple Corporation.")

require(tm)
corp <- VCorpus(VectorSource(txt))
textVector <- sapply(corp, as.character)
newCorp <- VCorpus(VectorSource(textVector[-grep("trademark", textVector, 
                                                  ignore.case = TRUE)]))

newCorp现在排除包含“商标”的文档。请注意，如果您不需要复数形式（例如“商标”）

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

tm

从包含多个文档的语料库中删除行的相关文章

R：按组，测试一个变量的每个值是否存在于另一个变量中

我有一个数据框架结构如下 a lt c 1 1 1 2 2 2 3 3 3 3 4 4 b lt c 1 2 3 1 2 3 1 2 3 4 1 2 c lt c NA NA 2 NA 1 1 NA NA 1 1 NA NA df lt
R：如何将字符/数字转为1，NA转为0？

有没有一种简单的方法可以将列的字符数字变为 1 将 NA 变为 0 这里有一些示例数据我想将其应用于 3 4 structure list Item Code c 176L 187L 191L 201L 217L 220L Item x
如何将旋转的 NetCDF 转换回正常的纬度/经度网格？

我有一个带有旋转坐标的 NetCDF 文件我需要将其转换为正常的纬度经度坐标经度为 180到180 纬度为 90到90 library ncdf4 nc open dat nf 对于尺寸它显示 1 5 variables exclu
StatET调试工具

我想我只是很密集但我似乎无法弄清楚如何在 Eclipse 中的 R 中使用调试工具 StatET 插件有人有关于这个主题的任何提示或教程吗 StatET 2 00 现在对高级可视化调试提供实验性支持需要 Eclipse 3 6 或
rvest 函数 html_nodes 返回 {xml_nodeset (0)}

我正在尝试抓取以下网站的数据框 http stats nba com game 0041700404 playbyplay http stats nba com game 0041700404 playbyplay 我想创建一个表格其中包
我如何查看 quantmod 包中所有可用的数据系列？

如何显示可用的所有报价数据系列的列表例如使用雅虎的 getSymbols 我不知道有什么办法 TTR包有一个功能 stockSymbols 下载 NYSE AMEX 和 NASDAQ 的所有当前代码它试图将它们采用雅虎可接受的格式但
获取包含矩阵行内最大值的列名称，该矩阵在数组内包含单独的最大值

例如给出 dim1 lt c P PO C T dim2 lt c LL RR R Y dim3 lt c Jerry1 Jerry2 Jerry3 Q lt array 1 48 c 4 4 3 dimnames list dim1 di
R：改变堆积条形图的颜色

library ggplot2 df2 lt data frame supp rep c VC OJ each 3 dose rep c D0 5 D1 D2 2 len c 6 8 15 33 4 2 10 29 5 head df2 g
R 中的数据框操作 - 将单元格向左移动并删除 NA

我有一个数据框其列由随机分布的值和 NA 组成如下所示 a lt c S E NA S NA b lt c A NA M G K c lt c I NA NA NA L meh lt dataframe a b c 1 2 3 4 5
斯皮尔曼相关性和联系

我正在一小组配对排名上计算斯皮尔曼的 rho 斯皮尔曼因处理领带不当而闻名例如取2组8个排名即使两组中有6个是平局相关性仍然很高 gt cor test c 1 2 3 4 5 6 7 8 c 0 0 0 0 0 0 7 8 met
如何根据多个条件创建列？

我有一个数据框我想根据多个条件创建一个列 v1 v2 v3 v4 v5 4 1 2 4 5 5 5 2 4 5 6 21 9 20 30 50 6 4 5 7 9 10 3 6 5 9 基本上使用以下可能的值创建 v6 Cat dog
devtools::test() 有效，但 devtools::check() 无效。为什么？

我正在测试this https github com beanumber etlR 包以下三件事就可以正常工作 devtools test devtools test file tests testthat R Travis CI 与 R
ggplot 的每个方面都有不同的 `geom_hline()`

这个问题在这里已经有答案了 library tidyverse ggplot mpg aes cty hwy geom point facet grid year fl geom hline yintercept mean mpg hwy
上传到 Shiny 服务器后在 R 中解压文件

我正在尝试在我们的本地服务器上使用 Shiny 来构建一个应用程序允许用户上传包含 ESRI shapefile 和关联文件的 zip 文件 Shiny 服务器的 fileInput 可以获取数据并且当它这样做时它会将其存储在临时目录
将文件名附加到 R 中的数据框

我想将文件名附加到我的表中但它似乎并没有真正起作用我正在做的是迭代文件名列表打开它们将所有数据附加到一个数据帧对于每个附加文件我想添加其文件名我希望将其附加到每一行以便稍后当我查看数据时我会知道给定行源自哪个文件但似乎并
如何使用合并或替换来更新 R 中具有多列的表

我想做一些与这个问题非常相似的事情如何使用 merge 更新 R 中的表 https stackoverflow com questions 3190118 how to use merge to update a table in r
通过消除嵌套的 for 循环来改进此代码

R 包corrplot除其他内容外还包含这个漂亮的功能 cor mtest lt function mat conf level 0 95 mat lt as matrix mat n lt ncol mat p mat lt lowCI
ggplot geom_bar - 条形太宽

对于这个非信息性的标题我感到很抱歉 gt y read csv textConnection scan sep n what raw org art type length 191 gk Finish short 4 147 ik Att
导入 .sav 时出现警告/错误

我工作中有两个版本的 SPSS SPSS 11 在 Windows XP 上运行 SPSS 20 在 Linux 上运行 SPSS 的两个副本都工作正常使用任一版本的 SPSS 创建的文件在其他版本的 SPSS 上打开时不会出现任何问题
根据列中的部分字符串匹配选择数据框行

我想根据列中字符串的部分匹配从数据框中选择行例如列 x 包含字符串 hsa 使用sqldf if它有一个like语法我会做类似的事情 select from lt gt where x like hsa 很遗憾 sqldf不支持该语法

随机推荐

python 3.4 中使用正则表达式的语法无效

我在 python 3 4 中使用以下表达式语法错误但相同的代码可以在 python 2 7 中运行 block re compile ur DATA value S s n DATA value2 re IGNORECASE re DOT
如何获取SQL Server 2008中特定表的所有事务日志（插入更新删除）

我想获取应用于 SQL Server 2008 中特定表的所有事务我发现上次使用此脚本更新表的时间 SELECT OBJECT NAME OBJECT ID AS DatabaseName last user update FROM sy
无法在 CakePHP 中使用 MySQL

这是我第一次安装框架我很无知我使用的是 OSX 10 7 我已将 cakephp 框架加载到 Library WebServer Documents cakephp我已经能够加载测试页面并消除一些错误和警告现在我正在努力解决这个问题
为什么fork程序printf执行更多时间[重复]

这个问题在这里已经有答案了来自fork 的手册页 http linux die net man 2 fork我读到 fork 创建父进程的副本但无法理解为什么下面的程序printf执行8次我读Linux 中 fork 的工作原理 ht
有没有办法在没有 VPC 的情况下将静态 IP 分配给 AWS Lambda？

我希望为我的 Lambda 分配一个静态 IP 该 IP 是通过 API 网关调用的这是必需的因为我从此 lambda 调用的下游系统仅接受来自白名单 IP 的 Web 请求我通过与 lambda 关联的 VPC 成功实现了这一目标
应用程序安装失败 - INSTALL_FAILED_VERIFICATION_FAILURE

开始了一个新项目并且this https gyazo com 08cf38899348817b28ec2b2978561d92发生在我身上我在用Genymotion作为我的模拟器不确定是什么导致了这个问题我试过重建项目确保我有足
表格布局中的单选按钮组与列对齐

我正在开发一个反馈应用程序其布局应与此屏幕类似 1 https i stack imgur com xn3kh jpg https i stack imgur com xn3kh jpg 我已经设计了布局的xml
在 Spring boot 中设置 hibernate fetch size

如何在Spring boot应用程序中设置hibernate jdbc fetch size属性可以将其设置到application properties中吗您应该使用前缀spring jpa properties 查看官方文档here
C++ lambda 将捕获作为函数指针

我正在研究 C lambda 及其到函数指针的隐式转换我的起始示例是使用它们作为 ftw 函数的回调这按预期工作 include
在 kotlin 中使用比较器

我是 kotlin 新手如何使用比较对象Collections Collections sort list myCustomComparator 我们怎样才能写一个MyCustomComparator科特林中的方法 private fin
印刷撇号 + 宽字符串文字破坏了我的 wofstream (C++)

我刚刚在处理不祥的印刷撇号时遇到了一些奇怪的行为而不是打字机撇号与宽字符串文字一起使用时撇号会破坏 wofstream 这段代码有效 ofstream file test txt file lt lt A B file close
将对象作为参数发送给分叉的 Nodejs 进程

Having fork MyProcess js foo 在主流程中和console log process argv 2 在分叉进程中将记录foo到我的控制台然而 fork MyProcess js myProp bar 在主流程中和c
颜色条最小值和最大值

如何手动更改绘图中颜色条的最小值和最大值例如如何将下图中颜色条的最小值设置为 0 import plotly express as px import numpy as np df px data gapminder query yea
将结果写入同一 Excel 文件中的 2 个不同工作表中

你能教我Python是否可以写入同一个Excel文件但2个不同的电子表格选项卡举例来说我想挑选并写入以下4个网站的标题并将它们写入同一个文件title xls中但分别写入其Sheet1和Sheet 2中 www dailynew
jQuery - 从值数组中按值选择元素

给出一些简单的 JSON 62689 62690 62697 我需要在 DOM 中选择与这些值相对应的三个元素基于value属性他们可能是一个
处理存储在配置文件中的变量的最佳实践是什么？

如果我使用配置文件来存储例如站点名称数据库主机等处理此问题的最佳实践是什么 sitename stackoverflow com 然后在函数中设置全局 sitename DEFINE SITENAME stackoverflow com
wxWidgets的EVT_CHAR_HOOK有什么作用？

我正在维护一个 wxWidgets C 应用程序它使用 EVT CHAR HOOK 来捕获高级窗口中的关键事件我找不到此事件的任何真实文档但我可以推测它以某种优先于标准关键事件的方式拦截关键事件我刚刚发现的一件令人不安的事情是
Angular2 使用 ngFor 绑定数组

我使用的是 angular2 在我的表单中我通常创建一个模型类并将我的对象与表单绑定然后通过 this myObject 进行访问 div class form group div
spring data redis主从配置

以下是我的 jedis 配置 Bean public JedisConnectionFactory getJedisConnectionFactory JedisConnectionFactory jedisConnectionFactor
从包含多个文档的语料库中删除行

我的语料库中有 4000 个文本文档作为数据清理的一部分我想从每个文档中删除包含特定单词的行例如 library tm doc corpus lt VCorpus DirSource C TextMining Prototype pa

从包含多个文档的语料库中删除行

从包含多个文档的语料库中删除行 的相关文章

随机推荐

热门标签

从包含多个文档的语料库中删除行的相关文章