替换 R data.frames 中的单词（文本挖掘）

2024-03-31

我正在使用 SQL 和 R 开发文本挖掘解决方案。

首先，我从 SQL 选择中将数据导入 R，然后用它进行数据挖掘。

这是我得到的：

rawData = sqlQuery(dwhConnect,sqlString) 
a = data.frame(rawData$ENNOTE_NEU)

如果我做一个

a[[1]][1:3]

你会看到结构：

[1] lorem ipsum li ld ee wö wo di dd
[2] la kdin di da dogs chicken
[3] kd good i need some help

现在我想用我自己的字典进行一些数据清理。一个例子是替换li with 洛雷姆·伊普苏姆 and kd也kdin with kunde

我的问题是如何对整个数据框执行此操作。

 for(i in 1:(nrow(a)))
    {
        a[[1]][i]=gsub( " kd | kdin " , " kunde " ,a[[1]][i])
        a[[1]][i]=gsub( " li " , " lorem ipsum " ,a[[1]][i])
...
    }

有效，但对于大量数据来说速度很慢。

有更好的方法吗？

为船长喝彩

gsub是矢量化的，所以你不需要循环。

a[[1]] <- gsub( " kd | kdin " , " kunde " , a[[1]])

更快。

另外，您确定要在正则表达式中添加空格吗？这样您就不会匹配行首或行尾的单词。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

replace

DataFrame

gsub

替换 R data.frames 中的单词（文本挖掘）的相关文章

如何绘制每条线之间具有特定距离的图形

实际上我尝试绘制一个图形但它将所有列线放在一起并显示因此它不具有代表性我尝试制作模拟数据并向您展示我如何绘制它并向您展示我想要的内容我不知道如何制作像下面所示的示例的数据但我在这里做了什么 set seed 1 M lt
从另一个数据帧创建一个数据帧（使用数据透视）

我对熊猫有疑问我有一个包含三列的数据框 id1 id2 amount 由此我想创建另一个数据框其索引为 id1 其列为 id2 单元格包含相应的金额我们来看一个例子 import pandas as pd df pd DataFr
如何从 R 数据框中提取关键字

我是 R 中文本挖掘的新手我想从数据框的列中删除停用词即提取关键字并将这些关键字放入新列中我尝试制作一个语料库但它对我没有帮助 df C3是我目前拥有的我想添加栏目df C4 但我无法让它工作 df lt structure l
如何将同一行中以逗号分隔的值拆分到R中的不同行

我有一些数据来自谷歌表格 https forms gle rGQQL3tvA1PrE4dD8我想拆分以逗号分隔的答案 and 复制参与者的 ID 数据如下 gt head data names Q2 Q3 Q4 1 PART 1 fruit
R中整数类和数字类有什么区别

我想先说我是一个绝对的编程初学者所以请原谅这个问题是多么基本我试图更好地理解 R 中的原子类也许这适用于一般编程中的类我理解字符逻辑和复杂数据类之间的区别但我正在努力寻找数字类和整数类之间的根本区别假设我有一个简单的向量x
在 igraph 中为社区分配颜色

我在 igraph 中使用 fastgreedy community 检测算法在 R 中生成社区代码返回 12 个社区但是在绘图时很难识别它们因为它返回的图的颜色数量有限我怎样才能用十二种不同的颜色绘制这个图表 l2 lt layo
更快的 %in% 运算符

The 快速匹配 https cran r project org web packages fastmatch index html包实现了更快的版本match对于重复匹配例如在循环中 set seed 1 library fastma
RStudio 如何确定控制台宽度，为什么它似乎总是出错？

我刚刚发现wid lt options width在 RStudio 中它似乎是我日常控制台使用中令人烦恼的根源或者更确切地说更接近根源我应该先说一下我目前使用的是 R 3 2 2 RStudio 0 99 491 Linux M
从 R 中的方差分析 (glm) 中提取残余偏差

我在 R 中安装了一个 glm 模型并采用了方差分析表我需要提取残余偏差列但它会产生错误以下是代码创建数据 counts lt c 18 17 15 20 10 20 25 13 12 outcome lt gl 3 1 9 t
通过使用 navbarPanel() 并隐藏导航栏构建多页闪亮应用程序用户端（在 ui.R 中）？

我想构建一个多页闪亮应用程序我可以在其中控制用户可以看到哪个页面迪安阿塔利确实这个演示应用程序中有类似的东西 https github com daattali advanced shiny tree master multiple
使用大矩阵操作

我必须使用 big matrix 对象并且无法计算某些函数让我们考虑以下大矩阵 create big matrix object x lt as big matrix matrix sample 1 10 20 replace TRUE
将第 N 行上的 NA 行插入 data.frames 列表，其中 N 来自列表

经过几个小时后我发现自己无法解决以下问题我有一个数据框列表我想分别向每个 DF 插入而不是替换一行或多行 NA 始终至少一行要插入的 NA 数量存储在单独的列表中为了说明这一点我有以下两个列表 list of datafra
Windows批处理文件：将结构转换为单行字符串

我需要将这个艰巨的任务作为批处理文件来完成这对于 C 来说不是最困难的但在 DOS 中是一个地狱至少对我来说我需要将结构转换为单个 var 字符串才能在我的程序中再次将它们转换为该结构别担心回归一切都已经完成了该结构的大小会
R、Rcpp 与 Armadillo 中矩阵 rowSums() 与 colSums() 的效率

背景来自 R 编程我正在扩展到 C C 形式的编译代码Rcpp 作为循环交换以及一般的 C C 效果的实践练习我实现了 R 的等效项rowSums and colSums 矩阵的函数Rcpp 我知道它们以 Rcpp 糖的形式存在并
R中的字典数据结构

在 R 中我有例如 gt foo lt list a 1 b 2 c 3 如果我输入foo I get a 1 1 b 1 2 c 1 3 我怎样才能看透foo仅获取键列表在这种情况下 a b c R 列表可以具有命名元素因此可
使用 R 下载压缩数据文件、提取和导入数据

EZGraphs 在 Twitter 上写道很多在线 csv 都被压缩了有没有办法下载解压缩存档并使用 R 将数据加载到 data frame Rstats 我今天也尝试这样做但最终只是手动下载 zip 文件我尝试过类似的东西 f
不同编程语言中的浮点数学

我知道浮点数学充其量可能是丑陋的但我想知道是否有人可以解释以下怪癖在大多数编程语言中我测试了 0 4 到 0 2 的加法会产生轻微的错误而 0 4 0 1 0 1 则不会产生错误两者计算不平等的原因是什么在各自的编程语言中可以采
如何在 data.table 中分组后使用条件计算行数

我有以下数据框 dat lt read csv s1 s2 v1 v2 a b 10 20 a b 22 NA a b 13 33 c d 3 NA c d 4 5 NA c d 10 20 dat gt A tibble 6 x 4 gt
picker输入字体或背景颜色

我在闪亮的仪表板中使用 pickerInput 这很好除了一个问题背景颜色和字体颜色太相似使得过滤器选择难以阅读有什么办法可以改变背景或字体颜色吗如果可能的话我想继续使用 pickerInput 但如果有一个带有 selectI
如何按用户定义（例如非字母顺序）对数据框进行排序[重复]

这个问题在这里已经有答案了给定一个数据框dna gt dna chrom start chr2 39482 chr1 203918 chr1 198282 chrX 7839028 chr17 3874 以下代码重新排序dna by ch

随机推荐

Debian 的简单初始化脚本中出现“;;意外”语法错误

我有这个初始化脚本来运行 uwsgi 它有效但仅限于启动命令所有其他命令都会给我这个错误 etc init d uwsgi 27 etc init d uwsgi Syntax error unexpected 我正在阅读的教程中似乎应
负载测试kafka消费者

我正在编辑问题因为我认为它不够清楚如何对我的 kafka 消费者进行负载测试我看过很多关于 apache kafka 负载测试的文章但没有一篇关于消费者负载测试的文章对于前我在jsr223中编写了jmeter kafka生产者测
当子视图的内容更改时，滚动视图不会调整大小

我有一个WebView在的里面ScrollView 内容为WebView当显示不同的html页面时动态变化我有以下问题例如我有A html and B html 内容为B html大于A html 所以页面更长 When WebVie
最大乘法列数

我有一个小问题在我的表中我有这些行 PersHist ID Date Histroy 1 01 01 2008 0 1 01 01 2008 1 1 01 01 2008 2 1 02 01 2008 0 1 02 01 2008 1 现
如何运行Docker检查来获取ECR注册表中图像的图像元数据

我拥有对 ECR 注册表的相关访问权限但是我无法通过运行 Docker 检查命令来获取图像元数据我正在尝试与 docker inspect ecrregistryurl dockerimage imageversion update 如
将 Shiny DT 行复制到用户剪贴板

有没有办法让闪亮的数据表 DT 中选定的行可供用户复制 Ctrl C 到剪贴板理想情况下它还可以提供数据表的列名或标题 UPDATE global R library rclipboard library shiny ui R rcli
在 Selenium Webdriver Java 中，是否可以在不使用 driver.switchTo().frame("frameName") 的情况下切换到框架中的元素？

我有多个嵌套框架我需要访问这些框架下的元素由于这些框架是动态的我无法访问这些元素我是否可以在不使用的情况下访问元素driver switchTo frame 喜欢直接使用 xpath 或 jquery javascript 或其他什
在 Sublime Text 3 上为自定义 html 元素设置自动完成

再会如何在 sublime text 3 上为自定义 html 元素设置自动完成例如如果我输入 dog然后按tab就会变成
使用 itext 4 编辑 pdf 中的现有超链接

我们需要更改 pdf 中的超链接有很多以p 开头的超链接我们需要删除p 到目前为止我们已经能够阅读超链接了有人知道如何编辑它们并保存pdf吗谢谢 public static void main final String args f
聚合返回空数组 - 猫鼬

我有以下两个简单的查询 Comment aggregate match id req params id exec function err result result is empty Comment find id req params
聊天、对话、消息传递 - CoreData 模型

在将问题标记为重复之前这个问题 https stackoverflow com questions 9934247 design for a chat app using core data请阅读说明我不需要在评论中继续讨论所以我想创建
默认 RenderTransform 转换器语法

我有一个画布应用了 RenderTransform 如下所示
错误 C1083 无法打开包含文件：“stdafx.h”：没有这样的文件或目录

我是 Visual Studio 的新手我创建了一个简单的控制台应用程序然后选择了一个 C 的空项目然后粘贴了以下代码 include stdafx h include
将对象序列化到文件时的 C# 最佳实践

我正在构建一个小型应用程序需要将对象保存到文件中以保存用户数据关于此文件的序列化我有两个问题我正在创建的对象具有一些公共属性和一个事件我添加了 Serializable 属性到我的对象然后意识到我无法序列化其中包含事件的对象然
codeigniter 从 url 获取值

如何从 codeigniter 中的以下 URL 接收控制器中的值 http localhost directory c service get radius lang 123 控制器 class C service extends CI
嵌入 Python，在 main() 中有效，但在 WinMain() 中无效

我正在将 Python 3 4 嵌入到用 C 编写的应用程序中当我使用 main 进入程序时一切都很好但是当我使用 WinMain 时它崩溃了当在 main 中调用 Py Initialize 时一切正常但在 WinMain
如何使用自制程序在系统库中安装PIL？

在新的 SnowLeopard 安装中我想使用自制程序来安装 PIL 然而该配方将 PIL 安装在 cellar 下而不是在 Library Python 2 6 site packages 中有没有办法改变安装目录您可以创建一个
如何克服连接联合表与其他表的错误

当我们尝试将一侧的联合表与另一侧的其他表连接起来时 SELECT A x B y FROM DataSet Liad DataSet Livne AS A INNER JOIN DataSet Names AS B ON A ID B ID
在 Macos 上编译 PHP-7.4 的 firebird 驱动程序时出现问题

我一直在尝试在 Macos 上安装编译 php7 4 的 php firebird 驱动程序但到目前为止还没有成功驱动程序存储库中存在一个未解决的问题但在帮助方面没有太多进展 https github com FirebirdSQL
替换 R data.frames 中的单词（文本挖掘）

我正在使用 SQL 和 R 开发文本挖掘解决方案首先我从 SQL 选择中将数据导入 R 然后用它进行数据挖掘这是我得到的 rawData sqlQuery dwhConnect sqlString a data frame rawDa

替换 R data.frames 中的单词（文本挖掘）

替换 R data.frames 中的单词（文本挖掘） 的相关文章

随机推荐

热门标签

替换 R data.frames 中的单词（文本挖掘）的相关文章