新数据框列作为另一个数据框的函数（摘要）对我不起作用

2024-01-14

我想创建一个新的计算列（另一列文本的摘要）。为了让您重现，我创建了一个 df 作为可重现的示例：

df <- data.frame(name = replicate(1000, paste(sample(LETTERS, 20, replace=TRUE), collapse="")),stringsAsFactors=FALSE)

> head(df,3)
              name
1 ZKBOZVFKNJBRSDWTUEYR
2 RQPHUECABPQZLKZPTFLG
3 FTBVBEQTRLLUGUVHDKAY

现在我想要第二列，其中包含每行的“名称”列的摘要这工作得很好，但是很慢（每个 md5 都不同，它是 name 列的相应摘要）：

> df$md5 <- sapply(df$name, digest)   
> head(df, 3)
              name                              md5
1 ZKBOZVFKNJBRSDWTUEYR b8d93a9fe6cefb7a856e79f54bac01f2
2 RQPHUECABPQZLKZPTFLG 52f6acbd939df27e92232904ce094053
3 FTBVBEQTRLLUGUVHDKAY a401a8bc18f0cb367435b77afd353078

但这（使用 dplyr）不起作用，我不明白为什么：每行的 md5 都是相同的！事实上，它是完整 df$name 的摘要，包括所有行。请问有人可以向我解释一下吗？

> df <- mutate(df, md5=digest(name))
> head(df, 3)
                  name                              md5
1 ZKBOZVFKNJBRSDWTUEYR 10aa31791d0b9288e819763d9a41efd8
2 RQPHUECABPQZLKZPTFLG 10aa31791d0b9288e819763d9a41efd8
3 FTBVBEQTRLLUGUVHDKAY 10aa31791d0b9288e819763d9a41efd8

再次，如果我采用数据表方式，似乎使用新变量的标准方式不起作用：

> dt <- data.table(df)
> dt[, md5:=digest(name)]  
> head(dt,3)
                   name                              md5
1: ZKBOZVFKNJBRSDWTUEYR 10aa31791d0b9288e819763d9a41efd8
2: RQPHUECABPQZLKZPTFLG 10aa31791d0b9288e819763d9a41efd8
3: FTBVBEQTRLLUGUVHDKAY 10aa31791d0b9288e819763d9a41efd8

如果我强制分组，那么它会再次起作用（但速度很慢）：

> dt[,md5:=digest(name), by=name]   
> head(dt, 3)
                   name                              md5
1: ZKBOZVFKNJBRSDWTUEYR b8d93a9fe6cefb7a856e79f54bac01f2
2: RQPHUECABPQZLKZPTFLG 52f6acbd939df27e92232904ce094053
3: FTBVBEQTRLLUGUVHDKAY a401a8bc18f0cb367435b77afd353078

我还测试了 Tapply 和工作（创建一个因素，但我的真实数据有数百万行，而且速度非常慢）。

然后，首先，有人可以向我解释为什么 dplyr mutate 不采用每行的值来计算摘要，以及为什么数据表符号会发生相同的想法（除非我分组）？

其次，是否有一种更快的方法来计算所有行的摘要？

考虑到您有一个非常大的数据集，最好在更大的数据集上测试不同的方法（在本例中，我使用 100000 行，更大的数据集在我的系统上需要很长时间）：

df <- data.frame(name = replicate(1e5, paste(sample(LETTERS, 20, replace=TRUE), collapse="")), stringsAsFactors=FALSE)

首先，让我们考虑几种可用的方法：

# base R
df$md5 <- sapply(df$name, digest)

# data.table (grouping by name, based on the assumption that all names are unique)
dt[, md5:=digest(name), name]

# data.table with a unique identifier for each row
dt[,indx:=.I][, md5:=digest(name), indx]

# dplyr (grouping by name, based on the assumption that all names are unique)
df %>% group_by(name) %>% mutate(md5=digest(name))

# dplyr with rowwise (from the other answer)
df %>% rowwise() %>% mutate(md5=digest(name))

其次，测试哪种方法最快：

library(rbenchmark)
benchmark(replications = 10, order = "elapsed", columns = c("test", "elapsed", "relative"),
          baseR = df$md5 <- sapply(df$name, digest),
          dtbl1 = dt[, md5:=digest(name), name],
          dtbl2 = dt[,indx:=.I][, md5:=digest(name), indx],
          dplyr = df %>% group_by(name) %>% mutate(md5=digest(name)),
          rowwi = df %>% rowwise() %>% mutate(md5=digest(name)))

这使：

   test elapsed relative
2 dtbl1  77.878    1.000
3 dtbl2  78.343    1.006
1 baseR  81.399    1.045
5 rowwi 118.799    1.525
4 dplyr 129.748    1.666

因此，坚持使用基本 R 解决方案根本不是一个糟糕的选择。我怀疑它在真实数据集上运行缓慢的原因可能是digest函数而不是某个包/函数的某些不当行为。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

dataTable

Digest

新数据框列作为另一个数据框的函数（摘要）对我不起作用的相关文章

再现频率矩阵图

我想在 R 中重新创建一个情节情节如下来源 Boring E G 1941 作为动态平衡的统计频率心理学评论 48 4 279 这略高于我的工资等级能力因此在这里询问无聊的状态第一次 A 只能出现从不 0 或总是 1 在
在 R 中按组检查重叠开始和结束时间

我想检查数据的重叠这是数据 ID lt c rep 1 3 rep 3 5 rep 4 4 rep 5 5 Begin lt c 0 2 5 3 7 8 7 25 25 10 15 17 20 1 NA 10 11 13 End lt c
在单个显示器中绘制多个 jpeg 图像

我需要在单个组合显示器或画布中绘制和显示多个 jpeg 图像例如假设我有图像 a b c d jpg 每个图像的大小不同我想将它们绘制在 2x2 网格的一页上能够为每个子图设置标题也很好我一直在彻底寻找解决方案但不知道如何去
使用 R 读取和转换二进制原始数据

我有一个file https drive google com file d 0BxMpk0nhnJy6SFhxd2xuMzJYYlk edit usp sharing其中包含原始二进制数据和 ascii 它包含一个时间戳和一个代表速度的
按具有作业的组划分的 R 分位数

我有以下 df group rep seq 1 3 30 variable runif 90 5 0 7 5 df data frame group variable 我需要 i 按组定义分位数 ii 将每个人分配到相对于其组的分位数因此
R：如何根据规范更改数据框中的列名称

我有一个数据框它的开头如下 SM H1455 SM V1456 SM K1457 SM X1461 SM K1462 ENSG00000000419 8 290 270 314 364 240 ENSG00000000457 8 252
R-在多个图的外缘绘制居中图例

我想在具有多个绘图的设备中的绘图区域之外绘制居中图例 SO 中提出了许多关于更改 R 图中图例位置的问题略有不同例如 1 R 组合图的通用标题和图例 https stackoverflow com questions 8736966 r
使用 stargazer 分析包含时间序列的数据帧

我有一个面板数据集共 10 个观测值和 3 个变量观测值 30 的数量 10 行国家地区 2 列迁移参数相应年份的 1 列可以这么说我的数据框由 3 个年度数据框组成我该如何申请观星者考虑到它是一个面板数据集所以最大 N
分组和计数以获得接近值

我想计算每country的次数status is open以及次数status is closed 然后计算closerate per country Data customer lt c 1 2 3 4 5 6 7 8 9 country
编写健壮的 R 代码：命名空间、屏蔽和使用 `::` 运算符

简洁版本对于那些不想阅读我的案例的人来说这就是本质最小化新包破坏现有代码即编写您编写的代码的机会的推荐方法是什么尽可能坚固充分利用该功能的推荐方法是什么命名空间机制 when a just using贡献的软件包比如在一
Shiny可以识别用鼠标选择的文本（突出显示的文本）吗？

我需要用户将文本片段分配给 Shiny 中的类别或代码基本上我希望用户突出显示输出中的文本在下面的示例中来自table or text输出然后按一个按钮 code 并将选定的文本分配给应用程序内的对象在下面的应用程序中所选文
无法在 Document-Term-Matrix 中看到 `RTextTools::toLower()` 文本的结果

我尝试创建一个矩阵为此我想降低文本为此我使用此 R 指令 matrix create matrix tweets 1 toLower TRUE language english removeStopwords FALSE remove
将 read.csv 与符号链接文件一起使用

我正在尝试做什么我的源文件非常大我想避免将其复制到其他文件夹中我决定创建一个指向大文件的符号链接并想使用read csv读取文件文件夹结构项目1 数据源文件 csv 项目2 数据别名到源文件 csv 什么地方出了错读取源文件
ggplot2 - 添加具有不同中断和标签的辅助 y 轴

是否可以使用 ggplot2 手动向辅助 y 轴添加中断和标签 see bottom right 我希望在右侧 y 轴上有更紧凑的中断代表条形该图将作为基本情况然后我将展示如何更改辅助 y 轴上的分隔符和标签 sapply c pip
以编程方式触发 R 传单中的标记鼠标单击事件以获得闪亮效果

我的问题与此相同在 R 传单中触发标记鼠标单击事件以获得闪亮效果 https stackoverflow com questions 56962857 trigger marker mouse click event in r leafl
从向量中删除元素在 R 中出现的时间量

我想从一个向量中删除元素在另一个向量中出现的时间就像我要减去它们一样鉴于我想要删除的元素向量中的每个元素也存在于我想要从中删除的主向量中 a lt c A B B C C C b lt c A B C C a a in b return
jupyter 中的 r 图形 - 无法启动 png() 设备

我在 Jupyter 中使用 R 但无法在笔记本本身中绘制图表这是一个可重现的示例 set seed 123 mat as matrix x rnorm 100 y rnorm 100 plot mat 在朱皮特中 Error in pn
访问 R 工作区中的数据[重复]

这个问题在这里已经有答案了我是自学 R 的可能有一些非常基本的东西我可能不熟悉如果是这样我道歉我正在尝试访问外部来源提供给我的数据它作为一个工作空间出现我的流程如下 gt ls 1 2003OHT HR gt attach 20
数据表“footerCallback”函数未在页脚中显示结果

我尝试获取每列的总和并将结果显示在页脚中我在用着页脚回调 https datatables net reference option footerCallbackDatatables提供的功能但是它在页脚中没有显示任何内容数据表解释
如何使用 R 中的函数 sqlSave() 将数据附加到具有 IDENTITY 主键的 SQL Server 表？

我在SQL Server中创建了一个表如下所示 CREATE TABLE testPK ID INT NOT NULL IDENTITY 1 1 PRIMARY KEY NumVal NUMERIC 18 4 现在我想使用 RODBC 函

随机推荐

Jenkins Subversion 签出失败 - “E175002：CRLF 预计在块末尾：-1/-1”

我有一个 Jenkins v2 107 2 实例作为 Windows 服务运行它正在通过 Subversion 从 Visual SVN 服务器在单独的 Windows PC 上检查多个项目其中一个项目最大的 2 7GB 偶尔会
如何使用 jquery 在 iframe 中选择标签？

我试图弄清楚如何选择然后修改 HTMLiframe我生成 iframe 显示各种媒体图像 pdf 等为了显示不同的项目我最初使用如下方式创建它 mydiv html 然后根据需要使用如下内容更新其内容 myiframe attr
用于在 HTML 表中查找行索引的 jQuery 语法

1 如何查找 HTML 表格中的行号索引生成的表没有任何行 ID 例如我生成了一个纯 HTML 表格其中有 10 行我正在向该表动态添加行在现有行之间由于我要添加新行现有的行索引将会更改现在我需要在添加新行之前找到每行的索
如何避免在 Windows 中过度填充 PATH 环境变量？

我想知道您使用什么方法来管理系统中的可执行文件例如我几乎可以通过命令行访问所有内容但现在我遇到了路径字符串的限制因此我无法添加更多目录那么你有什么推荐呢很久以前我尝试在属于该路径的目录中使用可执行文件的软链接但这种方法不起作
是否可以对两个转换字符组合使用格式修饰符？

我知道如何使用 log4j 输出类名和方法名这两个字段都可以单独对齐和填充例如这个模式 d ISO8601 5p 10C 1 10M m n 产生类似的东西 2012 09 20 08 25 12 111 WARN Class meth
Windows 无法在本地计算机上启动 Apache CouchDB 服务

我已在 Windows 计算机上安装了 CouchDB 但在启动 CouchDB 服务时我收到如下消息 Windows 无法在本地计算机上启动 Apache CouchDB 服务该服务没有返回错误这可能是 Windows 内部错误或内
使用bundle运行gitlab服务器：命令未找到错误

我不知道发生了什么 sudo 服务 gitlab 启动 Starting both the GitLab Unicorn and Sidekiqscript web line 21 bundle command not found 查看我的
如何在 cygwin 上安装 cURL？

我尝试在 cygwin 上启用curl 但它说bash curl command not found 如何在 cygwin 上安装curl 我刚刚遇到这个 1 从以下位置找到cygwin setup exe文件http cygwin com
使文本高度为 div 的 100%？

我正在尝试使文本的高度为 100 div但它不起作用它只是变成了100 body font size 有什么办法让它跟随div高度吗 The div高度是整个页面的 4 当您调整大小更改分辨率时我不希望文本跟随它为了获得我想要的结果
是否可以在打字稿中创建动态 getter/setter？

我是 TypeScript 新手我正在尝试将我们的应用程序从 es2016 重写为 TypeScript 我的任务是拥有一个具有数据属性的类并使数据对象中的每个元素可用作类属性我被这段 JavaScript 代码困住了 for let
Django：关闭http响应消息的控制台输出

所以我们用 django 制作了一个应用程序每次收到请求时它都会在控制台上打印所有这些 http 响应消息 Date String GET urlpath blah blah 200 216 Date String DELETE anot
jQuery 数据表问题

当使用jQuery 数据表插件 http datatables net 为什么我会收到此错误 k 未定义 style typeof e saved aaSorting 未定义我发布这个答案是为了记录一些东西以供自己将来参考我希望它能对其
EqualityComparer.Default 不够聪明

我正在阅读源代码EqualityComparer
带有圆角的 AppWidget 图像

因此我通过在应用程序的主布局中向用户显示的各种视图进行动画处理在应用程序中动态创建图像目前我正在相对布局中生成场景将布局图像作为位图然后将位图保存到 SD 以便 appwidget 通过 uri 访问这一切都工作得很好但是
如何在Linux内核中找到sk_buff的所有者套接字？

我正在尝试找到一个的所有者插座sk buff举例来说 skb 我的最终目标是找到特定的 TCP 选项并以某种方式让用户空间应用程序知道我打算在找到TCP选项时设置一个套接字选项并让用户空间应用程序调用getsockopt 因此我需要知道之
Python 字符串转 Int 或 None

学习Python 有点卡壳我正在尝试将变量设置为等于int stringToInt 或者如果字符串为空则设置为None 我尝试做variable int stringToInt or None但如果字符串为空则会出错而不仅仅是将其设置
Django模型列表顺序字段更新

我有一张桌子比方说Book 具有以下模型定义 class Book models Model name models CharField name of the book max length 10 sequence models Int
System.Threading.Tasks.Dataflow 和 Microsoft.Tpl.Dataflow 之间有什么区别

有 2 个不同的官方 TPL Dataflow nuget 包我很困惑选择应该使用哪一个据我了解 System Threading Tasks Dataflow 版本比其他版本稍新而且 System Threading Tasks D
警告 - 初始化使指针来自整数而不进行强制转换

我发现了类似的问题但我认为它们不适用于我的具体问题所以如果它们适用我很抱歉我作为一年级 CS 学生正在学习 C 并尝试用 C 进行测验但我一无所获因为每次我尝试编译以查看它是否正常工作时我都会收到消息警告初始化使指针从未经
新数据框列作为另一个数据框的函数（摘要）对我不起作用

我想创建一个新的计算列另一列文本的摘要为了让您重现我创建了一个 df 作为可重现的示例 df lt data frame name replicate 1000 paste sample LETTERS 20 replace TRUE

新数据框列作为另一个数据框的函数（摘要）对我不起作用

新数据框列作为另一个数据框的函数（摘要）对我不起作用 的相关文章

随机推荐

热门标签

新数据框列作为另一个数据框的函数（摘要）对我不起作用的相关文章