使用 dplyr 将某些值设置为 NA

2023-11-25

我试图找出一种简单的方法来使用 dplyr （数据集 = dat，变量 = x）执行类似的操作：

dat$x[dat$x<0]=NA

应该很简单，但这是我目前能做的最好的事情。有更容易的方法吗？

dat = dat %>% mutate(x=ifelse(x<0,NA,x))

您可以使用replace这比ifelse:

dat <-  dat %>% mutate(x = replace(x, x<0, NA))

您可以通过提供索引来加快速度replace using which:

dat <- dat %>% mutate(x = replace(x, which(x<0L), NA))

在我的机器上，这将时间减少了三分之一，见下文。

这是不同答案的一些比较，当然这只是指示性的：

set.seed(24)
dat <- data.frame(x=rnorm(1e6))
system.time(dat %>% mutate(x = replace(x, x<0, NA)))
       User      System     elapsed
       0.03        0.00        0.03 
system.time(dat %>% mutate(x=ifelse(x<0,NA,x)))
       User      System     elapsed
       0.30        0.00        0.29 
system.time(setDT(dat)[x<0,x:=NA])
       User      System     elapsed
       0.01        0.00        0.02 
system.time(dat$x[dat$x<0] <- NA)
       User      System     elapsed
       0.03        0.00        0.03 
system.time(dat %>% mutate(x = "is.na<-"(x, x < 0)))
       User      System     elapsed
       0.05        0.00        0.05 
system.time(dat %>% mutate(x = NA ^ (x < 0) * x))
       User      System     elapsed
       0.01        0.00        0.02 
system.time(dat %>% mutate(x = replace(x, which(x<0), NA)))
       User      System     elapsed
       0.01        0.00        0.01

（我正在使用 dplyr_0.3.0.2 和 data.table_1.9.4）

由于我们始终对基准测试非常感兴趣，尤其是在 data.table-vs-dplyr 讨论过程中，我使用 microbenchmark 和 akrun 的数据提供了 3 个答案的另一个基准测试。注意我修改了dplyr1作为我的答案的更新版本：

set.seed(285)
dat1 <- dat <- data.frame(x=sample(-5:5, 1e8, replace=TRUE), y=rnorm(1e8))
dtbl1 <- function() {setDT(dat)[x<0,x:=NA]}
dplr1 <- function() {dat1 %>% mutate(x = replace(x, which(x<0L), NA))}
dplr2 <- function() {dat1 %>% mutate(x = NA ^ (x < 0) * x)}
microbenchmark(dtbl1(), dplr1(), dplr2(), unit='relative', times=20L)
#Unit: relative
#    expr      min       lq   median       uq      max neval
# dtbl1() 1.091208 4.319863 4.194086 4.162326 4.252482    20
# dplr1() 1.000000 1.000000 1.000000 1.000000 1.000000    20
# dplr2() 6.251354 5.529948 5.344294 5.311595 5.190192    20

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

dplyr

使用 dplyr 将某些值设置为 NA 的相关文章

R 中的“右”滚动平均值和“左”滚动平均值是什么？

如果我想计算之前的n意味着年份滞后于当年我将如何实现这一点它像右滚动平均窗口一样简单吗或者它是一个左滚动平均窗口我不确定这里使用哪个窗口样本数据 set seed 1234 dat lt data frame year c
我可以在 r 中使用传单“map_shape_click”事件来用数据表填充 box() 吗？

我已经在网络上搜索了好几个星期试图找到一个示例或代码来实现我想要用我的闪亮应用程序 shinydashboard 完成的任务我是 r 的新手我开始认为我想做的事情是不可能的我基本上有一个带有县多边形 shapefile 的传单地图
事后如何使用保存的.rds h2o模型进行预测？

我使用 mlr 和 h2o 包创建了一个 R 模型如下所示 library h2o rfh20 lrn makeLearner classif h2o randomForest predict type prob 完成模型调整模型启动
ggplot 中的条形图，每组有不同数量的条形图

我的数据集如下所示 DSET lt data frame cbind c rep V1 3 rep V2 3 V3 c rep c X1 X2 X3 2 X1 c rep 1 7 names DSET lt c A B C DSET 3 l
在 R 中，如何获得某些向量值的所有可能组合？

背景我有一个需要一些参数的函数我想要获得所有可能的参数组合的函数结果一个简化的例子 f lt function x y return paste x y sep colors c red green blue days c Monda
安装 R 包。包含目录为空。开发标头

我目前正在尝试运行一些最初在 2 11 0 下运行的 R 代码我使用的 R 版本 2 14 1 无法运行该代码我不熟悉 R 及其向后兼容性据我所知我的问题可能与版本无关我会很高兴得知这是我做错的事情其余的代码是无关紧要的即使我
基于两列对数据框中的行进行求和[重复]

这个问题在这里已经有答案了我想添加一列的值将它们按两列分组我找到了如何在一列上执行此操作但无法弄清楚如何在两列上执行此操作例如如果我有以下数据框 x c a a b b c c a a b b c c a a b b c c y
如何扩展 ggplot y 轴限制以包含最大值

通常在图中 Y 轴值标签会在绘制的最大值下方被截断 For example library tidyverse mtcars gt ggplot aes x mpg y hp geom point 我知道scale y continous
计算网格中物种的出现次数

我有大约500 000点R美国各地候鸟物种的出现数据我试图在这些点上覆盖网格然后计算每个网格中出现的次数统计完计数后我想将它们引用到网格单元 ID 在 R 中我使用了over 函数只获取范围图中的点这是一个形状文件 Read i
如何使用“downloadHandler”在闪亮的可反应内部创建下载按钮？

我创建downloadlinksa 的行内reactable 我这样做是为了DT datatable and a reactable reactable 我还创建了相应的output downloadHandler在 ids 上使用 app
R：从 Github 安装包时出现编码问题

我正在尝试安装dcStockR https github com yutannihilation dcStockR来自 Github 的包这是一个htmlwidgets http www htmlwidgets org 周围的包装纸dc
如何通过在R闪亮循环中读取.csv文件来动态生成dataTableOutput？

我有一个函数可以生成 n 个数据帧并将其作为 csv 文件保存在某个位置并且该函数返回已保存 CSV 的文件名我希望获取这些 csv 文件使用以下命令读取它read csv 然后使用 renderUI 和 renderDataTabl
OpenStreetMap 不显示在 RStudio 中（使用 R 3.2.1）

我正在使用来自的代码here https rstudio github io leaflet library leaflet m lt leaflet gt addTiles gt addMarkers lng 174 768 lat 36
正则表达式在 R 中同时多次包含字母/特殊字符时删除单词

我想删除那些单词中字母特殊字符的数量同时出现两次以上的单词例如输入就像 Google in theee lland of whhhat c c and e 输出应该是 Google in lland of c c and x lt G
将一长行带空格的数据导入R中

这个问题是我上一个问题的后续问题将一长行数据导入到 R 中 https stackoverflow com questions 8389913 我有一个由单行文本组成的大型数据文件格式类似于 Cat 14 15 Horse 16 我最终
使用 xtable 对乳胶输出的表进行排序

我正在尝试生成一个排序表并导出到乳胶中然而 xtable 似乎无法处理排序表建议 a lt sample letters 500 replace T b lt table a c lt sort table a decreasing T
如何使用 Rrank() 函数创建新的ties.method？ [复制]

这个问题在这里已经有答案了我试图按人口和日期排序这个数据框所以我使用order and rank 功能 gt df lt data frame idgeoville c 5 8 4 3 4 5 8 8 date c rep 1950 4
省略 RColorBrewer 调色板上较亮的颜色以在 ggplot2 中使用

我想在 RColorBrewer 的 Oranges 调色板中使用较深的颜色以便在我的 ggplot 条形图中使用然而我却做不到帮助下面是示例代码 my palette brewer pal n 9 Oranges 4 9 Bar
ggplot2以限制为中心的多边形世界地图给出了有趣的边缘

使用下面的代码我生成了一张以华盛顿特区为中心的地图解决方案基于科斯克的解决方案在这里 https stackoverflow com questions 10620862 use different center than the pri
如何在 R 中创建“堆叠瀑布”图表？

I was able to find several packages to create a waterfall chart in R which look like this But I could not find a way to

随机推荐

是否存在具有编程语言本地化版本的编译器？

我经常想知道为什么非英语程序员在编程时被迫使用不同的语言而提供一个可以用本地化版本替换关键字的 IDE 似乎很容易为什么德国人不能使用 w hrend macht 循环日本德国法国西班牙博茨瓦纳的程序员只是广泛使用宏定义语句
根据另一个向量对点向量进行排序

我正在开发一个 C 应用程序我有 2 个点向量 vector
显示：表格与使用表格

我想知道使用 CSS 显示属性来模拟一个非常简单的论坛系统的表格是否是一个好主意我知道这不是一件好事就像 2 年前那样当时 IE 和其他浏览器可能不支持 display table table cell 等但我认为现在所有浏览器都支
Keycloak 管理控制台无限期加载

我有一个在 EKS 集群中运行的 Keycloak 服务器我尝试将其配置为生产模式而不是开发模式我已经设法让 SSL 与反向代理一起使用但是当我进入管理控制台的登录页面时它只是无限期地加载这是我的配置 Dockerfile FRO
PHP 特征的 UML 表示

我正在使用 Symfony2 Doctrine 创建项目并尝试实现特征到目前为止小型试用没有问题但我通常在深入复杂项目之前先绘制 UML 类和序列图据我所知用于象征 PHP 特征可以视为行为的 UML 设计对象是什么有什么干
Java Webservice 客户端 UsernameToken 相当于 PHP

我有一个 PHP 构建的 Web 服务它使用 UsernameToken 作为身份验证机制我有可以访问此 Web 服务的 PHP 客户端代码现在我需要在 Java 中执行此操作也许你可以帮助我可以使用以下 php 代码访问该服务
静态方法是否共享其局部变量以及不同线程并发使用时会发生什么？

C 问题我试图确定是否可以使用静态方法在该方法内它确实使用了一些局部变量局部变量是否在该方法的使用中共享例如如果从不同线程同时调用使用静态方法会发生什么一个线程是否会阻塞直到另一个线程完成等也许普遍的问题是在线程应用程
更改Delphi OpenDialog的目录

该计划的一些背景该程序使用选项卡式界面同时处理多个文件我正在尝试更改 OpenDialog 的目录因此每次调用打开文件时都会显示我当前正在处理的文件的目录但即使我设置InitialDir对于文件的路径它始终显示最后打开的文件目录
GlassFish 5.0 异常且端口 4848 无响应

昨天我下载了 GlassFish 5 0 和 JDK9 当我尝试运行服务器时asadmin start domainGlassFish 发送给我例外当我尝试使用 asadmin start domainAfter 时我得到响应远程服务
获取 GridSearchCV 的标准差

在 scikit learn 0 20 之前我们可以使用result grid scores result best index 以获得标准差它返回例如 mean 0 76172 std 0 05225 params n neighbor
睡眠模式和深度睡眠模式有什么区别？

我想知道Android手机中的睡眠模式和深度睡眠模式有什么区别以及当手机进入睡眠模式和深度睡眠模式时会有什么影响请给我详细的答案问候皮克斯正如有人在已删除的答案中所写深度睡眠模式与休眠和启动时间没有任何关系 You should
如何使用 svg/canvas 绘制不规则/手绘线？

我想绘制一条可调整大小的垂直线基于页面内容但它似乎是手绘的而不是直线我目前正在考虑使用 SVG 或 Canvas 来实现这一点该线将沿着我的网页的一侧延伸因此需要在容器的顶部和底部之间可扩展我怎样才能实现这个目标那么你想画一
如何引用数据框表达式中的多个列？

写这个很笨拙 df a lt df b df c 有没有办法做到相当于 with df a lt b c 我们可以用with command df a lt with df b c 另一种选择是使用attach 然而不推荐 attach
MATLAB 中的信号量和锁

我正在开发一个 MATLAB 项目希望有两个 MATLAB 实例并行运行并共享数据我将调用这些实例MAT 1 and MAT 2 更具体地说该系统的架构是 MAT 1按顺序处理图像使用以下命令一一读取它们imread 并使用输出每个
C++11 与现有库/框架的兼容性

我想知道一些我还没有找到令人信服的答案的事情情况带有一些库例如 gtkmm 的系统在未启用 c 11 的情况下进行编译启用 C 11 编译的应用程序两者都使用相同的 GCC 版本环境进行编译和链接该应用程序对使用 std st
使用静态向量时_Orphan_range崩溃

在我的项目中我使用静态对象的构造函数来收集指针就像注册方法一样很简单没有魔法但在开始时我遇到了崩溃我无法解释这里发生了什么在使用 MSVC 或 Clang 的 Windows 上可以重现崩溃两者都使用 MSVC 标头给出以
conda 环境是否可以访问“root”环境？（==系统包）？

conda 中的根环境是什么它只是一个仅使用系统包的环境吗其他环境是否也使用系统包我假设优先考虑它们的重复版本或者我是否需要将所有软件包安装在我想要使用它们的环境中有没有办法将其配置为选项我安装了系统包但在 conda
需要一次遍历 SQL 表行（表太大而无法使用适配器。填充）

对我来说阅读这样一个小型 SQL Server 2005 表很容易 string cmdText select from myTable SqlDataAdapter adapter new SqlDataAdapter cmdText
AS3 函数中可以有“ByRef”参数吗？

任何想法如何返回多个变量来自 ActionScript 3 中的函数任何像 VB NET 这样的东西你都可以拥有输入参数的变量修改 ByRef 参数 Sub do ByRef inout As Integer inout 5 End Su
使用 dplyr 将某些值设置为 NA

我试图找出一种简单的方法来使用 dplyr 数据集 dat 变量 x 执行类似的操作 dat x dat x lt 0 NA 应该很简单但这是我目前能做的最好的事情有更容易的方法吗 dat dat gt mutate x ifelse

使用 dplyr 将某些值设置为 NA

使用 dplyr 将某些值设置为 NA 的相关文章

随机推荐

热门标签