在大型数据表中替换 NA 的最快方法

2024-01-08

我有一个大数据表 http://cran.r-project.org/web/packages/data.table/index.html，许多缺失值分散在大约 20 万行和 200 列中。我想尽可能有效地将这些 NA 值重新编码为零。

我看到两个选择：
1：转换为data.frame，并使用一些东西像这样 http://r.789695.n4.nabble.com/How-to-replace-all-lt-NA-gt-values-in-a-data-frame-with-another-not-0-value-td2125458.html
2：某种很酷的data.table子设置命令

我会对类型 1 的相当有效的解决方案感到满意。转换为 data.frame 然后再转换回 data.table 不会花费太长时间。

这是一个使用的解决方案数据表 http://r-datatable.com's :=运营商，以 Andrie 和 Ramnath 的答案为基础。

require(data.table)  # v1.6.6
require(gdata)       # v2.8.2

set.seed(1)
dt1 = create_dt(2e5, 200, 0.1)
dim(dt1)
[1] 200000    200    # more columns than Ramnath's answer which had 5 not 200

f_andrie = function(dt) remove_na(dt)

f_gdata = function(dt, un = 0) gdata::NAToUnknown(dt, un)

f_dowle = function(dt) {     # see EDIT later for more elegant solution
  na.replace = function(v,value=0) { v[is.na(v)] = value; v }
  for (i in names(dt))
    eval(parse(text=paste("dt[,",i,":=na.replace(",i,")]")))
}

system.time(a_gdata = f_gdata(dt1)) 
   user  system elapsed 
 18.805  12.301 134.985 

system.time(a_andrie = f_andrie(dt1))
Error: cannot allocate vector of size 305.2 Mb
Timing stopped at: 14.541 7.764 68.285 

system.time(f_dowle(dt1))
  user  system elapsed 
 7.452   4.144  19.590     # EDIT has faster than this

identical(a_gdata, dt1)   
[1] TRUE

请注意，f_dowle 通过引用更新了 dt1。如果需要本地副本，则显式调用copy需要函数来制作整个数据集的本地副本。数据表的setkey, key<- and :=不要写时复制。

接下来，让我们看看 f_dowle 都把时间花在哪里了。

Rprof()
f_dowle(dt1)
Rprof(NULL)
summaryRprof()
$by.self
                  self.time self.pct total.time total.pct
"na.replace"           5.10    49.71       6.62     64.52
"[.data.table"         2.48    24.17       9.86     96.10
"is.na"                1.52    14.81       1.52     14.81
"gc"                   0.22     2.14       0.22      2.14
"unique"               0.14     1.36       0.16      1.56
... snip ...

在那里，我会重点关注na.replace and is.na，其中有一些矢量副本和矢量扫描。通过编写一个小的 na.replace C 函数来更新，可以很容易地消除这些问题NA通过向量中的引用。我认为这至少可以将 20 秒时间缩短一半。 R包中是否存在这样的函数？

原因f_andrie失败可能是因为它复制了整个dt1，或者创建一个与整个dt1，几次。其他 2 种方法一次只适用于一列（尽管我只是简单地了解了NAToUnknown).

EDIT（拉姆纳特在评论中要求的更优雅的解决方案）：

f_dowle2 = function(DT) {
  for (i in names(DT))
    DT[is.na(get(i)), (i):=0]
}

system.time(f_dowle2(dt1))
  user  system elapsed 
 6.468   0.760   7.250   # faster, too

identical(a_gdata, dt1)   
[1] TRUE

我希望我一开始就这样做！

EDIT2（一年多后，现在）

还有set()。如果有很多列被循环，这会更快，因为它避免了调用的（小）开销[,:=,]循环中。set是一个可循环的:=. See ?set.

f_dowle3 = function(DT) {
  # either of the following for loops

  # by name :
  for (j in names(DT))
    set(DT,which(is.na(DT[[j]])),j,0)

  # or by number (slightly faster than by name) :
  for (j in seq_len(ncol(DT)))
    set(DT,which(is.na(DT[[j]])),j,0)
}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

在大型数据表中替换 NA 的最快方法的相关文章

在 R 中，为什么 sum 与其他方法（例如 cumsum）相比如此慢？

我正在尝试实现一个需要非常快的函数主要是因为它一遍又一遍地处理巨大的数据帧 R 总是让我感到困惑为什么它有时有点慢而有时又慢得离谱不幸的是它从来都不快不管怎样我一直认为如果可能的话当以某种方式推入 apply sapply
geom_polygon 的渐变填充

此代码生成一个包含 3 个多边形的图表我正在创建一个显示 3 个多边形的图表如果有更好的方法来绘制多边形我不太感兴趣实际上这些多边形代表事件并且这些事件有一个持续时间首先我感兴趣的是使用渐变填充每个多边形的可能性 librar
如何在 R 中解析堆叠多个 JSON 的文件？

我在 R 中有以下堆叠 JSON 对象 example1 json ID 12345 Timestamp 20140101 Usefulness Yes Code event1 A result 1 ID 1A35B Timestamp
如何在 R 中“推断”面板数据的值？

我有一个带有 NA 值的面板数据如下所示 uid year month day value 1 1 2016 8 1 NA 2 1 2016 8 2 NA 3 1 2016 8 3 30 4 1 2016 8 4 NA 5 1 2016
R：中断 for 循环

你能确认下一个break是否取消了内部for循环吗 for out in 1 n old id velho lt old table df id out for in in 1 n id novo lt new table df ID in
R 中的 ddply：对于每个组，查找特定变量的出现百分比

我有一个数据集其中包含两列 user type 和滞后响应时间以天为单位 user type imp date lag Consumer 20130613 1 Consumer 20130612 2 Consumer 20130611
将函数应用于矩阵列表

我有一个矩阵列表注意它们的维度与此示例不同 x lt matrix 1 10 ncol 2 y lt x 300 mylist lt list x y 我想运行一个函数networklevel在矩阵列表中的每个矩阵上该函数有各种可以计
如何从R中串扰的filter_select中删除（全部）？

我遵循图 16 7 的示例https plotly r com client side linking html https plotly r com client side linking html并且无法弄清楚为什么有一个名为全部的
r：按多列分组并计数

我有以下数据框 df LeftOrRight SpeedCategory NumThruLanes R 25to45 3 L 45to62 2 R Gt62 1 我想按速度类别对其进行分组并循环遍历其他列以获取每个速度类别中每个唯一代码的
AtomicInteger 实现和代码重复

警告问题有点长但分隔线以下的部分仅供好奇 Oracle 的 JDK 7 实现原子整数 http docs oracle com javase 7 docs api java util concurrent atomic AtomicIn
R 带有列和行的分面 qqplots

我需要使用按行和列的构面创建 qqplot 我了解如何用列和行绘制分面图但我不确定如何设置我的数据最终我想按列和行对数据集进行分组然后按升序对建模结果和观察到结果进行排序同时添加带有行组的列和带有列组的列我一直在
从受密码保护的站点读取信息

我一直在 R 教程中使用 readLines 从网站上抓取信息我现在希望从我自己的网站提取数据特别是 awstats 数据但是该域受密码保护有没有一种方法可以通过用户名和密码传递我需要的特定 awstats 数据的 url url
ggsubplot 是否适用于 R 3.2.1+？

CRAN 提供的 ggsubplot 版本与 R 的最新版本例如 3 1 1 不兼容运行 ggsubplot 示例会返回以下错误 Error in layout base data vars drop drop At least one
data.table 的包装函数

我有一个已经使用 data frame 上下文编写的项目为了缩短计算时间我尝试利用 data table 的速度我的方法是构造包装函数读取帧将它们转换为表进行计算然后转换回帧这是一个简单的例子 FastAgg lt func
使用 roxygen2 导入两个同名函数

我是 CRAN 包的维护者在加载时收到以下消息 checking whether package qdap can be installed 10s 10s WARNING Found the following significant
如何在 R Markdown 中的内联 LateX 方程中输出 R 变量的值（即动态更新）

我无法找到一种方法将 r 代码实现到 R markdown 中的内联 LateX 方程中目标是如果变量值发生变化则不必对它们的值进行硬编码 Given values lt c 1 4 2 5 7 9 avg lt sum value
用 OpenCL C 编写快速线性系统求解器

我正在编写一个 OpenCL 内核它将涉及求解线性系统目前我的内核太慢了提高线性系统部分的性能似乎是一个不错的起点我还应该注意我并没有尝试使我的线性求解器并行我正在研究的问题在宏观层面上已经是令人尴尬的并行以下是我编写的 C
行方向变异的有效方法

我有两个数据框 dfUsers and purchases使用以下代码生成 set seed 1 library data table dfUsers lt data table user letters 1 5 startDate sam
在 Python 中伪造一个对象是否是类的实例

假设我有一堂课FakePerson它模仿基类的所有属性和功能RealPerson 不扩展它在Python 3中是否可以伪造isinstance 为了认识到FakePerson as a RealPerson只通过修改对象FakePers
如何通过组度量的平均值在 df 内排列 dplyr:: 组？

借鉴吴卡拉的设计https stackoverflow com a 26555424 9350837 https stackoverflow com a 26555424 9350837答案我希望根据各个组汇总测量的平均值对分组 df 进

随机推荐

:"缺少图片","error_user_msg":"请指定与此广告一起投放的图片

我遇到了这个错误并且缺少图片 error user msg 请指定与此广告一起投放的图片奇怪的是 fcebook 返回给我图像的哈希值 Api init APP ID APP SECRET ACCESS TOKEN user new A
是否可以使用fcm推送通知来开发flutter windows桌面？

我正在考虑使用 dart 和 flutter 开发一个 Windows 桌面应用程序但我不知道如何将 Firebase 云消息传递与其集成任何建议将不胜感激提前致谢目前 firebase messaging flutter 包中没有
CSS 中设备屏幕分辨率如何缩放？

以下是一些流行手机的屏幕分辨率 iPhone 6 1334 x 750 三星盖乐世 S5 1920x1080 在 CSS 中我们有媒体查询例如 media only screen max width 600px 这是针对小屏幕的上面两
Android 2.1 gridview不显示

我正在尝试在网格视图中显示一些图像我的代码适用于 android 2 2 和 2 3 但不适用于 2 1 在 android 2 1 中网格始终是空的不可见的我用于网格视图的代码是这样的 gridview GridView find
上传 Twitter 视频错误 (PHP)。 API 响应：分段加起来不等于提供的总文件大小

我正在尝试使用 API 和 tmhOAuth 请求将视频上传到 Twitter 但是我从 Twitter 收到错误片段加起来不等于提供的总文件大小我检查了块大小与 INIT 命令中提供的大小它们是相等的你能帮我找到解决方案吗这是我用
来自 nginx 的 $ssl_early_data：应用程序应该以某种方式使用它吗？

我正准备开启nginxssl early data https nginx org en docs http ngx http ssl module html ssl early data使用 TLS 1 3 启用 RTT 0 我知道如果
休眠合并

我正在测试休眠状态并将此查询提供给 transaction session beginTransaction city new City A city City session merge city city setName B trans
如何禁用/删除离子按钮 Ionic 4 中的离子波纹效果？

我需要禁用默认设置ion ripple effect在离子按钮中
为工作单元上的多个 EF 上下文做准备 - TransactionScope

我正在考虑实现处理多个数据源的单个工作单元的选项实体框架我想出了一个尝试性的方法现在处理单一上下文但这显然不是一个好主意如果我们分析下面的代码您会认为它是一个糟糕的实现吗事务范围的生命周期是否是一个潜在问题当然如果我们用不
Pandas 数据框按多列分组

给定一个包含两个日期时间列的数据框A and B和一个数字列C 如何分组month两者的A and B and sum C i e In 1 df Out 1 A B C 0 2013 01 01 2013 01 01 0 282863 1
在窗口函数的 FILTER 子句中引用当前行

In PostgreSQL 9 4窗口函数有一个新选项FILTER选择窗框的子集进行处理文档提到了它但没有提供示例在线搜索产生了一些样本包括来自第二象限 http blog 2ndquadrant com the within gr
将字符串转换为嵌套列表中的浮点数

我有一个列表列表其中包含数字和单词字符串我只想将那些数字字符串转换为浮点数 aList hi 1 33 bye 1 555 首先您需要一个函数来执行如果可能的话将字符串转换为浮点数否则将其保留为字符串 def floatify s
VB.Net 表单非共享方法被引用为共享方法？

尽管我主要是一名 C 开发人员但我正在为 VB Net 应用程序提供支持我遇到过我认为奇怪的代码因为我的 C 思维方式告诉我该代码是错误的不应该编译但它确实编译了我做了一个查找所有参考文献在特定的表单上查看它的使用位置并找
母版页和视图中的表单

我有一个母版页我的所有视图都继承自该母版页我遇到的问题是在母版页中创建的表单标签然后是在视图中创建的表单标签由于表单位于母版页表单内因此我的所有回发都会发送到控制器 Index 方法这迫使我创建一个新方法 Index 来强制使用
如何在 Ruby 中取消类的定义？

在 Ruby 中取消定义方法非常简单我可以使用undef METHOD NAME 有类似的班级吗我在MRI 1 9 2 我必须取消定义 ActiveRecord 模型运行两行代码然后将模型恢复到其原始形式问题是我有一个模型Con
为什么派生类属性值在基类构造函数中看不到？

我写了一些代码 class Base Default value myColor blue constructor console log this myColor class Derived extends Base myColor re
组合扩展器和网格（可调整大小的扩展器）

我想要一个类似可调整大小的扩展器之类的东西我的基本想法是这样的
Python 3.x 导入错误 SyntaxError [重复]

这个问题在这里已经有答案了我正在使用 macOS Sierra 导入时builtwith我收到以下错误 Daniels MacBook Pro Daniel python Python 3 5 2 Anaconda 4 2 0 x86 6
ImportError：无法导入名称“_ColumnEntity”Ubuntu20.10 [重复]

这个问题在这里已经有答案了 pip install apache superset 然后我写了 superset db upgrade 我收到以下错误 Traceback most recent call last File home co
在大型数据表中替换 NA 的最快方法

我有一个大数据表 http cran r project org web packages data table index html 许多缺失值分散在大约 20 万行和 200 列中我想尽可能有效地将这些 NA 值重新编码为零我看到两

在大型数据表中替换 NA 的最快方法

在大型数据表中替换 NA 的最快方法 的相关文章

随机推荐

热门标签

在大型数据表中替换 NA 的最快方法的相关文章