数据表和并行计算

2024-02-04

继这篇文章之后：R 中的多核和 data.table https://stackoverflow.com/questions/14697670/multicore-and-data-table-in-r，我想知道在使用 data.table 时是否有办法使用所有核心，通常按组进行计算可以并行化。看起来plyr通过设计允许此类操作。

首先要检查的是data.tableFAQ 3.1 第 2 点已深入：

只为最大的组分配一次内存，然后内存被其他组重用。垃圾很少去收集。

这就是 data.table 分组速度很快的原因之一。但这种方法不适合并行化。并行化意味着将数据复制到其他线程，这会消耗时间。但是，我的理解是data.table分组通常比plyr with .parallel无论如何。这取决于每个组任务的计算时间，以及该计算时间是否可以轻松减少。移动数据通常占主导地位（当对 1 或 3 次大数据任务运行进行基准测试时）。

到目前为止，更常见的情况是，实际上是一些问题困扰着我们。j的表达[.data.table。例如，最近我们看到性能不佳data.table分组但罪魁祸首竟然是min(POSIXct) (在 R 中聚合超过 80K 个唯一 ID https://stackoverflow.com/questions/14590596/aggregating-in-r-over-80k-unique-ids）。避免这个问题可以使速度提高 50 倍以上。

所以口头禅是：Rprof, Rprof, Rprof.

此外，同一常见问题解答中的第 1 点可能很重要：

仅该列被分组，其他 19 列被忽略，因为 data.table 检查 j 表达式并意识到它没有使用其他栏目。

So, data.table实际上根本不遵循拆分-应用-组合范例。它的工作原理不同。拆分-应用-组合适合并行化，但它确实无法扩展到大数据。

另请参阅 data.table 简介小插图中的脚注 3：

我们想知道有多少人正在将并行技术部署到代码中这就是矢量扫描

这试图说“当然，并行速度明显更快，但对于高效算法来说，它真正需要多长时间？”。

但是如果你已经分析过（使用Rprof），以及每组的任务真的是计算密集型，那么 datatable-help 上的 3 个帖子（包括“多核”一词）可能会有所帮助：

当然，有很多任务在 data.table 中并行化会很好，并且有一种方法可以做到这一点。但它还没有完成，因为通常还有其他因素影响，所以它的优先级较低。如果您可以发布可重复的虚拟数据以及基准和 Rprof 结果，这将有助于提高优先级。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

数据表和并行计算的相关文章

R ggplot 中的柯尔莫哥洛夫-斯米尔诺夫图

我正在尝试在 r 中绘制 KS 图一切似乎都很顺利除了我只能使用颜色来可视化两个不同的样本而不是线型这一事实我已经尝试过以下方法 sample1 lt SD13009 sample2 lt SD13009PB group lt c r
更新 R6 对象实例中的方法定义

如何更新 R6 类实例的方法定义正如我所期望的 S3 使用当前的方法定义对于 R5 参考类我可以使用 myInstance myInstance copy 在 R6 中我尝试了 myInstance myInstance clone
sapply - 保留列名称

我试图总结数据集中许多不同列变量的平均值标准差等我已经编写了自己的汇总函数以准确返回我需要和正在使用的内容sapply立即将此函数应用于所有变量它工作正常但是返回的数据帧没有列名我似乎甚至无法使用列号引用重命名它们也就是说
在 R 的 for 循环中创建动态命名对象并分配动态值

我正在尝试创建一套动态命名的新对象例如 temp2015 使用 for 循环并存储动态值具体来说其他对象的名称例如 Y2015 和 for 循环中使用的值例如 2015 在动态命名的新对象中我不确定为什么下面的代码不起作用 Y
在 RMarkdown 输出到 PDF 时缩进而不添加项目符号点或编号

之前有人问过如何在没有项目符号的情况下缩进文本 RMarkdown 中的点但这是针对 HTML 输出的在 RMarkdown 中缩进而不添加项目符号点或数字 https stackoverflow com questions 47087
在网格中制作一个矩形图例，并标记行和列

我有一个 ggplot 我将因子映射到填充和 alpha 如下所示 set seed 47 the data lt data frame value rpois 6 lambda 20 cat1 rep c A B each 3 cat2
如何为自定义 S3 类实现提取/取子集 ([ [<-, [[ [[<-)] 函数？

我有一个自定义的 S3 类foo 它在正常的基础上添加了一些自定义行为data frame foo object lt data frame class foo object lt c foo data frame 对于这个类还应该有一个
DataTable.GetChanges() 不断返回 NULL

我正在尝试获取存在于的所有行allData但不在removeData public static DataTable RemoveDuplicateRows DataTable allData DataTable removeData re
当将遗传算法与 lme4 一起使用时，glmulti 无限期运行

我在 R 中使用 glmulti 进行模型平均我的模型中有大约 10 个变量使得详尽的筛选不切实际因此我需要使用遗传算法 GA 调用 method g 我需要包含随机效应因此我使用 glmulti 作为 lme4 的包装器此处提供
需要在R中跳过不同数量的行

我正在使用以下代码来处理我的数据但最近我意识到使用skip 27 在数据开始之前跳过存储在我的文件中的信息不是一个好的选择因为每个文件中要跳过的行数不同我的目标是读取存储在多个文件夹中的各种txt文件并非所有文件都有相同的列数列的
使用 MPI 的 Allreduce 对 Python 对象求和

我正在使用使用 Python 中的字典和计数器构建的稀疏张量数组操作我想让并行使用这个数组操作成为可能最重要的是我最终在每个节点上都有计数器我想使用 MPI Allreduce 或另一个不错的解决方案将其添加在一起例如使用计数
使用点阵个性化 R 上显示的 X 轴值

我收集了大量包含日期客户端及其 NFS 使用情况的数据我正在使用lattice R包进行绘图正如对超级用户的建议 https superuser com questions 523195 plot custom log data on
R：单纯形错误：在下标赋值中不允许使用 NA

对于以下具有目标函数和约束的最小化 boot simplex返回错误 Error in tab pr lt tab pr tab pr pc pv o tab pr NAs are not allowed in subscripted as
计算 R 行中的非零条目数

我有以下类型的数据 mode1 mode2 mode3 1 8 1 0 2 0 0 0 3 6 5 4 4 1 2 3 5 1 1 1 数据使用dput structure list mode1 c 8L 0L 6L 1L 1L mode2
多处理：仅使用物理核心？

我有一个函数foo它消耗大量内存我想并行运行多个实例假设我有一个有 4 个物理核心的 CPU 每个核心有两个逻辑核心我的系统有足够的内存来容纳 4 个实例foo并行但不是 8 个此外由于这 8 个核心中的 4 个是逻辑核心我也不
在 Google Colab 上的 R 笔记本中安装 python 库

我正在尝试在 Google Colab 上的 R 笔记本中安装 python 库为此我使用 reticulate 包 library reticulate py install pandas 但我得到的结果是这个错误 Error coul
如何将参数从 Excel/VBA 传递到 Rstudio 中的脚本

我正在尝试使用 Rstudio 从 VBA 打开 R 脚本同时将参数传递给 R 脚本然后我可以使用 commandArgs 访问该脚本该问题与此处描述的问题非常相似 WScript Shell 用于运行路径中包含空格且来自 VBA 的
更改 R 中 ggplot geom_polygon 的颜色方案

我正在使用地图库和 ggplot 的 geom polygon 创建地图我只是想将默认的蓝色红色紫色配色方案更改为其他颜色我对 ggplot 非常陌生所以如果我没有使用正确的数据类型请原谅我使用的数据如下所示 gt head
在 RGL 中将立方体绘制到 3D 散点图中

我正在尝试向 3D 散点图添加较小的立方体网格具有指定边长我希望立方体位于原点我该怎么做呢我已经玩过cube3d 但我似乎无法将立方体正确定位也无法使其成为网格因此我可以看到它包含的数据点这是我所拥有的 library rg
在闪亮的数据表中为每个单元格显示工具提示或弹出窗口？

有没有什么方法可以为 r闪亮数据表中的每个单元格获取工具提示有很多方法可以获取悬停行或列但我找不到一种方法来获取行和列索引并为每个单元格显示不同的悬停工具提示任何人都可以修改以下代码吗 library shiny library DT

随机推荐

PHP 关联数组是有序的吗？

我来自 python 背景类似的 python 数据类型字典是无序的键值对的集合我想知道 PHP 关联数组是否是无序的他们似乎是被命令的 test array test gt test bar gt bar var dump te
我可以在 ASP.NET Core MVC 应用程序中将配置从 appsettings.json 移动到数据库吗？

我有这个应用程序使用appsettings json存储一些配置如 API 地址令牌保存文件的路径等我们没有 DevOps 因此对于我们在应用程序设置中所做的每项更改我们需要要求基础架构团队将更改部署到生产中也就是说我在想是否
通过从本地 C 样式数组返回指针来获取悬空指针

我对下面的代码有点困惑 include
Rails 4、邮件预览、预览附加图像

我对 Rails 4 1 6 邮件预览有问题我想在预览模式下查看附加的图像但它不起作用我认为这是不正确的有我的代码邮件文件 class AppMailer lt ActionMailer Base default from ema
将 HTML 转换为 doc(x) 和/或 PDF [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我必须将 html 转换为 doc x 和 pdf 格式我找到了 aspose 但是这个工具可以完成比我需要的更多的工作这就是为什么它
Postgres 的文本列不喜欢我的 zlib 压缩数据

是否有更好的数据类型可用于在 Postgresql 中存储 zlib 压缩字符串 Use bytea http www postgresql org docs 8 4 interactive datatype binary html byt
每次向上或向下滚动时 Wow.js 都会重复动画

我对 Jquery 还很陌生我希望我的 Wow js 动画可以运行多次例如我滚动到页面底部并看到所有动画如果我滚动回顶部我会再次看到动画就像向下滚动时一样我希望我能解释清楚我已经看到许多网站在其页面上重复动画但不幸的是我不
lambda 捕获的变量存储在哪里？

这个例子怎么可能有效呢它打印6 include
Blender 镜像修改器不导出镜像的一半

当我在搅拌机中使用镜像修改器并导出碰撞 dae 时我导出的对象不包含镜像的一半而只包含我未删除面的一侧 Help When exporting to DAE look in your Toolshelf Properties and
eclipse插件项目可以依赖java项目吗

我有一个 eclipse 插件项目它依赖于我的 eclipse 中的 java 项目通常我所做的是将项目导出为 jar 并在插件中按原样使用它但这需要手动工作我可以从我的插件项目中获取对编译时和运行时依赖项的 java 项目的引用吗
使用 Python 生成具有 p 值的 Seaborn 相关矩阵

我有一个在seaborn中生成的对角相关矩阵我想屏蔽掉 p 值大于 0 05 的那些这是我所拥有的https i stack imgur com 16Rky jpg https i stack imgur com 16Rky jpg s
如何限制控件在另一个控件范围内的移动

我正在创建一个应用程序我可以在其中移动Labels位于PictureBox 问题是我希望这些只移动标签inside the PictureBox 这是我的代码 protected void lbl MouseMove object sen
我无法使用我在 sql azure 中创建的用户登录[关闭]

Closed 这个问题是无关 help closed questions 目前不接受答案我在 sql azure 中创建了一个登录名和一个用户但我无法登录我只能用管理员帐户连接如何使用我创建的用户登录我也一直在努力解决这个问题经
在 Mac OSX 10.9“Mavericks”上安装 mod_mono

我正在尝试在 mavericks 上安装 mod mono 但是出现错误我有最新的单声道版本支持 Mavericks 第 3 2 3 节 When I configure prefix usr在 mod mono 版本 2 10 中我收
HTML5 FileReader API 中 readAsBinaryString() 和 readAsDataURL() 之间的区别

在HTML5中引入了FileReader API 我无法真正理解 readAsBinaryString 和 readAsDataURL 之间的区别我阅读了几个地方的文档但仍然不能完全理解有人可以提供一些代码示例来帮助我理解差异吗如
JS Number.MAX_SAFE_INTEGER 和 MAX_VALUE 有什么区别？

Number MAX SAFE INTEGER 9007199254740991 数量 MAX VALUE 1 7976931348623157e 308 我明白如何MAX SAFE INTEGER是基于 JavaScript 的双精度浮点
输出到 csv 文件将数据转储到浏览器，但不转储到文件

我尝试在 golang beego 框架中将一些数据输出到 csv 文件这是我的代码 records make string len devicesData for k v range devicesData records k stri
卸载 Microsoft ASP.NET 和 Web 工具

我认为此扩展导致我的 Visual Studio 2015 Update 2 出现问题但我无法卸载它在扩展下它已列出但删除禁用按钮呈灰色我在删除程序功能下也找不到它我到底如何卸载这个扩展通过其安装程序卸载下载
VSCode 自动导入不适用于干净的角度项目

使用 Typescript 3 9 7 拥有一个干净的 Angular 10 项目一些自动导入和建议不起作用例如我开始输入 FormsM 它应该出现 FormsModule 来自动完成并从 angular forms 自动导入但此选
数据表和并行计算

继这篇文章之后 R 中的多核和 data table https stackoverflow com questions 14697670 multicore and data table in r 我想知道在使用 data table 时

数据表和并行计算

数据表和并行计算 的相关文章

随机推荐

热门标签

数据表和并行计算的相关文章