R 检查重复项的速度非常慢，即使使用 mclapply

2024-01-15

我有一些涉及重复销售大量具有唯一 ID 的汽车的数据。一辆车可以多次出售。

然而，有些 Id 是错误的，因此我正在检查每个 Id 的尺寸在多次销售中是否记录为相同。如果不是，那么我就知道 Id 是错误的。

我正在尝试使用以下代码来做到这一点：

library("doMC")

Data <- data.frame(ID=c(15432,67325,34623,15432,67325,34623),Size=c("Big","Med","Small","Big","Med","Big"))
compare <- function(v) all(sapply( as.list(v[-1]), FUN=function(z) {isTRUE(all.equal(z, v[1]))}))

IsGoodId = function(Id){
  Sub = Data[Data$ID==Id,]
  if (length(Sub[,1]) > 1){
    return(compare(Sub[,"Size"]))
  }else{
    return(TRUE)
  }
}

WhichAreGood = mclapply(unique(Data$ID),IsGoodId)

但在我的四核 i5 上，速度慢得令人痛苦、非常、非常慢。

谁能看出瓶颈在哪里吗？我是 R 优化的新手。

谢谢， -N

看起来你的算法进行了 N^2 次比较。也许像下面这样的东西会更好地扩展。我们发现重复销售，认为这只是总数的一小部分。

dups = unique(Data$ID[duplicated(Data$ID)])
DupData = Data[Data$ID %in% dups,,drop=FALSE]

The %in%运算符的扩展性非常好。然后根据 id 拆分尺寸列，检查 id 是否具有多个尺寸

tapply(DupData$Size, DupData$ID, function(x) length(unique(x)) != 1)

这给出了一个命名的逻辑向量，其中 TRUE 表示每个 id 有多个大小。这与重复销售的数量大致呈线性关系；有一些聪明的方法可以让这个过程变得更快，所以如果你的重复数据本身很大......

嗯，我想再考虑一下这个问题

u = unique(Data)
u$ID[duplicated(u$ID)]

就可以了。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

Optimization

multicore

domc

mclapply

R 检查重复项的速度非常慢，即使使用 mclapply 的相关文章

使填充的值成为ggplot2中的实际填充

有没有办法让填充的值标签成为填充本身例如在堆积条形图中我有 require ggplot2 big votes movies movies movies votes gt 100000 p ggplot big votes mov
使用 Visual Studio 构建 R 包 (C API)

我正在尝试使用 Visual Studio 构建一个简单的 R 包这是我的代码 include
R2WinBUGS - 使用模拟数据进行逻辑回归

我只是想知道是否有人有一些使用 R2WinBUGS 包来运行逻辑回归的 R 代码理想情况下使用模拟数据来生成真相和两个连续协变量 Thanks 基督教 PS 生成人工数据一维情况并通过 r2winbugs 运行 winbugs 的
使用 R 中绘制的标准误差创建条形图

我试图找到在 R 中创建条形图并显示标准错误的最佳方法我看过其他文章但我无法弄清楚与我自己的数据一起使用的代码之前没有使用过 ggplot 这似乎是最常用的方法而 barplot 不与数据框合作我需要在两种情况下使用它我为此创建
R 中的优化函数可以接受目标、梯度和粗麻布吗？

我有一个想要优化的复杂目标函数优化问题需要相当长的时间来优化幸运的是我确实有可用的函数的梯度和粗麻布 R 中是否有一个优化包可以接受所有这三个输入 optim 类不接受 Hessian 矩阵我已经扫描了用于优化的 CRAN 任务页面
在r包中重新导出数据集

In R包有可能重新导出函数这使得很容易回收相同的函数而不必在不同的包之间重复代码例如 devtools session info函数是重新导出sessioninfo session info export importFrom s
不使用apply函数对data.table的每一行进行操作的方法

我在下面写了一个简单的函数 mcs lt function v ifelse sum diff sort v gt 6 gt 0 NA sd v 它应该采用一个向量对其进行排序然后检查每个连续差异中是否存在大于 6 的差异如果差值大于
R：使用 RGDAL 和 RASTER 包时抛出错误

给所有可能相关的人这是源代码 GRA D1 lt raster files 1 Sets up an empty output raster GRA D1 lt writeStart GRA D1 filename GRA D1 tif
从 foreach 循环赋值

我想并行化一个循环例如 td lt data frame cbind c rep 1 4 2 rep 1 5 rep 1 10 2 names td lt c val id res lt rep NA NROW td for i in l
当按多列分组时，如何命名 dplyr 中的 group_split 列表

我在 dplyr 中使用 group split 在分割了多个列后我很难命名列表当我们按一列分组时我知道该怎么做here https stackoverflow com questions 57107721 how to name t
为什么在强度降低乘法和循环进位加法之后，这段代码的执行速度会变慢？

我正在读书阿格纳雾 https en wikipedia org wiki Agner Fog s 优化手册 https en wikipedia org wiki Agner Fog Optimization 我遇到了这个例子 doub
有条件地将可选组替换为 gsub

一位用户问我如何做到这一点如何使 ggplot 图例中的选定单词变为斜体 https stackoverflow com questions 76054997 how to italicize select words in a ggplo
ggmap 错误：GeomRasterAnn 是使用不兼容版本的 ggproto 构建的

我正在使用 ggmap 并收到以下错误 Error GeomRasterAnn was built with an incompatible version of ggproto Please reinstall the package t
使用 gbuffer 在 R 中缓冲（地理）空间点

我正在尝试缓冲数据集中半径为 100 公里的点我正在使用该功能gBuffer从包装中rgeos 这是我到目前为止所拥有的 head sampledf postalcode lat lon city province 1 A0A0A0 47
使用facet时ggplot2控制每行的面板数量？

Is it possible to control the number of panels per row in a ggplot I can only get an equal number of panels on each row
用于更改向量中元素顺序的闪亮小部件

在很多网站上您都有一个拖放界面来更改列表中元素的顺序我正在寻找类似的东西闪亮我希望用户能够拖放列表中的元素通过更改顺序来更改优先级现在我有一个滥用的解决方案selectizeInput 这是可行的但当选择列表变得更大时它很快就
R 的 dplyr 切片中的奇怪行为

打电话时slice df i 在 R 的 dplyr 包中如果我要求的行索引不存在 nrows lt i 它似乎返回除组中的第一行之外的所有行就像我调用的那样slice df 1 例如 library dplyr c1 lt c a b
R：邻接表到邻接矩阵

Bonjour 我想将邻接列表 3 列转换为邻接矩阵在这个论坛中我找到了多个有关如何将边列表转换为邻接矩阵的示例我成功地为两列列表做到了这一点我已经尝试了在网上可以找到的所有解决方案但似乎我错过了一小步我尝试过的我的变量是用
如何更改 Quarto pptx 中的字体格式

我正在 R 中使用 Quarto 创建 pptx 要更改我尝试更改的默认字体格式mainfont范围但是当我渲染它时最终的 pptx 文件具有默认字体 Calibri 这是我的文件 YAML 将 Quarto 文件渲染为 pptx 时如
为 ggplot 定义新的尺度轴变换

我正在尝试创建一个squared使用 y 轴变换scales trans new但遇到错误 MWE data data frame x 1 10 y runif 10 z rnorm 10 10 library ggplot2 ggplot

随机推荐

如何针对不同的记录调用合适的项目处理器？

我有一个包含不同记录的平面文件页眉记录和页脚 HR RD FR 项目阅读器 Bean StepScope public FlatFileItemReader reader Value jobParameters inputFileNam
在 JavaFX 中使用大型 txt 文件（TextArea 替代品？）

我创建了一个简单的 GUI 其中有TextArea The TextArea本身将由一个Array 其中包含扫描的字符串 txt file 这对于较小尺寸的文件非常有用然而当使用大文件每个 txt 文件约 5MB 时 TextArea
ASP.NET 单选按钮检查更改事件未触发第一个单选按钮

我面临的问题是第一个单选按钮的已检查更改事件未触发我启用了ViewState但问题仍然存在请看下面的代码 span class pull right text right span
当我将栅格地图投影到新的 CRS（R 中的projectRaster 函数）时，为什么栅格地图的值会发生变化？

我需要将经纬度地图投影为方位角等距投影 map proj lt projectRaster map crs proj aeqd lon 0 48 lat 0 18 在我的原始地图中我有这些值 class RasterLayer dimens
Discord.py-Rewrite 当存在未知命令或其他错误时发送错误消息

我希望能够发送这样的消息await ctx send Error Unknown command Do help for acceptable commands 或类似的东西仅供参考我不是问如何删除Help is already a d
django manage.py 如何将项目包放在 sys.path 上

我读了 djangodoc https docs djangoproject com en dev ref django admin 和一些SO帖子来了解manage py和django admin py之间的区别他们都说 Manage
在导航抽屉关闭之前加载片段

我已经实现了一个导航抽屉我想在导航抽屉关闭之前加载我的片段目前片段加载与抽屉关闭并行因此如果片段很重用户界面会挂起一段时间我的代码是 private class DrawerItemClickListener implement
连接表中带有额外列的多对多映射

这是我希望拥有的域名 public class Person public int Id get set public IList
在 Python 中将列表元素打印在单独的行上

我正在尝试使用以下命令打印 Python 路径文件夹 import sys print sys path 输出是这样的 gt gt gt print sys path usr bin home student Desktop home st
突出显示 NSTextField 中的选择

我希望能够突出显示 NSTextField 中的部分文本但我无法通过 Google 搜索到执行此操作的方法我已经定义了一个 NSRange 但我找不到使用此范围来突出显示文本的方法我唯一发现的是 textField selectTex
在 Python 2.5 中解析带有微秒的日期时间字符串

我有一个文本文件其中包含大量 iso 格式的日期时间字符串字符串与此类似 2009 02 10 16 06 52 598800 这些字符串是使用生成的str datetime object 问题是由于某种原因 str datetime
jquery验证不等待远程验证返回true，认为表单有效

new component form validate errorClass input error rules comp data account name required true remote url validate data p
如何获取包含插入符号 (^) 的密码，将其作为参数原封不动地传递给 Windows 批处理文件？

Summary 从命令行在 Windows Server 2003 R2 上我键入 gt SET password a b gt ECHO password 结果是 ab 奇怪的插入符去哪儿了然后我尝试用来转义它但这些都没有
如何获得可等待的Thread.Sleep？

我正在编写一个基于等待睡眠范例的网络绑定应用程序有时会发生连接错误根据我的经验等待一段时间然后再次重试操作是值得的问题是如果我在等待异步中使用 Thread Sleep 或其他类似的阻塞操作它会阻塞调用者线程中的所有活动
包 android.support.v7.internal.view.menu 不存在：找不到符号类 MenuBuilder

我刚刚升级了我的支持库compile com android support appcompat v7 23 1 1 from compile com android support appcompat v7 23 1 0 它给了我这个错误
集合协调算法的实现

我正在寻找集合协调算法的实现问题如下有两个集合其元素由一些相对紧凑的值例如 UUID 或 MD5 SHA1 任何哈希值标识位于不同的计算机上这些集合在相对较少的元素上有所不同我想在传输最少量数据的同时同步这些集合大多数谷歌
symbolicatecrash 不适用于 dSYM，但“atos”可以使用

打扰一下有个问题让我很困惑我有 Myapp app dSYM 所有符号已从 MyApp app 中剥离并复制到 dSYM 现在我使用symbolicatecrash工具来符号化崩溃它不起作用十六进制地址仍然存在我的崩溃日志的一部分
如何在 Flutter 中调整 IconButton 的大小（高度和宽度）

如何在 Flutter 中调整 IconButton 的大小高度和宽度似乎它需要默认的宽度和高度没有高度或宽度属性 new IconButton padding new EdgeInsets all 0 0 color themeDa
如何在 pygame.draw.lines 中为每条线使用不同的颜色

我最近开始学习pygame这就是我的问题无论如何我可以为使用绘制的每条线使用不同的颜色pygame draw lines 这是我的代码 import pygame pygame init screen pygame display se
R 检查重复项的速度非常慢，即使使用 mclapply

我有一些涉及重复销售大量具有唯一 ID 的汽车的数据一辆车可以多次出售然而有些 Id 是错误的因此我正在检查每个 Id 的尺寸在多次销售中是否记录为相同如果不是那么我就知道 Id 是错误的我正在尝试使用以下代码来做到这一点 l

R 检查重复项的速度非常慢，即使使用 mclapply

R 检查重复项的速度非常慢，即使使用 mclapply 的相关文章

随机推荐

热门标签