子集数据帧的最有效方法

2024-03-06

任何人都可以建议在不使用的情况下对数据框进行子集化的更有效方法SQL/indexing/data.table选项？

我寻找了类似的问题，并且this one https://stackoverflow.com/questions/12479238/data-frame-subset-performance建议索引选项。

以下是对时间进行子集化的方法。

#Dummy data
dat <- data.frame(x = runif(1000000, 1, 1000), y=runif(1000000, 1, 1000))

#Subset and time
system.time(x <- dat[dat$x > 500, ])
#   user  system elapsed 
#  0.092   0.000   0.090 
system.time(x <- dat[which(dat$x > 500), ])
#   user  system elapsed 
#  0.040   0.032   0.070 
system.time(x <- subset(dat, x > 500))
#   user  system elapsed 
#  0.108   0.004   0.109

EDIT:正如罗兰建议我用的微基准测试 http://cran.r-project.org/web/packages/microbenchmark/index.html。它似乎which表现最好。

library("ggplot2")
library("microbenchmark")

#Dummy data
dat <- data.frame(x = runif(1000000, 1, 1000), y=runif(1000000, 1, 1000))

#Benchmark
res <- microbenchmark( dat[dat$x > 500, ],
                       dat[which(dat$x > 500), ],
                       subset(dat, x > 500))
#plot
autoplot.microbenchmark(res)

正如罗兰建议的那样，我使用了微基准测试。它似乎which表现最好。

library("ggplot2")
library("microbenchmark")

#Dummy data
dat <- data.frame(x = runif(1000000, 1, 1000), y=runif(1000000, 1, 1000))

#Benchmark
res <- microbenchmark( dat[dat$x > 500, ],
                       dat[which(dat$x > 500), ],
                       subset(dat, x > 500))
#plot
autoplot.microbenchmark(res)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

performance

r

DataFrame

subset

子集数据帧的最有效方法的相关文章

Django 中的 Rpy2 错误 - 未为“”类型的对象定义转换“py2rpy”

我以前从未使用过 R 并且正在尝试使用 rpy2 从 python 调用 R 函数它可以在独立的 python 终端上运行但不能在 Django 中运行但rpy2似乎无法将python字符串转换为r对象我正在使用同事提供的自定义库
rpart是自动剪枝吗？

Is rpart自动修剪生成的决策树rpart比具有自动修剪功能的 Oracle Data Mining 生成的级别要多得多否但拟合函数的默认值可能会提前停止分割对于早期的某些定义 See rpart control对于您可
优化数据可视化 Web 应用程序的性能

我正在重写 3 年前编写的数据可视化网络工具从那时起浏览器的 JavaScript 引擎变得更快所以我正在考虑将部分工作从服务器转移到客户端在页面上数据在表格和地图或图表中可视化它使用相同的数据但以不同的方式因此准备显示
在 Shiny 中叠加两个 ggplot

我有一个非常大的数据集我正在使用 ggplot 在 Shiny 上绘制它我有一个与 x 轴上的值相关联的滑块我想用它对选定的数据子集重新着色并让其余数据保持原样最简单的选择是重新创建整个绘图但由于它是一个大型数据集因此这是一个
matplotlib 中的 R 风格数据轴缓冲区

R 绘图自动设置 x 和 y 限制以在数据和轴之间留出一些空间我想知道 matplotlib 是否有办法自动执行相同的操作如果没有是否有一个好的公式或经验法则来说明 R 如何设置其轴限制在 matplotlib 中您可以通过
Python——捕获异常的效率[重复]

这个问题在这里已经有答案了可能的重复 Python 常见问题解答异常有多快 https stackoverflow com questions 8107695 python faq how fast are exceptions 我记得
为每个因素级别添加日期时间序列

我有一个带有因子列的数据框 s lt data frame id 901 910 s id lt as factor s id 我有一个日期时间序列 library lubridate start lt now as difftime 2
在`rmarkdown`中，如何在句子中添加图标？

In rmarkdown 如何在句子中添加图标例如如下如何添加markdown icon单词 Markdown 和 is 之间有一个很好的 R 包可以轻松下载 RMarkdown 文档并将图标添加到其中 icons https gi
在 R 中导入 csv 文件时如何保留前导零？

当我写一个 csv来自 R 的文件其中我的组名称以前导零值开头前导零被保留但是当我导入 csv前导零被删除组名称被转换为整数当我导入一个组时如何保留组名称中的前导零 csvR 中的文件 Example df lt data fr
R data.table 多个条件连接

我设计了一种解决方案用于从两个单独数据表的多个列中查找值并添加基于新列的值计算多个条件比较代码如下它涉及在计算两个表中的值时使用 data table 和联接但是这些表没有联接在我正在比较的列上因此我怀疑我可能无法获得 da
R：ifelse 中的字符串列表

我正在寻找与 MySQL 中的 where var in 语句类似的东西我的代码如下 data lt data frame id 10001 10030 cc1 rep c a b c 10 attach data data new lt
如何总结此R问题中的销售数量、售出酒类数量和花费金额

我使用以下代码在 R 上上传我的数据 if file exists ames liquor rds url lt https github com ds202 at ISU materials blob master 03 tidyvers
linq2sql，存储库模式 - 如何从两个或多个表查询数据？

我使用存储库模式和 linq2sql 作为数据访问并拥有例如 ProductsRep 和 CustomersRep 在非常简单的场景中数据库有两个表产品产品 ID 客户 ID 产品名称日期和顾客客户 ID 名字姓氏每个存
修改linux下的路径

虽然我认为我已经接近 Linux 专业人士但显然我仍然是一个初学者当我登录服务器时我需要使用最新版本的R 统计软件 R 安装在 2 个地方当我运行以下命令时 which R I get usr bin R 进而 R version
数据框 - 平均列

我在 pandas 中有以下数据框 Column 1 Column 2 Column3 Column 4 2 2 2 4 1 2 2 3 我正在创建一个数据框其中包含第 1 列和第 2 列第 3 列和第 4 列等的平均值 ColumnA
从 pyspark.sql 中的列表创建数据框

我完全陷入了有线的境地现在我有一个清单li li example data map lambda x get labeled prediction w x collect print li type li 输出就像 0 0 59 0 0
在 R 中使用逻辑 grep 抓取文本

下午好谢谢你帮我解答这个问题我有兴趣抓取一组超过 5000 个 URL 的列表我使用 lapply 和 readLines 使用下面的示例代码提取这些网页的文本 multipleURL lt c http dailymed nlm n
当我使用可变参数而不是常量参数时，为什么我的内联表 UDF 慢得多？

我有一个表值内联 UDF 我想过滤该 UDF 的结果以获得一个特定值当我使用常量参数指定过滤器时一切都很好并且性能几乎是瞬时的当我使用可变参数指定过滤器时它会花费明显更大的时间块大约是逻辑读取的 500 倍和持续时间的 20 倍
R Leaflet Legend：colorBin-删除中断之间的小数

我正在使用 Leaflet 库在 R 中创建交互式 HTML 地图传说中采用的是colorBin用于创建将数据分为 6 个类别的方法使用min values and max values 我已经定义了美国社区调查收入数据的特定范围可能落
R data.table 1.9.2 关于 setkey 的问题

这似乎是 1 8 10 后引入的一个错误与包含列表的 DT 的 setkey 相关运行下面两个代码来查看问题 library data table dtl lt list dtl 1 lt data table scenario 1 p

随机推荐

使用 JavaScript 将带有时区的日期字符串转换为本地时间的日期对象

我的日期字符串的格式如下所示 yyyy MM ddTHH mm ss 0Z00 实施例1 2010 03 05T07 03 51 0800 实施例2 2010 07 01T20 23 00 0700 我需要使用这些日期字符串创建一个日期对象
以编程方式为 UITableViewController 设置 UIActivityIndicatorView

我有一个常规的UITableViewController and a UITableView作为它唯一的观点我想要一个UIActivittyIndicatorView除了表视图之外所以我需要一个像这样的视图结构 view UIView
仅从我的应用程序访问私有 S3 内容

我有一个在 AWS S3 中存储图像的应用程序这就像一个个人资料图片上传案例上传个人资料图片后图像将存储在AWS S3中并且S3链接将存储在数据库中然后应用程序将使用数据库中的该链接显示个人资料图片目前由于存储桶是私有的因
给定条件并行或顺序执行 foreach 循环

我经常会得到几个嵌套的结果foreach循环有时在编写通用函数例如对于包时没有明显可以并行化的级别有什么方法可以实现下面的模型所描述的内容吗 foreach i 1 I if I lt J do else dopar forea
即使在 onclick="return false;" 之后，IE 也会跟踪链接

我正在编写 Rails 2 3 8 应用程序并使用标准link to帮手我有合理数量的链接这些链接是使用 GET 以外的方法使用的因此我传递了一个 method gt whatever选项link to 它会生成一个带有 oncli
类型“e”不存在，通过 php codeigniter 中的 Postgresql 连接器进行 Redshift

我通过 Postgresql 连接器使用 Redshift 在 php codeigniter 3 x php 版本 7 0 中查询时出现以下错误模型如下 subQuery select max button history id as
可以在 Inno Setup 脚本中使用环境变量吗？

我需要找到一种方法来引用 Inno Setup 脚本文件 iss 中的环境变量我发现了很多关于从 iss 修改环境的参考资料但没有关于如何实际使用它的参考资料这可能吗当我尝试在 Files 部分中指定文件的源位置时我遇到了同样的问
在 Liquibase 中添加复合唯一约束

我正在创建一个包含 3 列的链接表 id 产品 id 锦标赛 id 向 id 列添加 uniqueConstraint 很简单但我想确保任何一对 product id tournament id 都是唯一的 Liquibase org 上
手动验证 ASP.NET Identity 中的密码重置令牌

我想手动验证 ASP NET Identity 2 0 中的密码重置令牌我正在尝试创建我自己的版本UserManager ResetPasswordAsync string userId string token string newPa
使用 Spring MVC 在表单中显示验证错误

我已经搜索了这个论坛的几个教程和答案试图解决我的问题我想使用 spring MVC 在我的表单中显示我的 bean 的验证错误无论我如何尝试我都无法让它发挥作用我没有使用重定向我的绑定结果直接在模型类之后等等这是我到目前为止
网络桌面 - 您觉得有趣吗？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案作为一名近几年转向 Web 开发的 win32 开发人员我发现基于 extjs 的网络桌面非常有趣酷莱特桌面 http examples c
jhipster liquibase 不更新数据库

我正在尝试添加一个新实体但不使用完整的热重载因此我创建了一个 db changelog 002 xml 文件其中包含要在文件的变更集中创建的新表然后我运行了 mvn spring boot run 但我的数据库没有使用新表进行更新
如何使用 MonkeyRunner 将 Extra 传递给 Android 意图？

我正在尝试使用测试我的应用程序猴跑者 http developer android com guide developing tools monkeyrunner concepts html工具我正在尝试为我的活动添加额外内容 pytho
Matlab指纹细节提取

目前我对指纹验证和细节点提取很感兴趣我在网上找到了以下代码不知道是否有人可以解释一下我查过质心区域属性等我对这些有一点了解但下面的代码让我感到困惑 fun minutie L nlfilter K 3 3 fun Termina
如何在 C# 中获取每个核心的 CPU 负载？

如何在 C 中获取每个核心四核 cpu 的 CPU 负载谢谢您可以使用 WMI 或 System Diagnostics 命名空间从那里您可以获取任何您想要的性能计数器但是需要一秒钟 1 1 5秒来初始化这些计数器读取值是可以
未处理的异常：Follows 在被释放后被使用。一旦你对 Follows 调用了 dispose()，它就不能再被使用

我是使用提供程序包进行颤振状态管理的新手有多少不同的原因会产生这些类型的异常我该如何修复它这个异常是在以下时间生成的getFollowing 方法被叫进来didChangeDependency 跟随 dart class Follow
使用 PHP 的 DOMDocument 时避免对 href 属性进行百分比编码

我能够找到的针对此问题的最佳答案是使用 XSLT 但我只是不确定如何将这些答案应用于我的问题基本上 DOMDocument 在转义 URL 方面做得很好在href属性但我实际上使用它来构建 Twig Django 样式模板我宁愿它不
如何在 PHP 中打开名称中包含 unicode 字符的文件？

例如我有一个像这样的文件名 xml 但我无法从 PHP 脚本打开它如果我将 php 脚本设置为 utf 8 则脚本中的所有文本都是 utf 8 因此当我将其传递给 file get contents 时 fname xml file g
如何将RMarkdown文件导出为两列的HTML文档？

我正在为工作中的一些新 R 用户整理一个 R Markdown HTML 页面向他们进行介绍并引导他们完成一些简单的演示在炫耀诸如此类的东西时head and tail 它最终看起来又乱又长因为它一个接一个地打印出每个输出我希望它们
子集数据帧的最有效方法

任何人都可以建议在不使用的情况下对数据框进行子集化的更有效方法SQL indexing data table选项我寻找了类似的问题并且this one https stackoverflow com questions 12479238

子集数据帧的最有效方法

子集数据帧的最有效方法 的相关文章

随机推荐

热门标签

子集数据帧的最有效方法的相关文章