R data.table 加速 SI/公制转换

2024-04-01

情况是这样的。我有一个 8500 万行、18 列的表。其中三列的值采用公制前缀/SI 表示法（请参阅公制前缀 http://en.wikipedia.org/wiki/Metric_prefix维基百科上）。

这意味着我有这样的号码：

.1M 而不是 100000 或 1e+5，或者
1K 而不是 1000 或 1e+3

示例数据表是

          V1     V2   V3  V4  V5  V6 V7 V8 V9  V10 V11 V12 V13 V14 V15 V16 V17 V18
 1: 2014-03-25 12:15:12 58300 3010 44.0  4.5 0.0   0   0  0.8  50 0.8 10K 303 21K   0     a   56
 2: 2014-03-25 12:15:12 56328 3010 28.0 12.0 0.0   0   0  0.3  60 0.0  59  62 .1M   0     a   66
 3: 2014-03-25 12:15:12 21082 3010 10.0  1.7 0.0   0   0 14.0  72 0.3  4K 208  8K   1     a   80
 4: 2014-03-25 12:15:12 59423 3010 12.0  0.0 0.2   0   0 88.0   0 0.0  20  16  71   0     a   26
 5: 2014-03-25 12:15:12 59423 3010  9.6  1.4 0.0   0   0 60.0  29 0.2  2K 251  6K   0     a   56
 6: 2014-03-25 12:15:12 24193 3010  8.3  1.9 0.0   0   0  9.9  80 0.3  3K 264  8K   1     a   71
 7: 2014-03-25 12:15:12 21082 3010  7.1  1.7 0.4   0   0  6.3  83 0.3  3K 197  7K   0     a   71
 8: 2014-03-25 12:15:12 59423 3010  4.6  1.2 0.0   0   0 57.0  37 0.1 998  81  7K   0     a  118

我修改了 Hans-Jörg Bibiko 编写的函数，他用它来修改 ggplot2 尺度。查看网站here http://www.moeding.net/archives/32-Metric-prefixes-for-ggplot2-scales.html如果你有兴趣的话。我最终使用的功能是：

sitor <- function(x)
{
  conv <- paste("E", c(seq(-24 ,-3, by=3), -2, -1, 0, seq(3, 24, by=3)), sep="")
  names(conv) <- c("y","z","a","f","p","n","µ","m","c","d","","K","M","G","T","P","E","Z","Y")
  x <- as.character(x)
  num <- function(x) as.numeric(
      paste(
        strsplit(x,"[A-z|µ]")[[1]][3],
        ifelse(substr(paste(strsplit(x,"[0-9|\\.]")[[1]], sep="", collapse=""), 1, 1) == "",
               "",
               conv[substr(paste(strsplit(x,"[0-9|\\.]")[[1]], sep="", collapse=""), 1, 1)]
        ),
        sep=""
      )
    )
  return(lapply(x,num))
}

我将其应用到数据表来更新 3 列，例如

temp[ ,`:=`(V13=sitor(V13),V14=sitor(V14),V15=sitor(V15)) ]

我已将 data.table 键向量应用于临时表

setkeyv(temp,c("V1","V2","V3","V18"))

任何 61 分钟后，我仍然在这里等待结果...鉴于我的数据大小即将增长 4 到 5 倍，有关如何加快此转换的一些技巧将非常方便。

你为什么不尝试一下sitools图书馆？

library(data.table)
dt<-data.table(var = sample(x=1:1e5, size=1e6, replace=T))
library(sitools)
> system.time(dt[, var2 := f2si(var)])
   user  system elapsed 
  10.08    0.09   10.89

EDIT:这是一个基于 data.table 的函数，可以反转f2si from sitools包裹：

si2f<-function(x){
  if(is.numeric(x)) return(x)
  require(data.table)
  dt<-data.table(lab=c("y","z","a","f","p","n","µ","m","c","d","", "da", "h", "k","M","G","T","P","E","Z","Y"),
                 mul=c(1e-24, 1e-21, 1e-18, 1e-15, 1e-12, 1e-9, 1e-6, 1e-3, 1e-2, 1e-1, 1L, 10L, 1e2, 1e3, 1e6, 1e9, 1e12, 1e15, 1e18, 1e21, 1e24),
                 key="lab")
  res<-as.numeric(gsub("[^0-9|\\.]","", x))
  x<-gsub("[0-9]|\\s+|\\.","", x)
  .subset2(dt[.(x)], "mul")*res
}

> system.time(dt[, var3 := si2f(var2)])
   user  system elapsed 
  13.18    0.03   13.31 

> dt[, all.equal(var,var3)]
[1] TRUE

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

performance

dataTable

Metric

R data.table 加速 SI/公制转换的相关文章

为什么对于小数组，for-of 循环比标准 for 循环快，而对于大数组则慢？

在 JavaScript 中我注意到 ES6for of循环的性能与传统的有很大不同for start stop step loop 基准 const n 10000 const arr Array n fill map e i gt i
循环内的局部变量会被垃圾收集吗？

我想知道将循环内引用的任何变量放在循环外是否更有效或者它们可以像函数内的变量一样被垃圾收集吗 var obj key val for var i 0 i lt 10 i console log obj or for var i 0 i l
优化数据可视化 Web 应用程序的性能

我正在重写 3 年前编写的数据可视化网络工具从那时起浏览器的 JavaScript 引擎变得更快所以我正在考虑将部分工作从服务器转移到客户端在页面上数据在表格和地图或图表中可视化它使用相同的数据但以不同的方式因此准备显示
jQuery - 提高处理 XML 时的选择器性能

我正在处理一个 XML 文件当使用 XPath 样式选择器选择节点时该文件的性能非常慢这是运行特别慢的部分代码 for i 0 i
将日期时间字符串转换为 Date 类

我有一个带有日期时间字符列的数据框当我使用as Date 除了少数实例之外我的大多数字符串都被正确解析下面的示例有望向您展示发生了什么 my attempt to parse the string to Date uses the s
matplotlib 中的 R 风格数据轴缓冲区

R 绘图自动设置 x 和 y 限制以在数据和轴之间留出一些空间我想知道 matplotlib 是否有办法自动执行相同的操作如果没有是否有一个好的公式或经验法则来说明 R 如何设置其轴限制在 matplotlib 中您可以通过
R闪亮主面板显示样式和字体

我正在学习闪亮的应用程序并且有一些关于调整布局的基本问题特别是样式和字体希望得到指点或明确的答案谢谢考虑一个基本的输入输出应用程序用户在 sidebarPanel 中输入数据然后在 mainPanel 中反应性地输出结果如何
美人鱼图：调整图表周围的空白

我在用 Rstudio 编译的 Rmd 报告中使用了美人鱼图在 HTML PDF 输出中图表上方和下方有大量空白请参见下面的示例 Header Text r library DiagrammeR mermaid graph TD cl
将所有分号替换为空格 pt2

我尝试对 2000 多行关键字的列表运行文本分析但它们的列出方式如下战略管理风格组织所以当我使用 tm 删除标点符号时它就变成了组织的战略管理风格我认为这在某种程度上破坏了我常用术语的分析我尝试过使用 vector lt
在所有浏览器中启用我的网站的平滑滚动

我正在开发一个视差滚动网站Stellar http markdalgleish com projects stellar js and Skrollr https github com Prinzhorn skrollr图书馆该网站在 F
在单个 mongodb 查询中查找并计数

我的文档看起来像这样 id ObjectId 572c4bffd073dd581edae045 name What s New in PHP 7 description PHP 7 is the first new major versio
如何在R中匹配具有相同主键的两个表中的数据

我有两个表其中包含有关人员的数据 df1 lt data frame id c 113 202 377 288 359 name c Alex Silvia Peter Jack Jonny 这为我提供了 id name 1 113 Al
降低Python中的浮点精度以提高性能[重复]

这个问题在这里已经有答案了我正在树莓派上使用 python 我使用互补滤波器从陀螺仪中获得更好的值但它消耗了太多树莓派的电量大约为 70 我认为可以通过降低浮点精度来提高性能现在结果大约有 12 位小数这超出了我的需要有什么办
如何读取 R 中的每个 .csv 文件并将其导出到单个大文件中

你好我有以下格式的数据 101 20130826T155649 3 1 round 0 10552 180 yellow 12002 1 round 1 19502 150 yellow 22452 1 round 2 28957 130
JavaFX 中 WebView 的性能

我有一个 HTML5 UI 和一个 Java 后端并且希望避免在纯 java 中重建 HTML ui 所以我的想法是运行本地 Web 服务器并使用 WebView 在本机窗口中呈现它解决方案似乎是使用可以嵌入到 swing 中的 J
linq2sql，存储库模式 - 如何从两个或多个表查询数据？

我使用存储库模式和 linq2sql 作为数据访问并拥有例如 ProductsRep 和 CustomersRep 在非常简单的场景中数据库有两个表产品产品 ID 客户 ID 产品名称日期和顾客客户 ID 名字姓氏每个存
zsh：未找到命令：使用 Big Sur Mac 的终端上的 R

我从官方 cran 网站安装了 R 我可以从 Rstudio 运行 R 但是当我尝试从终端使用 R 时我得到以下结果 base ege Eges MBP R zsh command not found R base ege Eges MB
R参考类问题

我正在尝试在 R 中创建一个简单的参考类这是我的代码 R 初学者 MyClass lt setRefClass MyClass fields list a numeric b numeric methods list initialize
函数“[<-”将_替换_一个元素，但不会追加_元素_

我在使用时注意到以下几点 lt 我成功于替换元素但不位于追加向量的一个元素例子 VarX lt integer VarX 1 lt 11 lt VarX 2 22 VarX 1 11 Expected the value of VarX
.pdbs 会减慢发布应用程序的速度吗？

如果 dll 中包含 pdb 程序调试文件则行号将出现在引发的任何异常的堆栈跟踪中这会影响应用程序的性能吗这个问题与发布与调试即优化无关这是关于拥有 pdb 文件的性能影响每次抛出异常时都会读取 pdb 文件吗加载程序集时

随机推荐

sql server 2008：是否可以指定格式而不是使用格式文件？

USE AdventureWorks2008R2 GO INSERT INTO myTestSkipField SELECT FROM OPENROWSET BULK C myTestSkipField c dat FORMATFILE C
一对多关系在不使用“distinct”的情况下获取重复的对象。为什么？

我有两个处于一对多关系的类和一个有点奇怪的 HQL 查询即使我已经阅读了一些已经发布的问题但对我来说似乎还不清楚 Class Department OneToMany fetch FetchType EAGER mappedBy dep
_layout.svelte 内的插槽属性未传递属性

我正在开发一个 Sapper 项目我想在加载到插槽中之前将一些异步数据加载到布局中我发现在 layout svelte 文件中我无法将道具传递到插槽 layout svelte
主类java中的静态和构造函数中的非静态[关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 我只是想看看我是否能够完全理解静态的
点按并按住即可像 Vine 一样录制视频

我想做一个录制视频的应用程序它看起来像藤蔓按住录制松开停止按住录制并保持到最后我使用过 MediaRecorder 但它每次只录制一次如果我再次开始录制应用程序就会崩溃请告诉我有什么办法可以做到这一点吗我编辑了我的代码 p
PHP 和自定义 HTTP 标头，不好的做法吗？

我有一个用于返回 json 数据的 PHP 应用程序的 RESTful API 的自定义实现并且为了传达操作的状态即请求中是否存在失败我设置了一个自定义 HTTP 标头非常简单 tiny json 对象作为字符串这很有效因为我可
Python 2.6：从 Windows 控制台应用程序读取数据。（操作系统？）

我有一个返回一些文本的 Windows 控制台应用程序我想在 Python 脚本中读取该文本我尝试使用 os system 来阅读它但它无法正常工作 import os foo os system test exe 假设 test e
无法在 R 中安装包 - 以“

我已经使用 R Studio 多年没有任何问题但今天我无法安装任何软件包当我使用以下代码时 install packages dplyr 我刚刚收到这条消息 Error in install packages Line startin

通过 PSSession 下载 PS5 文件

如何通过 PSSession 从远程服务器下载文件我知道 PS5 推出了Copy Item FromSession 但本地和远程可能都没有运行 PS5 我的文件也很大所以一个简单的Get Content可能有问题您可以将远程端的文件作
为什么我的 Bootstrap 弹出窗口不起作用？

我正在尝试使用引导弹出窗口 http getbootstrap com javascript popovers 因此我将示例中的确切代码复制到我的网站中不幸的是这不起作用我粘贴了下面的完整代码并创建了这里有一个jsfiddle ht
更改 Angular 材质下拉列表和文本的默认位置

我试图将材质下拉面板的位置更改为下拉按钮的底部并尝试将名称和箭头垂直居中到下拉区域请浏览一下我想要实现的图像 div class dropDown div
如何禁用或隐藏 Ionic 2 中的滚动条

我有一个包含在 Ionic 2 中的 Angular 2 应用程序我正在使用
引用参数返回未知大小的数组。如何处理？

COM 组件公开一个 API 该 API 需要对象类型的 ref 参数根据此 API 的文档它将用值数组填充 ref 对象现在我的问题是在产品环境中我无法预测我将返回的元素数量以下代码将起作用 COMClass objCOM ne
在派生对象上移动构造函数

当派生对象具有移动构造函数并且基础对象也具有移动语义时从派生对象移动构造函数调用基础对象移动构造函数的正确方法是什么我首先尝试了最明显的事情 Derived Derived rval Base rval 然而这似乎最终调用了 Bas
python 中的线程锁未按预期工作

我试图保护线程内的数据免受主线程的影响我有以下代码 lock threading Lock def createstuff data t threading Thread target func args data t start def
为什么 Collections.binarySearch 给出错误的结果？

我创建了一个列表其中保存了一些字符串但是当我在做的时候二分查找在此列表中它正在返回负值而该项目是在列表中到目前为止我的知识正值当物品被退回时在列表中但对于某些项目它返回负值而对于某些项目它返回正值 Code Test pub
结构体上溢出的整数加法[重复]

这个问题在这里已经有答案了有的是ULARGE INTEGER 联合 https msdn microsoft com en us library windows desktop aa383742 v vs 85 aspx对于不支持 64
使用 AJAX 时页面不断刷新

我正在创建一个包含表单的模式框使用 ajax 和 php 提交后表单将返回输入然后模式框应该消失问题是结果在框消失和页面刷新之前显示了几秒钟
flutter中如何在某个时间执行一个方法？

如何在固定时间执行一个方法比如我想在下午 2 30 运行一个方法我了解计时器功能但是运行计时器功能这么长时间是个好主意吗同样该方法在一天内会被调用多次 Edited 我努力了android alarm manager https
R data.table 加速 SI/公制转换

情况是这样的我有一个 8500 万行 18 列的表其中三列的值采用公制前缀 SI 表示法请参阅公制前缀 http en wikipedia org wiki Metric prefix维基百科上这意味着我有这样的号码 1M 而不是

R data.table 加速 SI/公制转换

R data.table 加速 SI/公制转换 的相关文章

随机推荐

热门标签

R data.table 加速 SI/公制转换的相关文章