使用大矩阵操作

2024-05-18

我必须使用 big.matrix 对象，并且无法计算某些函数。让我们考虑以下大矩阵：

# create big.matrix object
x <- as.big.matrix(
      matrix( sample(1:10, 20, replace=TRUE), 5, 4,
           dimnames=list( NULL, c("a", "b", "c", "d")) ) )

> x
An object of class "big.matrix"
Slot "address":
<pointer: 0x00000000141beee0>

对应的矩阵对象为：

# create matrix object

x2<-x[,]

> x2
     a b  c  d
[1,] 6 9  5  3
[2,] 3 6 10  8
[3,] 7 1  2  8
[4,] 7 8  4 10
[5,] 6 3  6  4

如果我使用矩阵对象计算此操作，它会起作用：

sqrt(slam::col_sums(x2*x2))

> sqrt(slam::col_sums(x2*x2))
       a        b        c        d 
13.37909 13.82027 13.45362 15.90597

如果我使用 big.matrix 对象（实际上我必须使用它），它就不起作用：

sqrt(biganalytics::colsum(x*x))

问题 2： * 运算（创建矩阵每个元素的平方），会产生错误：

x * x 中的错误：非数字参数转换为二元运算符

和 sqrt 函数，它会产生错误：

sqrt(x) 中的错误：数学函数的非数字参数。

如何使用 big.matrix 对象计算此操作？

With big.matrix对象，我发现了 2 个提供良好性能的解决方案：

根据您的具体需要，在 Rcpp 中编写一个函数。在这里，两个嵌套的 for 循环就可以解决问题。然而，您无法重新编码您需要的所有内容。
在您的列块上使用 R 函数big.matrix并汇总结果。它很容易做到并且仅使用 R 代码。

在您的情况下，列数增加 10,000 倍：

require(bigmemory)

x <- as.big.matrix(
  matrix( sample(1:10, 20000, replace=TRUE), 5, 40000,
          dimnames=list( NULL, rep(c("a", "b", "c", "d"), 10000) ) ) )

print(system.time(
  true <- sqrt(colSums(x[,]^2))
))

print(system.time(
  test1 <- biganalytics::apply(x, 2, function(x) {sqrt(sum(x^2))})
))
print(all.equal(test1, true))

So, colSums速度非常快，但需要 RAM 中的所有矩阵，而biganalytics::apply速度慢，但内存效率高。一个折衷方案是使用这样的东西：

CutBySize <- function(m, block.size, nb = ceiling(m / block.size)) {
  int <- m / nb

  upper <- round(1:nb * int)
  lower <- c(1, upper[-nb] + 1)
  size <- c(upper[1], diff(upper))

  cbind(lower, upper, size)
}

seq2 <- function(lims) seq(lims["lower"], lims["upper"])

require(foreach)
big_aggregate <- function(X, FUN, .combine, block.size = 1e3) {
  intervals <- CutBySize(ncol(X), block.size)

  foreach(k = 1:nrow(intervals), .combine = .combine) %do% {
    FUN(X[, seq2(intervals[k, ])])
  }
}

print(system.time(
  test2 <- big_aggregate(x, function(X) sqrt(colSums(X^2)), .combine = 'c')
))
print(all.equal(test2, true))

Edit:现在已经在包中实现了大统计:

print(system.time(
  test2 <- bigstatsr::big_apply(x, a.FUN = function(X, ind) {
    sqrt(colSums(X[, ind]^2))
  }, a.combine = 'c')
))
print(all.equal(test2, true))

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

rbigmemory

Bigdata

使用大矩阵操作的相关文章

如何在 R 中“推断”面板数据的值？

我有一个带有 NA 值的面板数据如下所示 uid year month day value 1 1 2016 8 1 NA 2 1 2016 8 2 NA 3 1 2016 8 3 30 4 1 2016 8 4 NA 5 1 2016
R 中 nlme 包中的 gls 函数出错

我不断收到这样的错误 Error in coef lt corARMA tmp value c 18 3113452983211 1 56626248550284 Coefficient matrix not invertible 或者像这
ess-rdired：我收到此错误“现在没有 ESS 进程与此缓冲区关联”

To use ess rdired为了浏览对象我按照 ESS 手册并将以下内容添加到我的 emacs autoload ess rdired ess rdired View R objects in a dired like buffer
R：如何将描述小时、分钟和秒的非直观字符串转换为可行的 POSIXct 格式以执行标准算术？

我在 R 中有一个数据集其值采用小时分钟和秒格式然而有些值只有小时和分钟有些值只有分钟和秒有些值只有分钟有些值只有秒它的格式也不是很有利样本数据如下 example lt as data frame c 22h28m 17
使用 Pig 从数据中删除单引号

这就是我的数据的样子 10 ACCOUNTING NEW YORK 20 RESEARCH DALLAS 30 SALES CHICAGO 40 OPERATIONS BOSTON 我想删除 and 使用 Pig 脚本从这些数据中获取我希
tidyverse 干扰 ggplot2 吗？无法访问map_data

在控制台中运行这些命令输出为 gt cty0 ggplot2 map data county gt library tidyverse Loading tidyverse ggplot2 Loading tidyverse tibble
r：按多列分组并计数

我有以下数据框 df LeftOrRight SpeedCategory NumThruLanes R 25to45 3 L 45to62 2 R Gt62 1 我想按速度类别对其进行分组并循环遍历其他列以获取每个速度类别中每个唯一代码的
如何更改 r 中的树状图标签

我在 R 中有一个树形图它基于使用 hclust 的分层聚类我正在对不同颜色的标签进行着色但是当我尝试使用以下命令更改树图的标签集群所基于的数据帧的行时dendrogram dendrogram gt set labels dat
R - 通过合并和超过 2 个后缀进行减少（或者：如何合并多个数据帧并跟踪列）

我正在尝试基于 2 列合并 4 个数据帧但要跟踪列源自哪个数据帧我在跟踪列时遇到问题参见 dput dfs 帖子末尾 df example df1 Name Color Freq banana yellow 3 apple red 1
使用神经网络包进行多项分类

这个问题应该很简单但文档没有帮助我正在使用 R 我必须使用neuralnet多项式分类问题的包所有示例均针对二项式或线性输出我可以使用二项式输出进行一些一对一的实现但我相信我应该能够通过使用 3 个单元作为输出层来做到这一点其中
使用faceting()时如何连接geom_point()和geom_line？

我有一个问题但我在互联网上没有找到任何相关信息我很高兴得到一些提示我有一个数据集其中 x 轴是离散的但我想将这些点相互连接我可以做到我的问题是当我添加分面选项时我无法再将这些点相互链接起来我找到了一个替代方案但看起来不太
在 R 的替换命令中取消引用字符串

我想知道是否可以unquote通过替换命令传递给表达式的字符串具体来说我使用 dplyr 从数据框中过滤和选择 gt w subject sex response 1 1 M 19 08 2 2 M 16 46 6 6 M 23 60
如何将数据从长格式重塑为宽格式

我在重新排列以下数据框时遇到问题 set seed 45 dat1 lt data frame name rep c firstName secondName each 4 numbers rep 1 4 2 value rnorm 8 d
在ggplot2中，箱线图线的末尾代表什么？

我找不到箱线图线条端点代表什么的描述 For example here are point values above and below where the lines end 我意识到盒子的顶部和底部是第 25 个和第 75 个百分位数
在zooreg时间序列中查找非唯一索引条目时遇到问题

我有几年的数据正在尝试将其转化为动物园对象 Dropbox 上的 csv https www dropbox com sh vg8w8pt16e0v3xs AABKtWqDkPu9JVKpwBXO36VOa dl 0 一旦数据被强制转换为动
构造奎因（自我复制功能）

有没有人构建过 quine 生成自己源文本的副本作为其完整输出的程序 http www nyx net gthompso quine htm http www nyx net gthompso quine htm 在 R 中 quine 标
如何将 Shiny 中生成的反应图传递到 Rmarkdown 以生成动态报告

简而言之我希望能够通过单击按钮从我的闪亮应用程序生成动态 Rmarkdown 报告文件 pdf 或 html 为此我想我将使用 Shiny 的参数化报告但不知何故我无法将单个谜题转移到所需的目标使用此代码我们可以在 R Shin
ggplot2 + 使用比例 X 的日期结构

我真的需要帮助因为我已经迷路了我正在尝试创建一个折线图显示几个团队一年来的表现我将一年分为几个季度 2012 年 1 月 1 日 2012 年 4 月 1 日 2012 年 8 月 1 日 12 1 12 并将 csv 数据帧加载到
ggplot 按因子和梯度颜色

我正在尝试绘制一个对两个变量一个因子和一个强度进行着色的图我希望每个因素都是不同的颜色并且我希望强度是白色和该颜色之间的渐变到目前为止我已经使用了诸如对因子进行分面等技术将颜色设置为两个变量之间的相互作用并将颜色设置为因子并
解压 R 数据框中的列表

我有一个dataframe其中一个字段包含不同长度的列表我想将该字段中列表的每个元素提取到其自己的字段中以便我可以将结果收集到一个很长的字段中dataframe每个列表元素都有一个 id 这是一个例子dataframe dat lt s

随机推荐

指针和cstring长度

我在这里设置指针一个指向名称另一个指向名称但获取长度怎么当我使用的时候cout lt lt strlen tail 它一直告诉我长度是3 即使我输入的是 12 include
如何在 WordPress 中按类别获取所有帖子

我想在 WordPress 中按类别获取帖子 args array post type gt project postslist get posts args 0 gt WP Post 对象 ID gt 421 post author gt
在 Windows 服务和 Azure WebJob 之间利用单一代码库的方法

我正在开发一个定时重复流程在某些情况下将部署在本地而在其他情况下将部署在云 Azure 中我正在研究 Windows 服务和 Azure WebJob 鉴于我只需要重复过程作为定时部分我正在考虑将大量逻辑放在一个库中只是本地部署的
在 gridview 控件中使用单选按钮

我有一个 gridview 控件其中使用存储过程显示数据该网格有三列第一列包含单选按钮总体思路是用户应该能够从在我的例子中 5 个单选按钮中仅选择一个单选按钮当前功能的问题是我可以同时选择所有单选按钮我尝试使用 groupna
正确的文件扩展名或缩写是什么。 golang 的文本/模板？

我正在考虑为其创建语法荧光笔但我不知道这种特定类型模板的常规缩写 In 例子之一 http golang org pkg text template example Template helpers从文本模板 godoc 中它们引用
iPhone 应用程序在首次 Facebook Connect 授权/登录后崩溃

我一直在到处寻找答案但找不到问题是我有一个 iPhone 应用程序在 AppStore 上它使用脸书 iPhone SDK https github com facebook facebook iphone sdk 我使用 SDK
如何在同一个html上绘制2个谷歌图表

我正在尝试下面的代码但它仅显示第一个代码的图表你能告诉我哪里出错了吗我尝试做很多改变但仍然没有成功 i am only getting single chart as shown in below photo enter code
适用于 IOS 和 Android 的支付网关 [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我正在开发一个应用程序用户必须在澳大利亚餐馆通过应用程序 android ios 付款有两种付款方式通过 PayPal 或 Visa
使用联接更新表？

我正在尝试使用表 B 中的数据更新表 A 我以为我可以做这样的事情 update A set A DISCOUNT 3 from INVOICE ITEMS A join ITEM PRICE QUNTITY B on A ITEM PRI
为什么我收到错误“无法设置类型 Y 上的属性 X，因为集合已设置为 EntityCollection”？

当我尝试将一个集合映射到 EF4 中的另一个集合时出现此错误无法设置类型 Resource EF810770B4FCA2E071F38C2F2EE328AAC216CA2A7BF157503E6658A42D7CF53A 的属性 Res
一旦自定义 PySpark Transformer 成为安装的 ML Pipeline 中的一个阶段，如何为它设置参数？

我编写了一个自定义 ML PipelineEstimator and Transformer对于我自己的 Python 算法遵循所示的模式here https stackoverflow com a 37279526 1843329 然而
JAVA：如何搜索地图？

我有一个 Map 其键为字符串其值为集合包含整数假设我的钥匙看起来像苹果香蕉橙色等用户输入文本我将其保存为字符串变量如何在我的地图中搜索相同的密钥因此如果用户输入 apple 我如何将该字符串提供给方法并让该方法在我
Nodemailer - 在本地工作但不在生产环境中工作

https gist github com anonymous ba82f74071cc38a0700b https gist github com anonymous ba82f74071cc38a0700b 在更改某些设置之前例如主机
在 Apache Beam 中连接行

我无法理解 Apache Beam 中的连接例如http www waitingforcode com apache beam joins apache beam read http www waitingforcode com apac
C 中函数参数中的固定数组或指针之间的区别？

之间有区别吗 void draw line float p0 2 float p1 2 float color 4 和这个 void draw line float p0 float p1 float color in C 项目清单 C 和
char*str={"foo",...} 和 char str[][5]={"foo",...} 数组定义之间有什么区别？

Case 1 当我写作时 char str what is this then str i newstring 是有效的而str i j j 是无效的 Case 2 当我写作时 char str 5 what is this then s
如何在Windows下调试Python中的访问冲突内存问题？

您建议使用哪些工具或流程来调试 ctypes 内存问题为什么可以打印数组的内容但无法复制它我已将问题范围缩小到以下几行 lots of code valid data as bytes bytearray self output buf
如何在Windows上安装机器人操作系统ROSJava？

ROS 的文档很糟糕一个很大的讽刺是 ROS 的 Groovy 和 ROSJava 版本的创建是为了让 Windows 等平台上的开发人员能够利用出色的机器人 SDK 而所有安装说明仍然面向 Linux ubuntu 用户 The ROS
Flutter 中的 AndroidManifest 中缺少默认通知通道元数据

我在用firebase messaging 5 0 1软件包来实现推送通知在 IOS 中一切正常而在 Android 中当我的移动应用程序在后台运行时我收到通知但它没有导航到相应的屏幕它只是打开默认屏幕如何实现到该特定屏幕的导
使用大矩阵操作

我必须使用 big matrix 对象并且无法计算某些函数让我们考虑以下大矩阵 create big matrix object x lt as big matrix matrix sample 1 10 20 replace TRUE

使用大矩阵操作

使用大矩阵操作 的相关文章

随机推荐

热门标签

使用大矩阵操作的相关文章