如何在 R 中的稀疏矩阵中查找并命名连续的非零条目？

2024-04-06

我的问题在概念上很简单。我正在寻找一种计算有效的解决方案（我自己的解决方案附在最后）。

假设我们有一个可能非常大的稀疏矩阵，如下左图所示，并且想要用单独的代码“命名”连续非零元素的每个区域（请参见右侧的矩阵）

1 1 1 . . . . .          1 1 1 . . . . .
1 1 1 . 1 1 . .          1 1 1 . 4 4 . .
1 1 1 . 1 1 . .          1 1 1 . 4 4 . .
. . . . 1 1 . .   --->   . . . . 4 4 . .
. . 1 1 . . 1 1          . . 3 3 . . 7 7
1 . 1 1 . . 1 1          2 . 3 3 . . 7 7
1 . . . 1 . . .          2 . . . 5 . . .
1 . . . . 1 1 1          2 . . . . 6 6 6

在我的应用程序中，连续元素将形成矩形、直线或单个点，并且它们只能与顶点相互接触（即矩阵中不会有不规则/非矩形区域）。

我想象的解决方案是将稀疏矩阵表示的行索引和列索引与具有适当值（“名称”代码）的向量相匹配。我的解决方案使用了几个for loops对于中小型矩阵效果很好，但随着矩阵尺寸变大（> 1000），很快就会陷入循环。这可能取决于我在 R 编程方面不太先进的事实 - 我找不到任何计算技巧/函数来更好地解决它。

有人能建议一种在 R 中计算更有效的方法吗？

我的解决方案：

mySolution <- function(X){

  if (class(X) != "ngCMatrix") {stop("Input must be a Sparse Matrix")}
  ind <- which(X == TRUE, arr.ind = TRUE)
  r <- ind[,1]
  c <- ind[,2]

  lr <- nrow(ind)
  for (i in 1:lr) {
    if(i == 1) {bk <- 1}
    else {
      if (r[i]-r[i-1] == 1){bk <- c(bk, bk[i-1])}
      else {bk <- c(bk, bk[i-1]+1)}
    }
  }

  for (LOOP in 1:(lr-1)) {
    tr <- r[LOOP]
    tc <- c[LOOP]
    for (j in (LOOP+1):lr){
      if (r[j] == tr) {
        if(c[j] == tc + 1) {bk[j] <- bk[LOOP]} 
      }
    }
  }

  val <- unique(bk)
  for (k in 1:lr){
    bk[k] <- which(val==bk[k])
  }

  return(sparseMatrix(i = r, j = c, x = bk))
}

预先感谢您的任何帮助或指示。

很大程度上依赖于要分组的所有相邻元素仅形成矩形/线/点的事实，我们看到矩阵的元素可以根据它们的值进行聚合[row, col]通过关系对矩阵进行索引(abs(row1 - row2) + abs(col1 - col2)) < 2.

所以，从[row, col]指数：

sm = as.matrix(summary(m))

我们计算它们的距离，正如 GiuGe 所指出的，这实际上是“曼哈顿”方法：

d = dist(sm, "manhattan")

单链接在其最近邻居上聚类元素的属性在这里很有用。此外，我们还可以通过以下方式对元素进行分组cutree计算“h = 1”（其中索引距离为“

gr = cutree(hclust(d, "single"), h = 1)

最后，我们可以将上面的内容包装在一个新的稀疏矩阵中：

sparseMatrix(i = sm[, "i"], j = sm[, "j"], x = gr)
#8 x 8 sparse Matrix of class "dgCMatrix"
#                    
#[1,] 1 1 1 . . . . .
#[2,] 1 1 1 . 4 4 . .
#[3,] 1 1 1 . 4 4 . .
#[4,] . . . . 4 4 . .
#[5,] . . 3 3 . . 7 7
#[6,] 2 . 3 3 . . 7 7
#[7,] 2 . . . 5 . . .
#[8,] 2 . . . . 6 6 6

使用的“m”是：

library(Matrix)
m = new("ngCMatrix"
    , i = c(0L, 1L, 2L, 5L, 6L, 7L, 0L, 1L, 2L, 0L, 1L, 2L, 4L, 5L, 4L, 
5L, 1L, 2L, 3L, 6L, 1L, 2L, 3L, 7L, 4L, 5L, 7L, 4L, 5L, 7L)
    , p = c(0L, 6L, 9L, 14L, 16L, 20L, 24L, 27L, 30L)
    , Dim = c(8L, 8L)
    , Dimnames = list(NULL, NULL)
    , factors = list()
)

EDIT 2017 年 2 月 10 日

另一个想法（再次考虑到相邻元素仅形成矩形/线/点的事实）是在升序列中迭代[row, col]索引，并在每一步中找到当前列和行中其最近邻居的每个元素的距离。如果发现“

ff = function(x) 
{
    sm = as.matrix(summary(x))

    gr = integer(nrow(sm)); ngr = 0L ; gr[1] = ngr 

    lastSeenRow = integer(nrow(x))
    lastSeenCol = integer(ncol(x))

    for(k in 1:nrow(sm)) {
        kr = sm[k, 1]; kc = sm[k, 2]
        i = lastSeenRow[kr]
        j = lastSeenCol[kc]

        if(i && (abs(kc - sm[i, 2]) == 1)) gr[k] = gr[i]
        else if(j && (abs(kr - sm[j, 1]) == 1)) gr[k] = gr[j]  
             else { ngr = ngr + 1L; gr[k] = ngr } 

        lastSeenRow[kr] = k
        lastSeenCol[kc] = k        
    }

    sparseMatrix(i = sm[, "i"], j = sm[, "j"], x = gr)                 
}

并应用于“m”：

ff(m)
#8 x 8 sparse Matrix of class "dgCMatrix"
#                    
#[1,] 1 1 1 . . . . .
#[2,] 1 1 1 . 4 4 . .
#[3,] 1 1 1 . 4 4 . .
#[4,] . . . . 4 4 . .
#[5,] . . 3 3 . . 7 7
#[6,] 2 . 3 3 . . 7 7
#[7,] 2 . . . 5 . . .
#[8,] 2 . . . . 6 6 6

此外，两个函数以相同的顺序返回组也很方便，我们可以检查一下：

identical(mySolution(m), ff(m))
#[1] TRUE

举一个看似更复杂的例子：

mm = new("ngCMatrix"
    , i = c(25L, 26L, 27L, 25L, 29L, 25L, 25L, 17L, 18L, 26L, 3L, 4L, 5L, 
14L, 17L, 18L, 25L, 27L, 3L, 4L, 5L, 17L, 18L, 23L, 26L, 3L, 
4L, 5L, 10L, 17L, 18L, 9L, 11L, 17L, 18L, 10L, 17L, 18L, 3L, 
17L, 18L, 21L, 17L, 18L, 17L, 18L, 1L, 2L, 3L, 4L, 16L, 8L, 17L, 
18L, 19L, 20L, 21L, 22L, 23L, 24L, 25L, 7L, 9L, 10L, 11L, 26L, 
8L, 27L, 1L, 2L, 28L, 1L, 2L, 15L, 27L, 1L, 2L, 21L, 22L, 1L, 
2L, 7L, 21L, 22L, 1L, 2L, 6L, 24L, 1L, 2L, 5L, 11L, 16L, 25L, 
26L, 27L, 4L, 15L, 17L, 19L, 25L, 26L, 27L, 3L, 16L, 25L, 26L, 
27L, 2L, 28L, 1L)
    , p = c(0L, 0L, 3L, 3L, 5L, 6L, 7L, 7L, 10L, 18L, 25L, 31L, 35L, 38L, 
42L, 44L, 46L, 51L, 61L, 66L, 68L, 71L, 75L, 79L, 84L, 88L, 96L, 
103L, 108L, 110L, 111L)
    , Dim = c(30L, 30L)
    , Dimnames = list(NULL, NULL)
    , factors = list()
)
identical(mySolution(mm), ff(mm))
#[1] TRUE

以及更大矩阵上的简单基准：

times = 30 # times `dim(mm)`
MM2 = do.call(cbind, rep_len(list(do.call(rbind, rep_len(list(mm), times))), times))
dim(MM2)
#[1] 900 900

system.time({ ans1 = mySolution(MM2) })
#   user  system elapsed 
# 449.50    0.53  463.26

system.time({ ans2 = ff(MM2) })
#   user  system elapsed 
#   0.51    0.00    0.52

identical(ans1, ans2)
#[1] TRUE

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何在 R 中的稀疏矩阵中查找并命名连续的非零条目？的相关文章

特征密集稀疏矩阵乘积是线程化的吗？

我知道稀疏密集产品是根据文档进行线程化的 https eigen tuxfamily org dox TopicMultiThreading html https eigen tuxfamily org dox TopicMultiThre
R Shiny - 修复了 Shiny 仪表板中的侧边栏和主标题

我有一个简化的闪亮仪表板请参阅下面的代码我想修复侧边栏和主标题因此在其他帖子的帮助下我编写了一个 CSS 文件来解决该问题 sidebar color FFF position fixed width 220px white sp
在多面图中用 N 注释 x 轴

我正在尝试生成一些按治疗条件和访问次数细分的数字结果的箱线图每个框中的观察次数都放在图下方并且也标记了访问次数这里有一些虚假数据可以用来说明我举了两个我尝试过但不太有效的例子 library ggplot2 library plyr
为 ggplot 定义新的尺度轴变换

我正在尝试创建一个squared使用 y 轴变换scales trans new但遇到错误 MWE data data frame x 1 10 y runif 10 z rnorm 10 10 library ggplot2 ggplot
（R 错误）错误：cons 内存耗尽（达到限制？）

我正在处理大数据并且有一个 70GB 的 JSON 文件我正在使用 jsonlite 库将文件加载到内存中我尝试过 AWS EC2 x1 16large 机器 976 GB RAM 来执行此负载但 R 因错误而中断 Error co
scipy.sparse.hstack(([1], [2])) ->“ValueError：块必须是二维的”。为什么？

scipy sparse hstack 1 2 and scipy sparse hstack 1 2 工作得很好但不是scipy sparse hstack 1 2 为什么会这样呢这是我的系统上发生的情况的痕迹 C Anaconda
远程linux服务器到远程linux服务器大型稀疏文件复制 - 如何？

我有两台 CentOS 5 4 服务器每台服务器上都安装了 VMware Server 假设我始终对 vmware 虚拟机使用稀疏文件将虚拟机文件从一台服务器复制到另一台服务器的最可靠最快速的方法是什么虚拟机的文件复制起来很痛苦因
如何在knitr中安装软件包？

到目前为止我一直在使用这段代码来加载 R 包并编写 R 文件但我正在尝试使用knitr rm list ls all TRUE kpacks lt c ggplot2 install github devtools mapdata ne
plot xts if (on == "years") { 中的错误：缺少 TRUE/FALSE 需要的值

我正在尝试绘制 xts 对象但出现有关年份的错误 xts 对象只有一个数值和一个 POSIXct 索引下面的代码显示了 xts 和尝试绘图时的错误关于需要对 xts 对象做什么才能正确绘制的任何想法 xTest lt as xts 3
如何使用 grid.arrange 移动图例位置

我试图在一页中排列 4 个图将图例放在底部中心我用它来获取其中一个图的图例因为它们对于四个图来说是相同的 get legend lt function myggplot tmp lt ggplot gtable ggplot buil
如何缩放（标准化）每列内的 ggplot2 stat_bin2d 值（按 X 轴）

我有一个 ggplot stat bin2d 热图 library ggplot2 value lt rep 1 5 1000 df lt as data frame value df group lt rep 1 7 len 5000 d
R Leaflet：添加多边形时传递 popupOptions。

Within addPolygons 有一个popup参数就像addPopups 功能区别我认为是当弹出窗口创建时addPolygons 可以单击多边形内的任意位置来触发弹出窗口但是如果addPopups 被使用单个lng and
SQL Server RODBC 连接

有没有人有使用 RODBC 并连接到 MS SQL Server 2005 或 2008 的连接字符串示例谢谢 library RODBC dbhandle lt odbcDriverConnect driver SQL Server s
枚举所有可能的二元组星座

我正在寻找一种方法来枚举 n 个成员的所有可能的两人组星座例如对于 n 4 个成员以下 3 个独特的组星座是可能的请注意组内成员的顺序和组顺序都不重要 1 2 3 4 1 3 2 4 1 4 2 3 例如对于 n 6 个成员可
读取多个 CSV 文件，并在文件开头跳过不同行数

我必须阅读大约 300 个单独的 CSV 我已经成功使用循环和结构化 CSV 名称来自动化该过程然而每个 CSV 在开头都有 14 17 行垃圾并且随机变化因此在 read table 命令中硬编码 skip 参数将不起作用每个
R：构建二阶转移矩阵和得分序列

其他问题有另一个问题 https stackoverflow com questions 29728436 fit and evaluate a second order transition matrix markov process
如何在R中的2行之间交换多个值

我有一个大小为 10x100 的矩阵如何交换前 30 列中第 1 行和第 2 行之间的值我们可以反转前两行的行索引以及通过采取序列创建的列索引rounded 30 总列数用于交换行中的值 colS lt seq round ncol m
通过 rpy 将 SPSS 文件（.sav）导入 pandas 时如何保留标签？

我正在寻找使用 SPSS 文件 sav pandas 在没有 SPSS 程序的情况下典型文件转换为 csv 后的样子如下在调查前两行的含义时我不知道 SPSS 似乎第一行包含Labels 而第二行包含VarNames 当我将文件带入
R（或替代方案？）中的高（或非常高）阶多项式回归

我想对 R 中的一组数据进行非常高阶回归拟合但是poly 函数的阶数极限为 25 对于此应用程序我需要的订单范围为 100 到 120 model lt lm noisy y poly q 50 Error in poly q 50
使用cowplot包的多重图的中心X轴标签

我有一个多图图形由 2x2 配置中的 4 个图组成我使用 cowplot 包和plot grid函数使用下面的代码排列了绘图 plot grid p1 p2 p3 p4 align vh vjust 1 scale 1 其中 p1 p4

随机推荐

在 Windows 7 上通过 VPN 使用时 Git 无响应

这是关于通过 VPN 处理本地存储库时简单 git 命令无响应的问题我的 Windows 用户帐户管理员角色是我用来登录的域帐户我有一些从 github 源克隆的本地存储库场景 1 在没有 VPN 的 Windows 上使用本地存
xamarin.forms 处理 WebView 上的 Clicked 事件

我想处理 WebView 控件上的单击点击事件我已经尝试过 GestureRecognizers 但没有任何反应我认为 WebView 可能有某种方式使事件处理为 true
设置 Angular-UI Select2 多重指令的初始值

我有一个 select2 指令用于多个选择的国家地区并使用自定义查询来获取数据 Directive
PHP 使用 sqlsrv 一次检索多行流内容

这是一种后续行动这个问题 https stackoverflow com questions 67998821 create file system file from file stored in microsoft sql databa
检查视频是否正在流式传输

我有这个流来自http www tpai tv live http www tpai tv live但正如您现在所看到的它已关闭我需要检查流是否正在播放如果不播放其他内容这是流式传输代码
MimeMessage.saveChanges 真的很慢

由于包含以下内容以下测试的执行时间约为 5 秒m saveChanges import org junit Before import org junit Test import javax mail MessagingException
哪些 C99 功能被认为是有害的或不受支持的 [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案我通常在 C89 中编写 C 代码现在使用 C99 的一些功能例如intxx t or VA ARGS or snprintf 非常有用甚
PHP 的 require 和 include 有什么区别？

我知道PHP require require一次 include和includeonce的基本用法但我对何时应该使用它们感到困惑示例我有 3 个文件例如 settings php database php 和 index php 在
Cocoapods 不工作 Xcode 9.2

Cocoapods 已安装但无法工作 Xcode 9 2 我尝试了这些解决方案https github com CocoaPods CocoaPods issues 3777 https github com CocoaPods Cocoa
在调试中禁用应用程序洞察

如何在使用调试配置时自动禁用应用程序洞察并仅在发布时启用它是否可以在不创建另一个仅用于调试的仪器密钥的情况下执行此操作 I have trackevent语句分散在代码中将它们包含在调试预处理器检查中并不是理想的解决方案我当前的解决方
如何告诉 find 命令转义文件名中的空格字符？

我有一个单行 find 命令它递归地检查并打印出在特定时间范围内创建的特定文件类型的大小所有者和名称但在结果中给出文件名列直到目录或文件名中的第一个空格字符为止有没有办法在这个单一命令中解决这个问题而无需在 bash 中编写任
在android中使用OpenGL在按钮上单击绘制形状

作为 android OpenGL 部分的新手我已经下载了现场给出的示例使用 OpenGL ES 显示图形 http developer android com training graphics opengl index html so
Chrome 中的 Javascript 执行跟踪 - 如何进行？

我在网站上加载了约 100 200 个 JavaScript 函数我想确定当我单击 Google Chrome 中的一项或多项时执行什么 JavaScript 函数我如何使用 Chrome Web 开发人员工具来做到这一点谢谢一种简
基于流的应用程序中的受控/手动错误/恢复处理

我正在开发一个基于的应用程序Apache Flink 它利用Apache Kafka用于输入和输出该应用程序可能会被移植到Apache Spark 所以我也将其添加为标签问题仍然相同我要求通过 kafka 接收的所有传入消息必须按顺序
Cloud Firestore 中 get() 和 onSnapshot() 之间的区别

我正在从 Firebase 的 Cloud Firestore 读取一些数据但我已经看到了几种方法来做到这一点我看到的示例使用了 get 和 onSnapshot 函数如下所示 db collection cities doc SF
测试：单元、集成、其他，分离的必要性是什么？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案对于问题我是单元测试还是集成测试 https stackoverflow com questions 516572我已经回答了有点挑衅进行测
如何检查$compile是否已经完成？

我正在编写一个函数可以根据 HTML 模板和给出的一些信息创建电子邮件模板为此我正在使用 compile角的函数只有一个问题我似乎无法解决该模板由一个基本模板和无限数量的ng include的当我使用最佳实践时 timeou
AngularJS：带去抖功能的 $watch

我有以下代表搜索字段的 html
错误：CFBundleVersion 必须高于之前上传的版本

我想上传我的应用程序的新版本我在 iTunes 中的应用程序的旧版本是 2 1 我正在上传新版本 2 2 但是当我尝试验证我的应用程序时它会给出错误 CFBundleVerion must be higher than the prev
如何在 R 中的稀疏矩阵中查找并命名连续的非零条目？

我的问题在概念上很简单我正在寻找一种计算有效的解决方案我自己的解决方案附在最后假设我们有一个可能非常大的稀疏矩阵如下左图所示并且想要用单独的代码命名连续非零元素的每个区域请参见右侧的矩阵 1 1 1 1 1 1 1 1 1

如何在 R 中的稀疏矩阵中查找并命名连续的非零条目？

如何在 R 中的稀疏矩阵中查找并命名连续的非零条目？ 的相关文章

随机推荐

热门标签

如何在 R 中的稀疏矩阵中查找并命名连续的非零条目？的相关文章