如何从一个巨大的矩阵中获得最大可能的列序列和最少可能的行NA？

2024-03-21

我想从数据框中选择列，以便得到结果连续的列序列尽可能长，而带有 NA 的行数尽可能少，因为之后必须删除它们。

（我想这样做的原因是，我想运行TraMineR::seqsubm()自动获取转移成本矩阵（按转移概率）并稍后运行cluster::agnes() on it. TraMineR::seqsubm()不喜欢NA州和cluster::agnes() with NA矩阵中的状态不一定有意义。）

为此，我已经写了一个工作function https://codereview.stackexchange.com/q/208826/185901原则上计算所有可能的功率子集并检查它们NAs。它与这个玩具数据配合得很好d它代表一个 10x5 矩阵：

> d
   id X1 X2 X3 X4 X5
1   A  1 11 21 31 41
2   B  2 12 22 32 42
3   C  3 13 23 33 NA
4   D  4 14 24 34 NA
5   E  5 15 25 NA NA
6   F  6 16 26 NA NA
7   G  7 17 NA NA NA
8   H  8 18 NA NA NA
9   I  9 NA NA NA NA
10  J 10 NA NA NA NA
11  K NA NA NA NA NA

现在的问题是，我实际上想将该算法应用于代表34235 x 17 矩阵！

我的代码已经在Code Review上审核过了，但仍然无法应用到真实数据上。

我知道采用这种方法会产生巨大的计算量。（对于非超级计算机来说可能太大了？！）

有谁知道更合适的方法？

我已经给你展示了@minem 的增强功能 https://codereview.stackexchange.com/a/208928/185901来自代码审查：

seqRank2 <- function(d, id = "id") {
  require(matrixStats)

  # change structure, convert to matrix
  ii <- as.character(d[, id])
  dm <- d
  dm[[id]] <- NULL
  dm <- as.matrix(dm)
  rownames(dm) <- ii

  your.powerset = function(s){
    l = vector(mode = "list", length = 2^length(s))
    l[[1]] = numeric()
    counter = 1L
    for (x in 1L:length(s)) {
      for (subset in 1L:counter) {
        counter = counter + 1L
        l[[counter]] = c(l[[subset]], s[x])
      }
    }
    return(l[-1])
  }

  psr <- your.powerset(ii)
  psc <- your.powerset(colnames(dm))

  sss <- lapply(psr, function(x) {
    i <- ii %in% x
    lapply(psc, function(y) dm[i, y, drop =  F])
    })

  cn <- sapply(sss, function(x)
    lapply(x, function(y) {

      if (ncol(y) == 1) {
        if (any(is.na(y))) return(NULL)
          return(y)
        }

      isna2 <- matrixStats::colAnyNAs(y)
      if (all(isna2)) return(NULL)
      if (sum(isna2) == 0) return(NA)
      r <- y[, !isna2, drop = F]
      return(r)
      }))

  scr <- sapply(cn, nrow)
  scc <- sapply(cn, ncol)

  namesCN <- sapply(cn, function(x) paste0(colnames(x), collapse = ", "))
  names(scr) <- namesCN
  scr <- unlist(scr)

  names(scc) <- namesCN
  scc <- unlist(scc)

  m <- t(rbind(n.obs = scr, sq.len = scc))
  ag <- aggregate(m, by = list(sequence = rownames(m)), max)
  ag <- ag[order(-ag$sq.len, -ag$n.obs), ]
  rownames(ag) <- NULL
  return(ag)
}

产量：

> seqRank2(d)
         sequence n.obs sq.len
1  X1, X2, X3, X4     4      4
2      X1, X2, X3     6      3
3      X1, X2, X4     4      3
4      X1, X3, X4     4      3
5      X2, X3, X4     4      3
6          X1, X2     8      2
7          X1, X3     6      2
8          X2, X3     6      2
9          X1, X4     4      2
10         X2, X4     4      2
11         X3, X4     4      2
12             X1    10      1
13             X2     8      1
14             X3     6      1
15             X4     4      1
16             X5     2      1

> system.time(x <- seqRank2(d))
   user  system elapsed 
   1.93    0.14    2.93

在这种情况下我会选择X1, X2, X3, X4, X1, X2, X3 or X2, X3, X4因为他们是连续的并产生适当数量的观察结果。

预期输出：

所以对于玩具数据d预期的输出将类似于：

> seqRank2(d)
sequence n.obs sq.len
1  X1, X2, X3, X4     4      4
2      X1, X2, X3     6      3
3      X2, X3, X4     4      3
4          X1, X2     8      2
5          X2, X3     6      2
6          X3, X4     4      2
7              X1    10      1
8              X2     8      1
9              X3     6      1
10             X4     4      1
11             X5     2      1

最后函数应该在巨大的矩阵上正确运行d.huge这会导致目前的错误：

> seqRank2(d.huge)
Error in vector(mode = "list", length = 2^length(s)) : 
  vector size cannot be infinite

玩具数据d:

d <- structure(list(id = structure(1:11, .Label = c("A", "B", "C", 
"D", "E", "F", "G", "H", "I", "J", "K"), class = "factor"), X1 = c(1L, 
2L, 3L, 4L, 5L, 6L, 7L, 8L, 9L, 10L, NA), X2 = c(11L, 12L, 13L, 
14L, 15L, 16L, 17L, 18L, NA, NA, NA), X3 = c(21L, 22L, 23L, 24L, 
25L, 26L, NA, NA, NA, NA, NA), X4 = c(31L, 32L, 33L, 34L, NA, 
NA, NA, NA, NA, NA, NA), X5 = c(41L, 42L, NA, NA, NA, NA, NA, 
NA, NA, NA, NA)), row.names = c(NA, -11L), class = "data.frame")

玩具数据d.huge:

d.huge <- setNames(data.frame(matrix(1:15.3e5, 3e4, 51)), 
                   c("id", paste0("X", 1:50)))
d.huge[, 41:51] <- lapply(d.huge[, 41:51], function(x){
  x[which(x %in% sample(x, .05*length(x)))] <- NA
  x
})

附录（见评论最新答案）：

d.huge <- read.csv("d.huge.csv")
d.huge.1 <- d.huge[sample(nrow(d.huge), 3/4*nrow(d.huge)), ]
d1 <- seqRank3(d.huge.1, 1.27e-1, 1.780e1)
d2 <- d1[complete.cases(d1), ]
dim(d2)
names(d2)

对于海量数据来说，这需要不到一秒钟的时间

l1 = combn(2:length(d), 2, function(x) d[x[1]:x[2]], simplify = FALSE)
# If you also need "combinations" of only single columns, then uncomment the next line
# l1 = c(d[-1], l1)
l2 = sapply(l1, function(x) sum(complete.cases(x)))

score = sapply(1:length(l1), function(i) NCOL(l1[[i]]) * l2[i])
best_score = which.max(score)
best = l1[[best_score]]

问题不清楚如何对各种组合进行排序。我们可以使用不同的评分公式来生成不同的偏好。例如，要分别对行数和列数进行加权，我们可以这样做

col_weight = 2
row_weight = 1
score = sapply(1:length(l1), function(i) col_weight*NCOL(l1[[i]]) +  row_weight * l2[i])

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何从一个巨大的矩阵中获得最大可能的列序列和最少可能的行NA？的相关文章

R 中按时间划分的平均值

我每秒测量一次化合物浓度我想求 30 秒和 60 秒的平均值我一直在阅读这里的帖子我尝试过lubridate and dplyr 但没有运气我正在努力完成这项工作但我一直没能做到我正在从 SAS 过渡到 R 所以请耐心等待这是
R 将多个值与向量进行比较并返回向量[重复]

这个问题在这里已经有答案了我有一个向量 A 对于 A 的每个元素我想检查它是否等于第二个向量 Targets 中的任何元素我想要一个逻辑值向量其长度为 A 作为返回也提到了同样的问题here http r 789695 n4 na
如何在knitr和RStudio中为word和html设置不同的全局选项？

我正在使用 RStudio 0 98 932 和 knitr 1 6 想要为word和html设置不同的全局knitr选项例如想要将word的fig width和fig height设置为6 html的fig width和fig hei
使用字符串中的变量名称访问变量值，R

Intro 一个数据集有大量的age year变量 age 1990 age 1991 etc 我有一个字符串值数组length age years 表示这些变量使得age years 1 回报 age 1990 etc Need 我想搜
如何在 R 中合并同名列表中的数据框？

我有一个包含很多数据框的列表如果它们具有相同的名称我想合并它们即合并所有具有相同名称 a 和 b 的数据框像这样 a lt aaaaa b lt bbbbb c lt ccccc g lt list df1 lt data fram
在 R 传单中添加不透明度滑块

如何在 R leaflet 应用程序中添加滑块来控制特定图层的不透明度对于这个应用程序我不想使用闪亮这里建议在 R 传单应用程序中添加滑块 https stackoverflow com questions 37682619 add
尝试使用 JRI 将 R 与我的 Java 应用程序集成，但出现错误。谁能解释一下原因和解决办法吗？

我需要将 Java 与 R 集成来运行一些数学命令并使用 R 的功能进行绘图以下部分代码给出了错误 public static void main String args HelloRWorld r new HelloRWorld r h
R中的重叠矩阵

我有以下数据框 id channel 1 a 1 b 1 c 2 a 2 c 3 a 我想创建并重叠矩阵它基本上是一个方阵行和列标签为 a b c 表中的每个条目显示每个通道共有多少个 id 例如在上面的例子中矩阵看起来像 a b
purrr::可能函数可能无法与map2_chr函数一起使用

我怀疑这是 purrr 包中的错误但想先在 StackOverflow 中检查我的逻辑在我看来 possibly功能在内部不起作用map2 chr功能我正在使用 purrr 版本 0 2 5 考虑这个例子 library dplyr
picker输入字体或背景颜色

我在闪亮的仪表板中使用 pickerInput 这很好除了一个问题背景颜色和字体颜色太相似使得过滤器选择难以阅读有什么办法可以改变背景或字体颜色吗如果可能的话我想继续使用 pickerInput 但如果有一个带有 selectI
绘制 Cox 回归的 Kaplan-Meier 图

我使用 R 中的以下代码设置了一个 Cox 比例风险模型来预测死亡率添加协变量 A B 和 C 只是为了避免混淆即年龄性别种族但我们真正对预测变量 X 感兴趣 X 是一个连续变量 cox model lt coxph Surv t
行对名称中具有特定模式的列求和

我有一个像这样的数据表 DT lt ata table data table ref rep 3L 4L nb 12 15 i1 c 3 1e 05 0 044495 0 82244 0 322291 i2 c 0 000183 0 155
R - 重塑 - 熔化错误

我正在尝试融化数据框但出现了这个奇怪的错误有什么想法吗 str zx7 data frame 519 obs of 5 variables calday new Date format 2011 01 03 2011 01 04 201
如何声明包含 M 个元素的列表对象

我想声明一个包含 M 3 x 3 矩阵的列表如果我事先知道数字 M 那么我可以通过以下方式声明这样的列表 elm lt matrix NA 3 3 Say M 7 myList lt list elm elm elm elm elm el
在r中的某个阈值处破坏 cumsum() 函数

例如我有以下代码 cumsum 1 100 我想打破它如果一个元素 i 1 大于3000 我怎样才能做到这一点因此而不是这个结果 1 1 3 6 10 15 21 28 36 45 55 66 78 91 105 120 136 15
如何按定义的顺序将图像合并到一个文件中

我有大约 100 张图像 png 我不想手动执行此操作而是希望将它们按照定义的顺序基于文件名并排放置在一个 pdf 中每行 12 个图像有人有什么建议吗我按照下面托马斯告诉我的方法尝试了它把它们贴在旁边有一个黑边我怎样才能去
在网格中制作一个矩形图例，并标记行和列

我有一个 ggplot 我将因子映射到填充和 alpha 如下所示 set seed 47 the data lt data frame value rpois 6 lambda 20 cat1 rep c A B each 3 cat2
从数据框中绘制多条平滑线

我对 R 比较陌生我正在尝试绘制从 csv 文件加载的数据框数据由 6 列组成如下所示 xval col1 col2 col3 col4 col5 第一列 xval 由一系列单调递增的正整数例如 10 40 60 等组成其他列
R中IF函数的使用

我正在短跑ifR 中的函数但收到以下警告消息 In if runif 50 0 1 lt 0 69 the condition has length gt 1 and only the first element will be used
要在子集中显示的非数字条目的维恩图

我有以下数据框 SET1 SET2 SET3 par1 par2 par1 par2 par3 par2 par3 par4 par5 我想制作一个维恩图其中所有这些 parX 元素都显示在各自的子集中即作为标签而不仅仅是重叠元素的数

随机推荐

什么是 C/C++ 数据段和堆栈大小？

我读到这取决于编译器和操作系统架构如何在使用 GCC 作为编译器的 Linux 系统上找到数据段和堆栈最大大小让我和你一起实验一下创建文件 test c 如下所示 int main void return 0 现在编译它指定最大堆栈
使用 ExtJ 进行多选组合框

如何实现多选组合框作为Ext FormPanel使用ExtJs 我一直在寻找但似乎找不到与最新版本的 ExtJs 兼容的解决方案这个问题 https stackoverflow com questions 2635809 multise
加载 tableview 之前检测 iPhone 方向

所以我有点陷入困境根据这个帖子 https stackoverflow com questions 3402401 get launch orientation of ipad app iPhone iPad 的方向在一定程度上是纵向的
提交的 iPhone 应用程序二进制详细信息中显示“预渲染图标标志：true”，但图标在商店中显示为光泽效果 [关闭]

这个问题不太可能对任何未来的访客有帮助它只与一个较小的地理区域一个特定的时间点或一个非常狭窄的情况相关通常不适用于全世界的互联网受众为了帮助使这个问题更广泛地适用访问帮助中心 help reopen questions 图标已包含
如何设置 UINavigationBar 上后退按钮的文本？ [复制]

这个问题在这里已经有答案了可能的重复如何更改导航栏上后退按钮的标题 https stackoverflow com questions 1449339 how do i change the title of the back bu
如何将 $index 从 ng-repeat 表获取到模态控制器？

我有一个使用 angularjs bootstrap ui 创建的客户记录表并使用 ng repeat 表中每行的末尾都有一个按钮用于获取有关客户的更多信息单击该按钮时会弹出一个包含信息的模态表单我的问题是无论我按哪个按钮我都会得
Cocoa 有布局/几何管理吗？

如果我创建 WinForms Qt Gtk 应用程序我使用所谓的布局管理器或几何管理器根据小部件内的文本和我的指令自动布局我的 UI 例如如果我布局一个具有大编辑字段且其下方有 2 个按钮右对齐的窗口我会编写以下代码使用垂直
使用 ASIFormDataRequest 将 json 发送到 php

我是 iPhone 新手我正在尝试将 NSMutable 数组转换为 json 字符串然后使用 request 将此字符串发送到 php 文件然后使用响应 NSLog 再次打印它以确保它已成功发送所以我在viewDidLoad中编
将字符串附加到 IronScheme 中的现有文本文件

我们正在尝试使用 IronScheme 构建一个日志文件并且我们已经使用racket 为其编写了代码它在球拍中工作正常但 IronScheme 会抛出错误这是我们目前所拥有的 define write to log lambda w
python3 tkinter Entry() 无法选择文本字段，直到我单击应用程序窗口外部一次

我用 python3 tkinter 编写了一个非常简单的应用程序但我看到 Entry 出现一些奇怪的行为我是 tkinter 和 python 的新手 import os from tkinter import Tk Entry fi
C 中的溢出和下溢

人们可以做什么来了解他们的系统如何响应溢出情况描述一种测试系统如何响应下溢情况的方法我确实了解什么是溢出和下溢我在维基百科上查找了这一点但我不明白如何在系统之间进行测试 With unsigned对于整数 C 要求下溢和上溢以某种方
将“/app”而不是“/appinst”与 android:pathPattern 匹配（使用意图过滤器）

我正在尝试创建一个过滤某些特定网址的意图我试图捕获的网址是 http host com app http host com app http host com app http host com app http host com app
具有范围 v3 的求和向量

我需要总结一些向量也就是说我想总结nth每个向量的元素并用结果创建一个新向量我已经确保输入向量的大小都相同我想用优秀的range v3 https github com ericniebler range v3 图书馆我试过了t
在本地主机中设置 IIS 作为 Web 开发服务器

如何在 Visual Studio 2008 中设置 IIS 5 1 作为我的 Web 开发服务器我正在使用Win XP 并且我正在使用Cassini 但我想给IIS一个托盘而不是进入控制面板 gt 添加删除程序 gt 启用禁用Win
每天12小时重复通知

我想每天 12 点重复我的通知但我的代码不起作用我在 OnCreate 的 MainActivity 中启动警报管理器如下所示 protected void onCreate Bundle savedInstanceState sup
VLOOKUP vba 中的引用变量工作表

我正在编写一个宏它根据现有工作表上的值创建变量工作表我很好地管理了该部分但现在我需要在引用新创建的工作表的另一张工作表上添加 VLOOKUP 公式新工作表的名称没有固定的模式因此我无法引用它们这是我用来创建新工作表的代码 Dim
线程“主”java.lang.VerifyError 中出现异常：操作数堆栈上的类型错误

在给定 input txt 文件中查找最大温度的 Map Reduce 程序中发生了此错误我写了两栏分别是年份和温度 Exception in thread main java lang VerifyError Bad type on
积分错误：函数评估给出了错误长度的结果

尝试下面的代码 library pracma f lt function x 1 integrate f 0 1 value quad f 0 1 quad 工作正常但integrate 报告错误消息积分 f 0 1 中的错误函数评估
在 Recyclerview 中下载图像

我有一个回收者视图其中有一个Imageview in the Viewholder 图像是通过下载的AsyncTask in the onBindViewHolder在适配器中问题是当我向下或向上滚动时 onBindViewHolder
如何从一个巨大的矩阵中获得最大可能的列序列和最少可能的行NA？

我想从数据框中选择列以便得到结果连续的列序列尽可能长而带有 NA 的行数尽可能少因为之后必须删除它们我想这样做的原因是我想运行TraMineR seqsubm 自动获取转移成本矩阵按转移概率并稍后运行cluster agnes

如何从一个巨大的矩阵中获得最大可能的列序列和最少可能的行NA？

如何从一个巨大的矩阵中获得最大可能的列序列和最少可能的行NA？ 的相关文章

随机推荐

热门标签

如何从一个巨大的矩阵中获得最大可能的列序列和最少可能的行NA？的相关文章