按行号和列号对文件进行子集化

2024-05-08

我们想要按行和列对文本文件进行子集化，其中行数和列数是从文件中读取的。不包括标题（第 1 行）和行名称（第 1 列）。

输入文件.txt制表符分隔的文本文件

header  62  9   3   54  6   1
25  1   2   3   4   5   6
96  1   1   1   1   0   1
72  3   3   3   3   3   3
18  0   1   0   1   1   0
82  1   0   0   0   0   1
77  1   0   1   0   1   1
15  7   7   7   7   7   7
82  0   0   1   1   1   0
37  0   1   0   0   1   0
18  0   1   0   0   1   0
53  0   0   1   0   0   0
57  1   1   1   1   1   1

子集列.txt逗号分隔，无空格，一行，数字有序。在实际数据中，我们有 500K 列，需要子集约 10K。

1,4,6

子集行.txt逗号分隔，无空格，一行，数字有序。在实际数据中，我们有 20K 行，需要大约 300 行子集。

1,3,7

当前解决方案使用cut and awk loop (相关文章：使用 awk 选择行 https://stackoverflow.com/q/27509898):

# define vars
fileInput=inputFile.txt
fileRows=subsetRows.txt
fileCols=subsetCols.txt
fileOutput=result.txt

# cut columns and awk rows
cut -f2- $fileInput | cut -f`cat $fileCols` | sed '1d' | awk -v s=`cat $fileRows` 'BEGIN{split(s, a, ","); for (i in a) b[a[i]]} NR in b' > $fileOutput

输出文件：结果.txt

1   4   6
3   3   3
7   7   7

问题：
该解决方案适用于小文件，对于 50K 行和 200K 列的较大文件，它花费的时间太长，超过 15 分钟，仍在运行。我认为cut选择列工作正常，选择行则较慢。

还有更好的办法吗？

真实输入文件信息：

# $fileInput:
#        Rows = 20127
#        Cols = 533633
#        Size = 31 GB
# $fileCols: 12000 comma separated col numbers
# $fileRows: 300 comma separated row numbers

有关该文件的更多信息：文件包含GWAS https://en.wikipedia.org/wiki/Genome-wide_association_study基因型数据。每行代表样本（个体），每列代表SNP https://en.wikipedia.org/wiki/Single-nucleotide_polymorphism。为了进一步基于区域的分析，我们需要对样本（行）和 SNP（列）进行子集化，以使数据更易于管理（小），作为其他统计软件的输入，例如r /questions/tagged/r.

System:

$ uname -a
Linux nYYY-XXXX ZZZ Tue Dec 18 17:22:54 CST 2012 x86_64 x86_64 x86_64 GNU/Linux

Update:下面提供的解决方案@詹姆斯布朗 https://stackoverflow.com/a/40844004在我的系统中混合列的顺序，因为我使用不同版本的 awk，我的版本是：GNU Awk 3.1.7

尽管在如果编程语言是国家，那么每种语言代表哪个国家？ https://www.quora.com/If-programming-languages-were-countries-which-country-would-each-language-represent/answer/John-Purcell-4他们说...

阿克：朝鲜。顽固地抵制变革，其用户似乎不自然地喜欢它，原因我们只能推测。

...每当您看到自己使用管道 sed、cut、grep、awk 等时，请停下来对自己说：awk 可以单独完成！

因此，在这种情况下，需要提取行和列（调整它们以排除标题和第一列），然后缓冲输出以最终打印它。

awk -v cols="1 4 6" -v rows="1 3 7" '
    BEGIN{
       split(cols,c); for (i in c) col[c[i]]  # extract cols to print
       split(rows,r); for (i in r) row[r[i]]  # extract rows to print
    }
    (NR-1 in row){
       for (i=2;i<=NF;i++) 
              (i-1) in col && line=(line ? line OFS $i : $i); # pick columns
              print line; line=""                             # print them
    }' file

使用您的示例文件：

$ awk -v cols="1 4 6" -v rows="1 3 7" 'BEGIN{split(cols,c); for (i in c) col[c[i]]; split(rows,r); for (i in r) row[r[i]]} (NR-1 in row){for (i=2;i<=NF;i++) (i-1) in col && line=(line ? line OFS $i : $i); print line; line=""}' file
1 4 6
3 3 3
7 7 7

使用示例文件和输入作为变量，以逗号分隔：

awk -v cols="$(<$fileCols)" -v rows="$(<$fileRows)" 'BEGIN{split(cols,c, /,/); for (i in c) col[c[i]]; split(rows,r, /,/); for (i in r) row[r[i]]} (NR-1 in row){for (i=2;i<=NF;i++) (i-1) in col && line=(line ? line OFS $i : $i); print line; line=""}' $fileInput

我很确定这会更快。例如，您可以检查根据第二个文本文件从文本文件中删除重复项 https://stackoverflow.com/q/30820894/1983854对于一些比较性能的基准awk over grep和别的。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

按行号和列号对文件进行子集化的相关文章

如何将参数传递给java bash脚本？ [复制]

这个问题在这里已经有答案了我有一个简单的 bash 脚本来运行我的 java 程序就这个 run sh bin sh java jar target my jar arch jar 我想将参数传递给这个脚本该脚本必须将它们传递给jav
使用 Ansible 将二进制文件添加到 PATH

我正在尝试安装Kiex https github com taylor kiex版本管理器Elixir http elixir lang org install html使用 Ansible 的编程语言这些是我为此使用的戏剧 name K
为什么我不能将 sed 的输出重定向到文件

我正在尝试运行以下命令 someprogram tee dev tty sed s 2 gt output file 但当我去查看时该文件始终是空白的如果我删除 gt output file从命令末尾我可以看到 sed 的输出没有任
awk: hping: 打印 icmp 发起/接收之间的差异

我有以下输出hping http ports su net hping在 OpenBSD 上 hping icmp ts www openbsd org HPING www openbsd org re0 129 128 5 194 icm
awk 子串单个字符

这是columns txt aaa bbb 3 ccc ddd 2 eee fff 1 3 3 g 3 hhh i jjj 3 kkk ll 3 mm nn oo 3 我可以找到第二列以 b 开头的行 awk if substr 2 1 1
通过 R 中的数据子集执行计算

我想对数据框的 PERMNO 列中的每个公司编号进行计算其摘要可以在此处查看 gt summary companydataRETS PERMNO RET Min 10000 Min 0 971698 1st Qu 32716 1st Qu
如何在递归调用函数时阻止 bash 创建子 shell

这是一个计算阶乘的简单 shell 函数 bin bash function factorial if 1 lt 2 then echo 1 else echo 1 factorial 1 1 fi factorial 1 但我发现这个脚本
如何使用 bash 锁定文件

我有一个任务从远程服务器同步目录 rsync av email protected cdn cgi l email protection srv data srv data 为了使其定期运行并避免脚本 reEnter 问题我使用 rsyn
如何在 Linux 中编写文本模式 GUI？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案当我编写脚本程序时我经常想弹出一个简单的文本 gui 来提示输入我该怎么做例如来自 Shel
grep 两个分隔符之间的子字符串

我有很多bash使用的脚本perl内的表达式grep为了提取两个分隔符之间的子字符串例子 echo BeginMiddleEnd grep oP lt Begin End 问题是当我将这些脚本移植到运行的平台时busybox 融合的 g
Pure Bash 替换捕获组

我有这个示例字符串 test string 13A6 该字符数字可以是从 0 到 9 以及从 A 到 F 我想要这个输出 1 3 A 6 我有这个工作 result echo test string sed s g 我想在没有 sed 的
将相对符号链接转换为绝对符号链接

如何在 bash 中递归地将相对符号链接转换为绝对符号链接 ln sf readlink f link link
Linux 中的动态环境变量？

Linux 中是否可以通过某种方式拥有动态环境变量我有一个网络服务器网站遵循以下布局 site qa production 我想要一个环境变量例如 APPLICATION ENV 当我在 qa 目录中时设置为 qa 当我在生产目录中时
jq：将对象数组转换为对象

我收到了来自curl的回复格式如下 list value 1 id 12 value 15 id 13 value 4 id 14 给定 id 之间的映射如下所示 12 newId1 13 newId2 14 newId3 我想做这个
OSX bash 最小化窗口

在 Mac 中并使用 bash shell 我想执行一个包含单个命令启动 Jupyter Lab 的文件并立即最小化终端窗口有没有办法在不安装第三方软件的情况下做到这一点是的只需使用osascript https ss64 com
如何在 Linux shell 中将十六进制转换为 ASCII 字符？

假设我有一个字符串5a 这是 ASCII 字母的十六进制表示Z 我需要找到一个 Linux shell 命令它将接受一个十六进制字符串并输出该十六进制字符串代表的 ASCII 字符所以如果我这样做 echo 5a command im
如何在 Windows 下向 .sh 脚本传递参数？

我正在尝试在 Windows 下执行 sh 脚本我安装了 Git 它允许我执行 sh 文件但是如果不使用 sh 作为执行前缀我似乎无法传递任何参数我的 sh 文件 echo Test 1 如果我用以下命令执行它 gt sh tes
获取变量的名称作为输入并使用该名称更改变量

我从脚本用户那里获取变量的名称作为第一个参数并将该变量的值回显到控制台 bin bash variablename 1 echo The value of variablename is variablename 这太棒了我无法开始工作
如何在shell中输出返回码？

我正在尝试通过调用自定义 shell 脚本sh bin sh c myscript sh gt log txt 2 gt 1 echo 该命令的输出是创建的后台进程的 PID 我想指导 bin sh保存返回码myscript sh到某个文件
为什么 Collections.counter 这么慢？

我正在尝试解决罗莎琳德的基本问题即计算给定序列中的核苷酸并在列表中返回结果对于那些不熟悉生物信息学的人来说它只是计算字符串中 4 个不同字符 A C G T 出现的次数我期望collections Counter是最快的方法首先

随机推荐

使用 System.currentTimeMillis() 每秒运行一次代码

我试图使用 System currentTimeMillis 每秒运行一行代码代码 while true long var System currentTimeMillis 1000 double var2 var 2 if var2 1
Windows：如果我完成驱动器盘符会怎样？（他们26岁了！）[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案如果我完成驱动器盘符会怎样这只是好奇心但我有很多字母当我把所有东西都连接起来时我恰好浮动在 20 左右该图像不是 mspaint
最佳实践：从属性中抛出异常

什么时候适合从属性 getter 或 setter 中抛出异常什么时候不合适呢为什么关于这个主题的外部文档的链接会很有帮助谷歌搜索结果出奇的少 Microsoft 在以下位置提供了有关如何设计属性的建议 http msdn micr
ElasticCloud 的 ElasticSearch 身份验证错误？

我刚刚在 ElasticCloud 上设置了一个新的 ElasticSearch 集群我正在尝试遵循帮助文档 https cloud elastic co help 它说您可以按如下方式发布文档 curl https
使用指针隐藏实现（Pimpl 惯用语）

是否有可能实现以下目标 x hpp 该文件被许多其他类包含 class x impl forward declare class x public methods private x impl impl x cpp 实施 include
STL（标准模板库）中使用的设计模式

我正在学习STL和设计模式我想知道是否有任何文档或链接可以解释如何在 STL 中实现设计模式我做了谷歌但无法获得太多数据我希望你的意思是哪些设计模式可以在STL中识别 STL 堆栈是一个容器适配器适配器是一种设计模式迭代器也是一
是否可以使用 CSS 设置禁用的 INPUT 元素的样式？

我需要风格disabled
为列名创建动态选择获取值 - 在 SQL Server 中

请帮助我创建一个选择 SQL 语句其中的结果列名称是从原始表中的列值获取的表名是Device Part 用户可以输入很多DeviceCode其中有许多动态PartTypeName PartTypeName 值为PartInfo 这可能有
对大数据块进行反应非阻塞渲染

最近我开始学习反应并想知道是否有某种模式可以用于大数据的非阻塞 UI 线程渲染比方说我们采取这个例子 https www mendix com tech blog making react reactive pursuit high p
Django ModelForm 验证失败，没有错误

好吧我已经盯着这几个小时试图弄清楚发生了什么但无济于事我正在尝试使用 instance 关键字创建一个 ModelForm 将其传递给一个现有的模型实例然后保存它这是 ModelForm 在我试图找出此问题的原因时从原始版本中删
如何在标准 SQL 中使用 Unicode 规范化删除变音符号（例如重音符号）？

如何使用新功能从 BigQuery 中的字符串中删除变音符号normalize https cloud google com bigquery docs reference standard sql functions and operat
常见的电子邮件客户端是否会预取链接而不是图像？

尽管我知道很多电子邮件客户端会预取或以其他方式缓存图像我不知道有任何预取常规链接例如 a href somelinkhere some link a 这是某些电子邮件的做法吗如果是是否存在某种不跟随类型rel可以添加到链接中以帮助防
R：如何添加具有从矩阵的每一行中随机选择的值的列？

我会先说我是一个 R 菜鸟我认为这可能有一个简单的解决方案但我正在努力寻找它我有一个 2 列 1 000 行的矩阵保持行固定我想创建一个新变量从两列中随机选择一个元素例如制作一个简单的矩阵 matrix c 1 1 4 6 1
PostgreSQL 中的 LATERAL JOIN 和子查询有什么区别？

自从 PostgreSQL 推出以来它具备了以下功能 LATERAL连接我一直在阅读它因为我目前为我的团队进行复杂的数据转储其中有许多低效的子查询使整个查询需要四分钟或更长时间我明白那个LATERALjoins 可能可以帮助我
java.net.ServerSocket.accept () 在 Android 上不返回

我正在尝试找到一种方法来远程登录到未root的机器人我有INTERNET权限处于活动状态我的设备与我的设备连接在同一网络上Mac OS X通过 WiFi 我可以 ping 通我打开的端口在最初的实验中我让它在有根测试设备上工作但我
使用 PyQt5 拖放 QLabels

我正在尝试使用 PyQt5 将 Qlabel 拖放到另一个 Qlabel 上 from PyQt5 QtWidgets import QApplication QWidget QToolTip QPushButton QMessageBox
UITableView 显示的行数多于 numberOfRowsInSection 中指定的行数：

我希望我的 tableView 显示 6 行其中包含文本在本例中为示例据我所知我有我的numberOfSectionsInTableView and numberOfRowsInSection 设置正确请参阅下面的示例代码 NS
如何将 man 和 zip 添加到 Windows 上的“git bash”安装中

我在用git bash https git for windows github io 在 Windows 上即git对于 Windows 通过集成bash 显然它使用的是MINGW MSYS支撑来自 VonC 的更新现在使用 msy
有关 Linux 内存类型的问题

关于Linux内存我有以下问题我知道活动内存是最常访问的内存部分但是有人可以解释一下 linux 如何考虑将内存位置用于活动内存或非活动内存主动存储器由哪些部分组成磁盘文件缓存是否被视为活动内存的一部分有什么区别Buffers
按行号和列号对文件进行子集化

我们想要按行和列对文本文件进行子集化其中行数和列数是从文件中读取的不包括标题第 1 行和行名称第 1 列输入文件 txt制表符分隔的文本文件 header 62 9 3 54 6 1 25 1 2 3 4 5 6 96 1 1

按行号和列号对文件进行子集化

按行号和列号对文件进行子集化 的相关文章

随机推荐

热门标签

按行号和列号对文件进行子集化的相关文章