根据两列的值删除行

2024-03-01

我有一个巨大的文件 (my_file.txt)，大约有 8,000,000 行，如下所示：

1   13110   13110   rs540538026 0   NA  -1.33177622457982
1   13116   13116   rs62635286  0   NA  -2.87540758021667
1   13118   13118   rs200579949 0   NA  -2.87540758021667
1   13013178    13013178    rs374183434 0   NA  -2.22383195384362
1   13013178    13013178    rs11122075  0   NA  -1.57404917386838

我想根据前三列查找重复项，然后删除第七列中值较低的行，我可以通过以下方式完成第一部分：

awk -F"\t" '!seen[$2, $3]++' my_file.txt

但我不知道如何执行删除具有较低值的重复项的部分，所需的输出将是这样的：

1   13110   13110   rs540538026 0   NA  -1.33177622457982
1   13116   13116   rs62635286  0   NA  -2.87540758021667
1   13118   13118   rs200579949 0   NA  -2.87540758021667
1   13013178    13013178    rs11122075  0   NA  -1.57404917386838

速度是一个问题，所以我可以使用 awk、sed 或其他 bash 命令谢谢

$ awk '(i=$1 FS $2 FS $3) && !(i in seventh) || seventh[i] < $7 {seventh[i]=$7; all[i]=$0} END {for(i in a) print all[i]}' my_file.txt
1   13013178    13013178    rs11122075  0   NA  -1.57404917386838
1   13116   13116   rs62635286  0   NA  -2.87540758021667
1   13118   13118   rs200579949 0   NA  -2.87540758021667
1   13110   13110   rs540538026 0   NA  -1.33177622457982

感谢@fedorqui 的高级索引。：D

解释：

(i=$1 FS $2 FS $3) && !(i in seventh) || $7 > seventh[i] { # set index to first 3 fields 
                   # AND if index not yet stored in array 
                                      # OR the seventh field is greater than the previous value of the seventh field by the same index:
    seventh[i]=$7                     # new biggest value
    all[i]=$0                         # store that record
} 
END {
    for(i in all)                     # for all stored records of the biggest seventh value
        print all[i]                  # print them
}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

bash

awk

sed

根据两列的值删除行的相关文章

通过 SSH 启动长时间运行的程序 [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我有一个运行 Ubuntu 的虚拟机并且我可以通过 SSH 很好地连接到该虚拟机我什至可以使用以下命令通过 SSH 启动我的 pyth
仅当程序成功时如何重定向程序的输出？

当我的程序之一返回非零退出代码时我想避免重定向其输出这可能吗如果可以我该怎么做我失败的尝试 echo foo gt file false cat gt file 这导致file是空的我想要的行为只是调整file当程序成功时我还
有没有办法在 MacOSX 上使用 Xcode 将 bash shell 脚本与 AppleScriptObjC 应用程序一起打包？

我正在尝试使用 AppleScriptObjC 作为包装器来自动化三个或四个 bash shell 脚本这将为我提供一个友好的 GUI 前端来选择数据文件等以及方便的文本文件操作和多个 bash 脚本的处理一切正常我可以按下按钮并运
使用 sed 删除带有方括号和引号的模式

如何使用 sed 删除具有此模式的行 resourceNames I tried sed i resourceNames d sa yaml 文件的一部分看起来像这样 apiGroups resources secrets resource
为什么这个脚本不改变目录

好吧简单的 bash 脚本问题别笑我的脚本只是更改目录 echo on echo running script CURRENT DIR cd pwd 我可以看到它在 echo 中更改目录但是当它完成时我的终端仍然位于同一目录有小
在同一变量集行中组合多个 bash 参数替换，而不使用任何其他命令[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我想要组合的示例 sVar whoami sVar sVar sVar sVar 1 Output 用户名第一个字符大写要求单线
比较两个文件的各自字段并以特定格式输出所需的内容

我正在比较两个文件 food1 txt 文件并比较 food2 txt 文件如下所示 cat food1 txt pizza 1ea chicken 5ea tooboo 4ea orange 2ea cat food2 txt pizz
无法弄清楚如何使用 AppleScript 实现 REGEX

我编写了一个正则表达式命令来查找并输出字符串中一行数字的第一个实例 find d d replace 1 问题是为了在 AppleScript 中实际利用它我知道的唯一方法是调用 shell 脚本并使用 sed 我不知道如何以这种方式实
使用 sed 替换多行

我以为我理解 sed 但我想不是我有以下两个文件我想用一个不同的行替换 why 和 huh 行根本没有空格测试 txt hi why huh hi why huh 测试2 txt 1 hi why huh hi why huh 以下
为什么 bash for 循环出错？

我正在尝试使用 for 循环运行以下代码但出现语法错误请帮忙输入格式输入的第一行包含一个整数N 表示整数的个数下一行包含 N 个空格分隔的整数它们构成数组 A read n sum 0 for i 1 i lt n i do r
如何让 Rscript 在非交互式 bash 模式下返回状态代码

我正在尝试以 bash 脚本的形式从以非交互方式运行的 Rscript 中获取状态代码此步骤是较大数据处理周期的一部分其中涉及 db2 脚本等所以我在脚本sample sh中有以下内容 Rscript verbose no resto
简单的awk命令问题（FS、OFS相关）

我尝试重新组织包含以下内容的文件的格式 gt Humanl chr16 86430087 86430726 element 1 positive gt Humanl chr16 85620095 85621736 element 2 neg
如何在 Linux Bash 中通过 SFTP 将数据传输到远程文件而不将数据存储在本地文件中？

我需要能够通过 SFTP 将数据从内存传输到远程文件我最初是通过 SSH 进行此操作的在工作时发现我没有对远程位置的 SSH 访问权限只有 SFTP 访问权限下面是我的原始 SSH 代码的示例 echo secret data ss
如何防止 Conda 默认激活基础环境？

我最近在我的 Mac 上安装了 anaconda2 默认情况下 Conda 配置为在我打开新的终端会话时激活基本环境我想要访问 Conda 命令即我想要将 Conda 的路径添加到我的 PATHConda 在初始化时会执行此操作所以没
如何在unix中对ls输出进行编号？

我正在尝试编写一个格式为 id file absolute path 的文件该文件基本上递归地列出文件夹中的所有文件并为每个文件提供一个标识符如 1 2 3 4 我可以使用以下命令递归地获取文件的绝对路径 ls d 1 PWD 但是
Bash 脚本在 for 循环中使用 sed 和变量？

我正在尝试编写一个 bash 脚本该脚本需要一些变量然后使用 grep 对给定文件搜索进行查找替换以获取包含该字符串的文件列表我认为我遇到的问题是在 sed 中看到变量我不确定它可能是什么 if searchFiles a old
为什么我不能用这个循环从 bash 历史记录中删除多个条目

这个循环将显示我想要做的事情但是如果我删除echo从中它实际上不会删除任何内容 history grep 0 5 0 9 ls cut c1 5 while read id do echo history d id done 我添加了缩
如何在多行而不是单行输出上打印 Linux 组名称

我尝试过 getent group 命令 id Gn user 和一些 sed 组合但我认为我无法实现因此向其他程序员伸出援手我希望能够打印此 groups abc123输出 abc123 devops 构建测试设计预期输出 gro
寻找 shell 重定向交错行为的解释

给定以下脚本 t sh bin bash if eq 0 then log if gt 0 then printf s n else cat fi tee a logged out else log if gt 0 then printf
使用sed插入文件内容

我试图在给定模式之前插入文件内容这是我的代码 sed i pattern i r scriptPath adapters default permissions xml manifestFile 它添加路径而不是文件的内容有任何想法吗

随机推荐

PHP：如何彻底防止XSS攻击？

如何才能完全防止 PHP 中的 xss 攻击这是假设我不关心任何 HTML 标签或其他格式仅运行 strip tags 并使其完全安全就足够了吗 Both htmlspecialchars and strip tags 被认为可以安全地
使用 PyPDF2 将嵌套书签添加到 PDF

的文档PyPDF2 https github com mstamy2 PyPDF2 指出可以向 PDF 文件添加嵌套书签并且代码出现阅读后以支持此操作向根树添加书签很容易请参见下面的代码但我无法弄清楚我需要传递什么作为paren
Visual Studio 2010 XAML 编辑器尴尬的 IntelliSense？

在 Visual Studio C 文本编辑器中当您需要属性时只需键入prop然后点击两次选项卡即可获取属性的片段模板类型和属性名称都会突出显示当您想要在类型和属性之间切换时请按 Tab 键然后在完成后按 Enter 键光
如何在 Rust 中将字符串转换为字节向量？

这可能是有史以来最愚蠢的 Rustlang 问题但我保证我会尽力在文档或网络上的任何其他地方找到答案我可以将字符串转换为字节向量如下所示 let bar bytes some string 不幸的是我不能这样做 let foo som
如何在同一解决方案中运行/调试多个 Web 应用程序项目？

我有 2 个网络应用程序项目一个是我的 asp net MVC 应用程序另一个是与管理相关的功能即 asp net Web 表单动态数据我的 MVC 应用程序将是主站点但我希望 Web 表单在 MVC 站点的 Admin 文件夹下
如何调试 git 别名？

调试git使用 shell 命令和引用使用别名可能很困难我怎样才能看到什么git正在为给定的别名执行 In your gitconfig 添加以下内容 debug GIT TRACE 1 git 然后你就可以运行git debug
Xamarin.iOS：可执行文件已使用无效权利进行签名

我最近添加了通知 FCM 到使用以下方法开发的 iOS 应用程序Xamarin iOS 当我尝试在已发布的设备 iPad 和 iPhone 上安装时安装失败我发现的所有类似问题都与本机开发有关我尝试重新生成配置文件删除并再次添加推送
BeautifulSoup find_all() 不返回任何数据

我对 Python 很陌生我最近的项目是从博彩网站抓取数据我想要抓取的是网页上的赔率信息这是我的代码 from urllib request import urlopen as uReq from bs4 import Beautif
如何以编程方式列出 Rails 中的所有控制器

我正在尝试构建一个 RESTful 应用程序来实际管理多种可配置对象因此有大量的资源类型因此有很多控制器我仍处于 POC 阶段所以如果我可以在第一个导航页面中显示所有控制器那就太好了那么有什么简单的方法可编程可以做到这一
如何在 Silverlight 中更改 Textblock 的背景颜色？

我想要一个黄色背景上有蓝色文本的文本块我可以使用前景属性设置蓝色文本但背景不起作用我想那太简单了那么最好的方法是什么将其包裹在具有背景颜色的矩形或画布中并且我们是否应该了解有关 Silverlight 的任何内容以了
无法使用 ACI 卷。所需的驱动程序是“azure_file”

尝试使用以下方式在 Azure 中部署此应用程序docker compose version 3 5 x environment default back environment Database settings POSTGRES DB
在javascript中动态更新嵌套对象[重复]

这个问题在这里已经有答案了我有一个从 json 解码的对象 var data parentSeries 1 children BusinessRule ChrisTest2 ID ChrisTest2 3 childsub 3 jsonC
如何在 Visual Studio 中将构建配置更改为发布？

我正在尝试发布一个 Xamarin 项目我怎样才能将构建配置更改为Release在 Visual Studio 2015 中 Update I have found the solution here it is 根据如何设置调试和发布
在 Composer 中设置“config.fxp-asset.installer-paths”选项

当我运行composer update在继续更新之前我收到以下警告 The extra asset installer paths option is deprecated use the config fxp asset installe
设计更好的 API？

设计 API 时应遵循哪些最佳实践和模式如何实现隐藏的最佳方式 C Java 设计本质上通用的 API 有哪些参考书链接可以为初学者提供简洁的示例指导吗我不确定我对你们所有的个人问题都有一个很好的答案但我想我对第一个问题确实有一个很
isBeingPresented 值不一致

我以模态方式呈现一个带有 ViewController 的 NavigationController 在 ViewController 中我可以看到self navigationController isBeingPresented是真的
Laravel - 将 Guzzle 请求记录到文件

在开发一个项目时我发现第三方 API 可以在 Postman 中运行但不能在 Guzzle Client 中运行调试 Guzzle 请求可能很困难那么有没有什么方法可以记录 Guzzle 客户端发出的所有请求 TLDR 有一种简单的
Django CSRF 框架无法禁用并且正在破坏我的网站

django csrf 中间件无法禁用我已从项目的中间件中将其注释掉但由于缺少 CSRF 问题我的登录失败我在 Django 主干上工作如果中间件中未启用 CSRF 它如何会导致问题我必须禁用它因为我的网站上有很多 POST
如何使用 pandas 获取某种格式的表格并导出为 csv？

我是 pandas 的新手我想要一个需要导出 csv 格式的表格我尝试过的是 o rg o gg a rg a gg 是数组 df1 pd DataFrame RED o rg GREEN o gg df2 pd DataFrame R
根据两列的值删除行

我有一个巨大的文件 my file txt 大约有 8 000 000 行如下所示 1 13110 13110 rs540538026 0 NA 1 33177622457982 1 13116 13116 rs62635286 0 NA

根据两列的值删除行

根据两列的值删除行 的相关文章

随机推荐

热门标签

根据两列的值删除行的相关文章