awk 中的 Uniq；使用 awk 删除列中的重复值

2023-12-11

我有一个大型数据文件，格式如下：

ENST00000371026 WDR78,WDR78,WDR78,  WD repeat domain 78 isoform 1,WD repeat domain 78 isoform 1,WD repeat domain 78 isoform 2,
ENST00000371023 WDR32   WD repeat domain 32 isoform 2
ENST00000400908 RERE,KIAA0458,  atrophin-1 like protein isoform a,Homo sapiens mRNA for KIAA0458 protein, partial cds.,

各列以制表符分隔。列中的多个值以逗号分隔。我想删除第二列中的重复值以产生如下结果：

ENST00000371026 WDR78   WD repeat domain 78 isoform 1,WD repeat domain 78 isoform 1,WD repeat domain 78 isoform 2,
ENST00000371023 WDR32   WD repeat domain 32 isoform 2
ENST00000400908 RERE,KIAA0458   atrophin-1 like protein isoform a,Homo sapiens mRNA for KIAA0458 protein, partial cds.,

我尝试了下面的代码，但它似乎没有删除重复的值。

awk ' 
BEGIN { FS="\t" } ;
{
  split($2, valueArray,",");
  j=0;
  for (i in valueArray) 
  { 
    if (!( valueArray[i] in duplicateArray))
    {
      duplicateArray[j] = valueArray[i];
      j++;
    }
  };
  printf $1 "\t";
  for (j in duplicateArray) 
  {
    if (duplicateArray[j]) {
      printf duplicateArray[j] ",";
    }
  }
  printf "\t";
  print $3

}' knownGeneFromUCSC.txt

如何正确删除第 2 列中的重复项？

您的脚本仅作用于文件中的第二条记录（行），因为NR==2。我把它拿出来了，但这可能就是你想要的。如果是这样，你应该把它放回去。

The in operator checks for the presence of the index, not the value, so I made duplicateArray an associative array^* that uses the values from valueArray as its indices. This saves from having to iterate over both arrays in a loop within a loop.

The split语句将“WDR78,WDR78,WDR78”视为四个字段而不是三个，因此我添加了一个if防止它打印空值，这会导致打印“，WDR78”，如果if不在那儿。

^{* In reality all arrays in AWK are associative.}

awk '
BEGIN { FS="\t" } ;
{
  split($2, valueArray,",");
  j=0;
  for (i in valueArray)
  { 
    if (!(valueArray[i] in duplicateArray))
    { 
      duplicateArray[valueArray[i]] = 1
    }
  };
  printf $1 "\t";
  for (j in duplicateArray)
  {
    if (j)    # prevents printing an extra comma
    {
      printf j ",";
    }
  }
  printf "\t";
  print $3
  delete duplicateArray    # for non-gawk, use split("", duplicateArray)
}'

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

bash

awk

unique

awk 中的 Uniq；使用 awk 删除列中的重复值的相关文章

bash 中的

在 bash 中标准 1 和错误 2 输出可以通过以下方式重新路由和丢弃 gt dev null 2 gt 1 但下面的例子做了不同的事情 nohup myscript sh gt myscript log 2 gt 1 null 的含义

execlp 多个“程序”

我想运行类似的东西 cat file tar base64 myprogram c base64 d tar zvt I use execlp运行该进程当我尝试运行类似的东西时cat它有效但如果我尝试运行base64 d tar zvt
CentOS目录结构是树形的吗？

CentOS 上有相当于树的东西吗如果你的 Centos 系统上没有安装 tree 无论如何我通常建议服务器设置使用最小安装磁盘你应该在命令行中输入以下内容 yum install tree y 如果没有安装那是因为您没有正确的存储库
如何在bash中列出所有后台pid

要么我无法正确表达我的搜索要么答案不容易找到但我正在尝试找出如何列出我的所有后台任务 PID 例如到目前为止我发现要列出我们使用的最后一个 PID 但现在我想列出之前任务的 PID 如果存在但我找不到如何做到这一点最终我想列出我
合并两个数字键关联数组并保留原始键

我有两个这样的数组 array 11 gt 11 22 gt 22 33 gt 33 44 gt 44 array 44 gt 44 55 gt 55 66 gt 66 77 gt 77 我想组合这两个数组使其不包含重复项并保留其原始键
如何剪切(1) 个驼峰字？

Bash 中有没有一种简单的方法可以将驼峰式单词拆分为其组成词例如我想将 aCertainCamelCasedWord 拆分为 a certain Camel Cased Word 并能够选择我感兴趣的那些字段当单词分隔符是下划线时
如何将命令作为参数传递给 ssh [重复]

这个问题在这里已经有答案了我的需要是让这个命令起作用 sshpass p XXXX ssh oStrictHostKeyChecking no email protected cdn cgi l email protection sudo
保存和恢复陷阱状态？管理多个陷阱处理程序的简单方法？

有什么好的方法可以覆盖bash陷阱处理程序不会永久破坏可能已设置或尚未设置的现有处理程序动态管理任意陷阱例程链怎么样有没有办法保存陷阱处理程序的当前状态以便以后可以恢复在 Bash 中保存和恢复陷阱处理程序状态我将提交以下堆栈实现
设置 Pyenv 的路径

我正在尝试在我的服务器中设置 Pyenv 的加载路径 bashrc file 我正在关注这个tutorial https realpython com intro to pyenv 它要求我们在哪里设置pyenv到加载路径然而在我的 b
Inotify linux 监视子目录

是否可以以这种模式监视目录 storage data usernames Download gt storage data Download 我需要监视每个用户的下载文件夹中是否进行了更改也许我需要创建所有路径的列表将其放入数组中并在
目录 * 和文件顺序

我需要将目录中的所有文件连接到一个文件但具有指定名称的文件必须位于输出的顶部只是在做cat gt result将按字母顺序连接所有文件有什么办法告诉猫放置文件vars css或任何其他输出的开头现在我只是重命名文件需要首先000 f
如何使用 bash 显示具有两个子文件夹的文件夹？

我通过 Cygwin 使用 bash 我有一个大文件夹 a 有很多子文件夹 b 这些子文件夹各有一个或两个子文件夹 c 我想找到所有有两个子文件夹 c 的子文件夹 b 并输出它们结构如下 a b1 c1 b2 c1 c2 b3 c1 c2
如何在 sed 中转义方括号[重复]

这个问题在这里已经有答案了我正在使用 grep 和 sed 解析遗留的 C 代码当尝试替换方括号时发生了一些奇怪的事情以下代码替换方括号效果很好 echo xyx xzx xyx sed s g 结果是 xyx xzx xyx 当我
powershell stdin 管道和重定向

你好我一直在制作一个小的跨平台脚本我可以将其卷曲并通过管道传输到bash和Powershell中基本思想是服务器向解释器发送一个命令然后它给出一个命令将所有输出重定向到标准输出 bash 中的一个例子是 some commands
通过特定分隔符删除字符串

我的文件中有几列其中第二列有分隔符我想删除第二列中的第一个第三个和第四个字符串并将第二个字符串留在该列中但我有正常的分隔符空间所以我不知道 input 22 16050075 A G 16050075 A G 22 16050
如何使用 bash 锁定文件

我有一个任务从远程服务器同步目录 rsync av email protected cdn cgi l email protection srv data srv data 为了使其定期运行并避免脚本 reEnter 问题我使用 rsyn
从 csv 文件中删除特定列，保持输出上的相同结构[重复]

这个问题在这里已经有答案了我想删除第 3 列并在输出文件中保留相同的结构输入文件 12 10 10 10 10 1 12 23 1 45 6 7 11 2 33 45 1 2 1 2 34 5 6 I tried awk F 3 fil
.profile 无法从 Mac 终端运行

我有一个 profile 文件我正在终端中读取并使用别名但在某些时候别名由于没有明确的原因而停止工作其他命令仍在工作为了快速修复我删除了 rm 并在用户目录中重新创建了 profile 文件我可以看到至少在该目录中没有 ba
如何在bash中使用jq从变量中包含的json中提取值

我正在编写一个 bash 脚本其中存储了一个 json 值现在我想使用 Jq 提取该 json 中的值使用的代码是 json val code lyz1To6ZTWClDHSiaeXyxg redirect to http examp
grep 两个分隔符之间的子字符串

我有很多bash使用的脚本perl内的表达式grep为了提取两个分隔符之间的子字符串例子 echo BeginMiddleEnd grep oP lt Begin End 问题是当我将这些脚本移植到运行的平台时busybox 融合的 g

随机推荐

如何使用AWS Lambda部署大型Python包？

我需要一些建议我使用 Tensorflow 训练了一个图像分类器并希望使用它将其部署到 AWS Lambda无服务器该目录包括模型一些Python模块包括tensorflow和numpy 以及Python代码解压前完整文件夹的大
如何在C++中获得不同向量的向量

我想要一个 C 表示的表如下所示 0 1 2 1 1 0 a 2 2 0 b 3 3 0 c 列的类型必须从int double or string在运行时用 C 表达它的最佳方式是什么附录我真正的问题我想要一个数据库表的列式表示
在 DispatchTimer 中使用消息对话框时，Windows 8 应用程序中出现“访问被拒绝。（HRESULT 异常：0x80070005 (E_ACCESSDENIED)）”？

我正在尝试在调度计时器中使用消息对话框来在时间完成时更改用户但有时会出现以下错误访问被拒绝 HRESULT 异常 0x80070005 E ACCESSDENIED 如何解决这个问题 Code public DetailPage tim
我们如何找到正在运行的Windows服务的进程ID？

我正在寻找一种查找特定 Windows 服务的进程 ID 的好方法特别是我需要找到 Windows 附带的默认 WebClient 服务的 pid 它作为 svchost exe 进程中的本地服务托管我发现当我使用 netstat
如何生成在 1×41 向量中定位 20 个 -1 值的每个排列？

我编写了不同的代码来生成 1 和减 1 的不同排列它们适用于小尺寸矩阵例如 S 1 1 1 1 1 1 1 1 P unique perms S rows 产生 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
对于存储桶中不存在的密钥，如何让 S3 存储桶返回 404（而不是 403）/

我正在使用 S3 来存储一些业务关键文档我希望存储桶在尝试访问存储桶中不存在的对象时返回 404 状态代码然而我发现它不断返回我 403 以下是使用 S3 网站 URL 的会话示例 gt GET foobar txt HTTP 1 1
如何在 VSCode 的 QuickOpen 面板中预过滤 showCommands

我有一些扩展可以添加 4 个 6 个或更多命令但我不想为每个扩展设置快捷方式理想情况下我可以创建一个快捷方式来显示该扩展的所有命令或者显示workbench action showCommands列表中已经设置了一些文本以便只显示
必须输入“N”两次才能显示相关信息

我正在尝试编写一些代码根据用户输入的内容按升序或降序对数字进行排序当用户输入 Y 时程序能够按升序对它们进行排序但是如果输入 N 按降序排序则用户必须在显示之前输入 N 两次我已经发布了下面的语法所以如果有人想告诉我缺少什么
将数据从 Parse tableview 传递到 WatchKit

我在用着Parse创建此表视图并且我正在尝试弄清楚如何获取表数据以便我可以将其传递到 WatchKit InterfaceController 我是否需要查询Parse以某种方式获取数据并将其存储在array然后我就可以从 WatchK
如何在颤动中创建带有透明孔的小部件

我想在任何 Flutter 小部件中创建一个洞例如假设我们在一个堆栈中有两个小部件我想在上面的一个小部件上挖一个洞以使下面的小部件对用户可见有一个question具有相似的标题但接受的答案与问题不完全匹配答案是在单色覆盖层上挖
为什么 for 循环中声明的变量的最后一次迭代没有被垃圾收集？

我的问题是这是否是一个nodejs垃圾收集器错误或者这是某种预期的在 Windows 上运行节点 v14 15 0 在寻找答案时这个问题涉及 WeakRef 对象时我发现了关于垃圾收集的一个奇怪的事情这似乎是一个可能的错误分配给在
Numpy 从文本文件中读取复数

我使用 numpy 来保存复数矩阵输出文件如下所示 1 100412357301083777e 02 1 471303433818593742e 02j 1 511426586599529109e 02 2 516143258497194
如何从jar资源外部读取jar资源内的文件

我的类路径中的 abc jar 中有一个文件 X json abc jar 中有一个 readFile 方法它将文件读取为 URL url Abc class getClassLoader getResource X json File
什么是 DOT3 照明？

一个答案我的问题表明 DOT3 光照可以帮助 OpenGL ES 渲染但我很难找到 DOT3 光照的合适定义 Edit 1 非常感谢 iPhone 相关信息 DOT3 照明通常称为每像素照明使用顶点照明时会在每个顶点计算照明并将所得
Mediacodec，解码来自服务器的字节数据包并将其渲染在表面上

我对 MediaCode 有一些问题我有 3 个组件解码器下载器和渲染器又简单FragmentStreamVideo初始化 SurfaceView 和 Downloader 其他组件例如渲染器和解码器在 SurfaceView
[objrelease]之后引用计数仍然是1，此时应该释放它

当我创建一个对象并检查其保留计数时我得到了预期的 1 当我释放对象然后再次检查保留计数时它仍然是1 难道不应该释放该对象并且保留计数为0吗 NSMutableString str NSMutableString alloc init
从 Windows Mobile 中的不同线程控制表单元素

尝试获取一个线程来更改 Windows Mobile 中的表单控件抛出不受支持的异常这是不是意味着根本就做不到呢如果没有我该怎么办表单是在父主线程中创建的然后创建一个线程在后台执行一些工作但我想让后台线程可以更新表单以显示其
RMySQL，获取错误 - RS-DBI 驱动程序警告：（获取行时出错）

我正在使用 RMySQL 从数据表中获取一些行该表很大所以我无法将其发布在这里但基本上包含一堆数字总共 10 列和大约 12 000 行当我运行时出现以下错误fetch con n 1 RS DBI driver warning
Mac OS：如何在 Mac OS 应用程序中绘制图表？

我正在开发 Mac OS X 应用程序我必须绘制波浪图图表有没有可用的库框架可以让我的工作变得轻松实现这一目标的最佳方法是什么提前致谢核心情节是一个适用于 iOS 和 OS X 的绘图框架我不确定它是否具有您想要的确切类型的
awk 中的 Uniq；使用 awk 删除列中的重复值

我有一个大型数据文件格式如下 ENST00000371026 WDR78 WDR78 WDR78 WD repeat domain 78 isoform 1 WD repeat domain 78 isoform 1 WD repeat

awk 中的 Uniq；使用 awk 删除列中的重复值

awk 中的 Uniq；使用 awk 删除列中的重复值 的相关文章

随机推荐

热门标签

awk 中的 Uniq；使用 awk 删除列中的重复值的相关文章