sh 按匹配的列名值分解 CSV 文件，同时保留标题

2023-12-01

我有一个目录，其中包含来自表导出的许多 CSV 文件

tblA.csv

A,B,C
1,1,1
1,2,2
2,2,2
3,3,3

tblB.csv

C,D,A
1,1,1
1,2,2
2,2,2
3,3,3

为了破坏文件我找到了这个脚本

   awk -F, '
      NR== 1 { hdr = $0;next}
      {out = "File" $1 ".csv"}
      printed[$1]++<1 {print hdr >out}
      {print $0 > out}
  ' tblA.csv

创建 3 个文件

A,B,C
1,1,1
1,2,2

A,B,C
2,2,2

A,B,C
3,3,3

现在，对于 tblB.csv，我仍然需要按 A 列分解文件，但该列是第三列而不是第一列

我无法找出传递参数 A 的方法，让它循环标题以查找与我传递的参数匹配的列名称，然后使用该列值中断文件。或者，如果该列名不存在，则跳过该文件。

以下是如何按列名称打印列：

按列的名称打印列：

$ cat tst.awk
BEGIN { FS="," }
NR==1 {
    for (i=1; i<=NF; i++) {
        f[$i] = i
    }
}
{ print $(f["A"]) }

$ awk -f tst.awk tblA.csv
A
1
1
2
3

$ awk -f tst.awk tblB.csv
A
1
2
2
3

以下是如何使用该习惯用法在每个 Unix 机器上的任何 shell 中使用任何 awk* 来稳健而高效地完成您所要求的操作：

按分组键值拆分输入文件：

$ cat tst.awk
BEGIN { FS="," }
NR==1 {
    for (i=1; i<=NF; i++) {
        f[$i] = i
    }
    hdr = $0
    next
}
!(tgt in f) { exit }
{ curr = $(f[tgt]) }
curr != prev {
    close(out)
    out = "File" curr ".csv"
    print hdr > out
    prev = curr
}
{ print > out }

$ awk -v tgt='A' -f tst.awk tblA.csv

$ head File*.csv
==> File1.csv <==
A,B,C
1,1,1
1,2,2

==> File2.csv <==
A,B,C
2,2,2

==> File3.csv <==
A,B,C
3,3,3

$ awk -v tgt='A' -f tst.awk tblB.csv

$ head File*.csv
==> File1.csv <==
C,D,A
1,1,1

==> File2.csv <==
C,D,A
1,2,2
2,2,2

==> File3.csv <==
C,D,A
3,3,3

上面假设输入文件按示例输入中所示的关键字段进行分组 - 如果不是，则可以在 awk 脚本中处理：

仅使用 AWK 按非分组键值拆分输入文件：

$ cat tblC.csv
C,D,A
2,2,3
1,2,2
1,1,3
3,3,1

$ cat tst.awk
BEGIN { FS="," }
NR==1 {
    for (i=1; i<=NF; i++) {
        f[$i] = i
    }
    hdr = $0
    next
}
{ curr = $(f[tgt]) }
curr != prev {
    close(out)
    out = "File" curr ".csv"
    if ( !doneHdr[curr]++ ) {
        print hdr > out
    }
    prev = curr
}
{ print >> out }

$ awk -v tgt='A' -f tst.awk tblC.csv

$ head File*.csv
==> File1.csv <==
C,D,A
3,3,1

==> File2.csv <==
C,D,A
1,2,2

==> File3.csv <==
C,D,A
2,2,3
1,1,3

但如果您的文件很大，对它们进行排序会更有效，因此在运行 awk 脚本之前对键值进行分组，这样 awk 就不必重复打开/关闭输出文件：

使用 sort+AWK 按非分组键值拆分输入文件（对于大文件更有效）：

$ cat tst.sh
#!/usr/bin/env bash

tgt="$1"
shift

awk -v tgt="$tgt" '
    BEGIN { FS=","; OFS="\t" }
    NR==1 {
        for (i=1; i<=NF; i++) {
            f[$i] = i
        }
    }
    { print (NR>1), $(f[tgt]), NR, $0 }
' "${@:--}" |
sort -k1,1n -k2,2 -k3,3n |
cut -f4- |
awk -v tgt="$tgt" '
    BEGIN { FS="," }
    NR==1 {
        for (i=1; i<=NF; i++) {
            f[$i] = i
        }
        hdr = $0
        next
    }
    { curr = $(f[tgt]) }
    curr != prev {
        close(out)
        out = "File" curr ".csv"
        print hdr > out
        prev = curr
    }
    { print > out }
'

$ ./tst.sh 'A' tblC.csv

$ head File*.csv
==> File1.csv <==
C,D,A
3,3,1

==> File2.csv <==
C,D,A
1,2,2

==> File3.csv <==
C,D,A
2,2,3
1,1,3

上面的工作原理是首先使用 awk 通过在每一行前面添加来装饰原始输入：

NR>1= 标头或非标头、0 或 1 指示符，这样我们就可以确保标头始终在sort,
$(f[tgt])= 我们要排序的键值，
NR= 当前行号，因此我们得到与重复键输入相同的顺序输出（也可以不添加它，然后使用 GNU 排序来完成-s)

然后我们按这些字段排序，然后使用再次删除它们cut（可以在后续的 awk 脚本中执行此操作，但是cut在主 awk 脚本开始创建输出文件之前，它是高效的并且避免混乱）。

此类 AWK 脚本中需要注意的事项：

* 如果您得到执行以下任一操作的其他答案，请注意：

任何不支持的解决方案close()一旦超过可能低至 15 的阈值，大多数 awk 中的输出文件都会因“打开文件过多”而失败，甚至支持无限“打开”文件（例如 GNU awk）的 awk 也会减慢超过该阈值的速度，如下所示它必须通过根据需要在幕后实际打开/关闭操作系统来管理所有这些“打开”文件，并且
任何使用的解决方案print > "File" $1 ".csv"或类似的没有将右侧的表达式括起来>在大多数 awks 中都会因语法错误而失败，因为未定义的行为。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

awk

sh 按匹配的列名值分解 CSV 文件，同时保留标题的相关文章

使用 awk 打印匹配键的列范围

这似乎有一个简单的解决方案但我被困住了我想在密钥文件中查找主文件的第二列对于任何匹配的密钥仅打印前两列但打印其余的整个记录我有一个工作脚本但它打印匹配键的整行你能帮忙吗 awk FNR NR key 1 next 2 in
将文本输入滑动窗口并进行计数

我有这样的文件超过 1 个缺少行 20 14370 rs6054257 G A 29 PASS NS 3 DP 14 AF 0 5 DB H2 GT GQ DP HQ 0 0 48 1 51 51 20 17330 T A 3 q10 N
不读取 awk 命令文件中的文件第一行

我无法使我的 awk 命令列表无法读取数据文件的第一行它必须读取除第一行之外的每一行然后将运动员和年份连接成一个字符串后来在程序中我使用了数组我没有列出所有代码下面列出了数据文件的前两行我需要让它不读取标题行而只从第一位运动员
AWK：打印一个字段中具有最大值的所有行每个其他字段，包括具有最大值和多个列的相同行

我很感激许多贡献者迅速提供了许多解决方案 AWK 打印一个字段中具有最大值的所有行每个其他字段包括具有最大值的相同行 https stackoverflow com questions 75392860 awk print all row
使用 awk 读取串行输入，插入日期

我正在尝试重新格式化串行输入该输入由两个用逗号分隔的整数组成从 Arduino 发送 1 2 3 4 0 0 0 1 我想在每行后面附加日期用制表符分隔所有内容到目前为止这是我的代码 cat dev cu usbmodem3d11
使用 awk 将稀疏矩阵转换为 ARFF

我正在处理稀疏矩阵格式的极大数据集数据具有归档格式 3 个制表符分隔的列其中第一列中的字符串对应于行第二列中的字符串对应于属性第三列中的值是加权分数 church place 3 church institution 6 man p
使用 awk 仅从字符串中获取数字

背景我有一个专栏should以描述文本 ref12345678 的形式获取用户输入我有现有的脚本可以获取参考号但不幸的是一些用户错误地添加了它所以而不是 ref12345678 有可能 ref 12345678 RF1234567
awk 中的提示和技巧 [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
如何在 awk 中对模式进行 if else 匹配

我尝试过以下命令 awk search pattern print 1 如何编写上述命令的 else 部分经典方式 https www gnu org software gawk manual gawk html If Statement
了解 OFS 在 AWK 中的工作原理

这是后续我的问题 https stackoverflow com questions 55876705 awk ofs is not working with fs character set了解有关 AWK 中 OFS 的更多信息我的理
如何使用 awk 将一组重复的行转置为列

我有一个文本文件其中包含 7 列数据格式如下 18030 AAJ51 FTO rs9939609 C 30090620 10 A T 18030 AAJ51 CAT rs1001179 C 11468118 10 C C 18030 A
查找列中字段的平均值[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我有一个这样的记录 1 11 11 T A 0 0 A 1 B 2 C 3 D 4 有 8 列每列由制表符空格分隔我需要的输出是这
从文件中读取行，在第二个文件中 grep ，并为每个 $line 输出一个文件

我有以下两个文件 sequences txt 158333741 Acaryochloris marina MBIC11017 uid58167 158333741 432 1 432 COG0001 0 158339504 Acaryoc
如何格式化 .CSV 文件的日期字段并在字符串字段中包含多个逗号

我有一个 CSV 文件 file csv 其数据全部用双引号引起来文件的示例格式如下 column1 column2 column3 column4 column5 column6 column7 Column8 Column9 Colu
我如何在 ruby 中执行范围正则表达式，例如 awk /start/,/stop/

我想做一个 AWK 风格的范围正则表达式如下所示 awk hoststatus file 在 AWK 中这将打印文件中两个模式之间的所有行 hoststatus host name myhost modified attributes
Linux 文本文件操作

我有一个格式的文件 a href a href a href a href 我需要选择之后但之前的文本并将其打印在行尾添加后例如 a href http www wowhead com search Su a a a a a
Bash：循环遍历字符串数组后无法读出带空格的字符串

我正在使用循环读取数组的内容该数组包含名为 music 的目录层次结构中的所有目录和文件内容是 find 命令先前输出的字符串这个想法是根据流派艺术家和标题将 directory contents 中每个数组元素的完整目录路径分成子
如何使用AWK脚本检查表的所有列数据类型？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案在这里我正在检查表中第一列的数据类型但我想知道AWK中表的所有列数据类型我尝试过但只能获得一列数据类型例如 Column 1
awk/Unix 分组依据

有这个文本文件 name age joe 42 jim 20 bob 15 mike 24 mike 15 mike 54 bob 21 试图得到这个计数 joe 1 jim 1 bob 2 mike 3 Thanks awk F NR
折叠具有多个字段的行

我有这个代码 awk seen 1 2 a 1 a 1 a 1 t 2 END for i in a print i a i inputfile 我想折叠具有两个以上字段的行但始终基于第一个字段作为索引输入文件三列制表符分隔 prot

随机推荐

就像 MySQL 中区分大小写一样

我有一个 MySQL 查询 SELECT concat ws title description as concatenated HAVING concatenated LIKE SearchTerm 我的表是用 MyISAM 编码的 ut
使用原始音乐数组进行循环 android

我目前正在尝试创建一个 for 循环在该循环中它将播放原始文件完成后它将继续播放数组中的下一个声音文件目前它正在一次播放所有文件关于如何解决这个问题有什么建议吗我认为完成监听器可能有问题但不确定谢谢 my Code pack
使用单个 URL 抓取多个页面上的表

我正在尝试从 Fangraph 中抓取数据这些表分为 21 个页面但所有页面都使用相同的 URL 我对网络抓取或一般的Python 非常陌生但Fangraphs没有公共API 所以抓取页面似乎是我唯一的选择我目前正在使用 Beau
Javafx 四边形网格

我需要在javafx中显示一个四边形网格每个网格面有4个点我尝试了一些来自fxyz的三角形网格示例library 但不确定它如何适用于四边形有人可以帮助指出 javafx 中四边形网格的示例吗 OpenJFX 上提供的 3DViewer
如果我在不同的国家/地区，如何知道特定国家/地区的时间？

我正在尝试这样做 1 获取我的当前时间和时区 2 我从 Google 知道该特定国家地区的时区 3 计算时区差异 4 从当前时间中减去该差值这会给我在其他国家的时间我被困在步骤 3 和 4 了我得到这样的当前时间 Date d ne
Java字符串操作：根据模式从字符串中提取整数和浮点数

我有以下两个可能的字符串内容显然金额总是有所不同我想提取关键信息并 Case 0 pricesString Case 1 pricesString 0 023 Case 2 pricesString 10 1 46 100 0 16
Oracle：发送 JMS 消息的 Java 存储过程

我正在尝试将点对点 JMS 消息从 Oracle 数据库存储过程发送到 java 应用程序这两个点位于不同的机器上我已确认它们可以通过 ping 相互通信我创建了一个 java 应用程序能够成功地从应用程序服务器内的队列中取出消
Android Studio 中未显示 Windows 的构建选项

我使用的是 Flutter Desktop 的最新稳定版本并且已经安装了 Visual Studio 2022 但仍然没有显示 Windows 选项我还需要在稳定版本中运行以下命令吗 flutter config enable
删除 NaN 行在 pandas 中不起作用[关闭]

Closed 这个问题是无法重现或由拼写错误引起目前不接受答案我有一个大约 7k 行和 4 列的文件很多单元格都是空的我尝试使用许多 pandas 函数删除它们但似乎没有任何效果我尝试过的功能和代码如下我尝试过的 df df
为什么 GetProcAddress 不起作用？

首先我创建一个简单的 dll 名为SimpleDll dll 其头文件 SimpleDll h ifdef MYLIBAPI else define MYLIBAPI declspec dllimport endif MYLIBAPI i
javascript 中函数闭包前是否需要分号？

我想知道这是否是一个编译器错误或者这就是它应该的方式使用node js v10 15 3 此代码会抛出错误 var x x false function y console log foo 但这段代码工作正常 var x x false
隐藏/不可见的 Ajax 请求？

是否可以编写和创建一个无法被 Firefox 中的 Firebug 插件捕获的 JavaScript Ajax 请求我问这个问题是因为我可以在 Facebook 上看到没有正在进行的 Ajax 请求但是当我从另一个帐户发送消息时顶部的
2D CUDA 中值滤波器优化

我在 CUDA 中实现了一个 2D 中值滤波器整个程序如下所示 include cuda runtime h include cuda runtime api h include device launch parameters h in
MiniZinc 数组中字符串值的索引

问题给定一个 MiniZinc 字符串数组 int numStats set of int Stats 1 numStats array Stats of string statNames 使用从 MiniZinc 数据文件加载的数据 n
无法安装 NuGet 包 - 500 内部服务器错误

这对我来说毫无意义 NuGet 以前工作正常但现在当我尝试安装软件包时它会抛出服务器错误我已经卸载并重新安装了最新的 NuGet 但仍然没有成功 PM gt Install Package EntityFramework Install
为什么 LocationManager 没有 LastKnown 位置？

我想要用户的位置并且在该用户自己导航后也只需要一次 locationManager LocationManager this getSystemService LOCATION SERVICE location locationManag
如何在 Windows 7 上安装 Windows Phone 8 SDK

我在 Windows 7 上设置了所有工作区和所有内容但我也想开发 Windows Phone 8 但正如 Microsoft 网站所述它无法安装在 Windows 7 上有人知道如何在 Windows 7 上安装吗我找到了一个破解
iOS Ionic 应用程序中的链接无法立即打开

我的应用程序的视图之一中有一些链接 Sharing 添加到日历打开外部链接在我用来测试应用程序的 iPhone 上 1 和 2 可以工作但只有当我按下主页按钮然后返回到应用程序时才会出现共享日历对话框谁能建议什么可能导致这个我
使用对象类型的字符串名称在 C# 中进行类型转换

我有以下代码应该很容易理解 public class Foo public void FooHasAMethod Console WriteLine it is me foo public class Bar public Foo Foo
sh 按匹配的列名值分解 CSV 文件，同时保留标题

我有一个目录其中包含来自表导出的许多 CSV 文件 tblA csv A B C 1 1 1 1 2 2 2 2 2 3 3 3 tblB csv C D A 1 1 1 1 2 2 2 2 2 3 3 3 为了破坏文件我找到了这个脚本

sh 按匹配的列名值分解 CSV 文件，同时保留标题

sh 按匹配的列名值分解 CSV 文件，同时保留标题 的相关文章

随机推荐

热门标签

sh 按匹配的列名值分解 CSV 文件，同时保留标题的相关文章