如果某一列中的文本与其前面的文本不匹配，则将一个大文件拆分为多个文件

2024-04-15

我搜索了一段时间，找不到对此的回应。我有一个标准 tsv 文件，格式如下：

1    100    101    350    A
1    101    102    300    A
1    102    103    180    A
1    800    801    60     B
1    801    802    70     B
1    802    803    82     B
1    975    976    105    C
1    976    977    108    C

等等。这会持续几百万行，并且第 5 列（A、B、C）中有 1000 个不同的区域。这些区域的行数大小各不相同。我想迭代该文件并将每个区域拆分为自己的文件。

文件A.txt

1    100    101    350    A
1    101    102    300    A
1    102    103    180    A

文件B.txt

1    800    801    60     B
1    801    802    70     B
1    802    803    82     B

文件C.txt

1    975    976    105    C
1    976    977    108    C

With awk

awk '{out = "File" $NF ".txt"; print >> out; close(out)}' file

更高效，不在每行之后关闭目标文件：

awk '
    $NF != dest {if (out) close(out); dest = $NF; out = "File" dest ".txt"} 
    {print >> out}
' file

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python3x

csv

awk

sed

如果某一列中的文本与其前面的文本不匹配，则将一个大文件拆分为多个文件的相关文章

Bash：循环遍历字符串数组后无法读出带空格的字符串

我正在使用循环读取数组的内容该数组包含名为 music 的目录层次结构中的所有目录和文件内容是 find 命令先前输出的字符串这个想法是根据流派艺术家和标题将 directory contents 中每个数组元素的完整目录路径分成子
用于从深层嵌套列表/元组中提取元素的递归函数

我想编写一个从深层嵌套元组和列表中提取元素的函数假设我有这样的东西 l THIS THAT a b c THAT d e f 我想要一个没有这个和那个的简单列表 list a b c d e f 这是我到目前为止所拥有的 def
CSV、Python：正确使用 DictWriter（ValueError：dict 包含不在字段名中的字段）

我在掌握 csv 模块 Python 2 7 中的 DictWriter 时遇到困难我有这个哦我正在使用 unicodecsv 库因为我读到存在问题 f object instance return a dictionary key
Python 3：http.server 支持 ipv6 吗？

Does http server http作为 Python 3 x 模块支持 ipv6 例如使用以下命令行代码启动网络服务器 python m http server port 从 Python 3 8 开始 python m ht
仅从 tsv 中的列索引生成“特殊”字典结构

想象一下这样一个制表符分隔的文件 9606 1 GO 0002576 TAS platelet degranulation Process 9606 1 GO 0003674 ND molecular function z Function
在 Python 中对非英语文本进行分词

我有一个波斯语文本文件其中包含如下几行 6 7 10 11 我想从这一行生成一个单词列表对我来说单词边框是数字比如上面一行中的 6 7 等还有特点所以列表应该是我想在 Python 3 3 中执行此操作最好的方法是什么我
在 sed 命令和范围地址中使用不同的分隔符

我在 shell 脚本中使用 sed 来编辑文件系统路径名假设我想替换 foo bar with baz qux 然而 sed 的s 命令使用正斜杠作为分隔符如果我这样做我会看到发出一条错误消息例如 sed s foo bar b
Python 中 eval("input()") 和 eval(input()) 之间的区别

我正在尝试以下功能 x eval input 输入为 123 x 的类型也是int 它工作正常 In 22 x eval input enter enter 123 In 24 print type x
将具有多个时区的 pandas 列转换为单个时区

Problem 我在 pandas DataFrame 中有一个列其中包含带有时区的时间戳此列中有两个不同的时区我需要确保只有一个这是该列末尾的输出 260003 2019 05 21 12 00 00 06 00 260004 2
如何从 PyObject 获取指向字符串的 char*

我怎样才能得到一个char from a PyObject它指向一个字符串例如这是 python 脚本 Test Connect 272 22 20 65 1234 这是 C 代码 static PyObject Connect PyO
如何看待Python的负数按位运算？

我发现很难思考 Python 和 Python3 的无限精度负数和按位运算它不是 32 位或 64 位这1左边的 s 可以被认为是无穷多个它不是很明确这就是为什么有时很难思考它是如何运作的似乎一种可行的方法是总是让它更多例如
Python3 http.server：将日志保存到文件中

我使用Python3 6编写了一个简单的HTTP服务器来重定向所有请求我写的文件可以找到here https github com kmahyyg learn py3 blob master antiscanhttp py 我可以在 Ub
“初始化 MCI 时出现问题”播放声音问题

我正在尝试使用 Playsound 播放代码文件夹中的文件但是每次运行代码时它似乎都能够调用该文件但我总是收到以下输出 playsound PlaysoundException Error 277 for command open p
AttributeError：模块“pandas”没有属性“read_csv”Python3.5

我已经成功使用pandas read csv很久以来当我尝试读取 csv 文件时突然开始出现错误 df pd read csv file csv encoding utf 8 错误是 AttributeError module pand
AES 会话密钥的 RSA 解密失败，并显示“AttributeError：‘bytes’对象没有属性‘n’”

我正在努力在 Python 3 6 上从 PyCryptodome 实现公钥加密当我尝试创建对称加密密钥并加密解密变量时一切正常但是当我引入 RSA 和 PKCS1 OAEP 的那一刻一切就都顺理成章了 session key加密
Flask-Mail - 基于 Flask-Cookiecutter 异步发送电子邮件

我的烧瓶项目基于烧瓶饼干切割机 https github com sloria cookiecutter flask我需要异步发送电子邮件发送电子邮件的功能由以下配置米格尔的教程 https blog miguelgrinberg com
self.assertRaises 作为上下文管理器，但 msg 参数未按预期工作

请检查以下代码 import unittest CORRECT MESSAGE Correct message WRONG MESSAGE Wrong message def fn raise KeyError CORRECT MESSAG
sed 合并由空行分隔的 N 个文本行？

我搜索了一下但没有找到针对这种特定情况的解决方案给定一个输出任意数量的非空行组的管道这些非空行组分隔成单个空行是否有一个 sed 单行代码或 awk 单行代码或 perl 单行代码将非空行组组合成单行同时保留空白行例如输入
Python 3.6 ZeroMQ (PyZMQ) asyncio pub sub Hello World

我刚刚开始使用 ZeroMQ 我正在尝试让 Hello World 在 Python 3 6 中与 PyZMQ 和 asyncio 一起使用我试图将模块的功能与发布订阅代码分离因此有以下类设置 Edit 1 最小化示例 Edit 2
文本处理问题：删除其中一列不包含特定值的行

我有一个制表符分隔的文件如下所示 input sequence match sequence score receptor group epitope antigen organism ASRPPGGVNEQF ASRPPGGVNEQF

随机推荐

如何检测 highcharts 中的缩放事件？

是否可以检测 Highcharts 中的缩放事件我的用例是我有一些图表外部的状态当用户放大其中的一部分时我想检测 x 轴上的新时间范围并更新相应的外部状态你有没有尝试过高图表API http api highcharts com
需要帮助解决 sorl-thumbnail 错误：“‘thumbnail’不是有效的标签库：”

我一直在绞尽脑汁试图解决这个问题我已经尝试了一切但我没有任何想法我不断看到这个错误异常值 thumbnail 不是有效的标签库无法从 django templatetags thumbnail 加载模板库没有名为 sorl th
std::initializer_list 和引用类型

Can a std initializer list包含引用类型右值和左值或者是否必须使用指针或引用包装器例如std ref EDIT 也许需要更多澄清我有一个成员变量 std vector
R 中的 Unicode 下标

我想写 sigma 2 i使用 unicode 我可以得到三分之二的方法 u03C3 U00B2 我一生都无法弄清楚如何添加下标根据在这个网站上我得到了上标 2 的 unicode http www fileformat info inf
Silex - app->json() 以字符串形式返回整数数据

我刚刚开始使用 Silex 来帮助我构建一个从 MySQL 数据库返回数据的 Restful API 以前在使用 php 和 mysql 时我注意到 MySQL 会在我的文件中将整数作为字符串返回json encode 功能它会在我的所
iTunes Connect 上的销售统计数据多久更新一次？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我的应用程序今天被 Apple 接受我正在尝试计算它已被下载了多少次有谁知道 iTunes Con
npm install git+ssh 在 docker (node16) 中失败

谁能解释一下为什么要从node 14 alpine to node 16 alpine会导致npm安装失败吗 gt 8 10 RUN mount type ssh npm i 14 14 27 npm ERR code 128 14 14
InProc 会话数据消失

我大约一周前才注意到这一点我正在存储有关用户正在玩的当前谜题的数据 www wikipediamaze com 如下所示 HttpContext Current Session Add puzzleInfo currentPuzzleIn
使用 jQuery 将宽度设置为百分比

如何使用 jQuery 将 div 的宽度设置为百分比使用width http api jquery com width 功能 div somediv width 70 将转向 div div into div style width 7
如何将CUDA时钟周期转换为毫秒？

我想用一些代码来测量时间within我的内核需要我已经关注了这个问题 https stackoverflow com questions 11209228 timing different sections in cuda kernel连
如何将图像从黑色转换为白色，反之亦然

我有一张黑白的 jpg 图片我想将黑色部分转换为白色将白色部分转换为黑色黑色像素转换为白色反之亦然 MATLAB并再次另存为jpg文件我已经尝试过这段代码但它只是在白页上给了我一条黑线 im imread Export00000
JPA/Hibernate + HQL/JPQL：选择带有 BigDecimal 参数的 DTO

我们使用 JPA 和 hibernate 作为实现假设我有以下 DTO public class SupplierInfoDto private String supplierName private BigDecimal remaini
iOS 11 SceneKit hitTest：选项：失败

我在 iOS 11 上的 SceneKit 中使用 hitTest options 时遇到了困难在地图应用程序中我有一个地形节点使用 hitTest options 我能够长时间通过触摸屏幕来发现地形上的一个点它仍然可以在 iOS
反应路由器和 Express 冲突

我有我想要 React Router 处理的路径而且我还有一个 Express API 后端我从 React 应用程序调用它来执行一些安全的 API 调用希望在这里提供应用程序 id 应用程序的唯一 URL 我使用 ID 从 Reac
如何将 com.android.internal.telephony.ITelephony 导入到 Android 应用程序

我想挂断来电我检测到它然后我想挂断它问题是这样的 com android internal telephony ITelephony没有解决我尝试添加包com android internal telephony到我的应用程序并创建界
在 Puppeteer 中获取 elementHandle 的同级元素

我正在做 const last await page item last child 现在我很想根据最后一个元素获取前面的元素 IE const prev last prev 关于如何做到这一点有什么想法吗 Thanks 你应该使用prev
异常传播指南（Java 中）

Java 中有关于异常传播的指南吗什么时候向方法签名添加异常例如如果仅在缺少必要的程序资源时抛出异常并且只能在顶层处理那么我是否可以通过使用错误方法的所有方法将其传播到使用此异常的所有方法有什么好的做法吗有什么不好的做法吗如
使用javascript更改html标签内的文本

我正在尝试使用纯 JavaScript 更改 li 标记内的文本 html 内容始终是这样的 section class sidebar menu sidebar right sidebar open div class cart side
如何在 SwiftUI 视图中调用方法

刚刚开始使用 SwiftUI 我有一个谷歌地图视图 https gist github com kwmt 1df17577c59e33da1c4c2eb982f21bbf in a ContentView使用CLLocationManage
如果某一列中的文本与其前面的文本不匹配，则将一个大文件拆分为多个文件

我搜索了一段时间找不到对此的回应我有一个标准 tsv 文件格式如下 1 100 101 350 A 1 101 102 300 A 1 102 103 180 A 1 800 801 60 B 1 801 802 70 B 1 802

如果某一列中的文本与其前面的文本不匹配，则将一个大文件拆分为多个文件

如果某一列中的文本与其前面的文本不匹配，则将一个大文件拆分为多个文件 的相关文章

随机推荐

热门标签

如果某一列中的文本与其前面的文本不匹配，则将一个大文件拆分为多个文件的相关文章