Linux下对多个文件进行排序

2024-05-02

我有多个（很多）文件；每个都非常大：

file0.txt
file1.txt
file2.txt

我不想将它们合并到一个文件中，因为生成的文件将超过 10 场演出。每个文件中的每一行都包含一个 40 字节的字符串。现在字符串的排序相当好（大约 1:10 的步长是值的减少而不是增加）。

我想要订购的线路。（如果可能的话就地？）这意味着从末尾开始的一些行file0.txt将被移动到开头file1.txt反之亦然。

我正在 Linux 上工作，而且对它还很陌生。我知道关于sort命令用于单个文件，但我想知道是否有一种方法可以对多个文件进行排序。或者也许有一种方法可以用较小的文件创建一个伪文件，Linux 会将其视为单个文件。

我所知道的可以做到：我可以单独对每个文件进行排序并读入file1.txt找到大于最大的值file0.txt（并类似地从末尾抓取行file0.txt），加入然后排序..但这很痛苦并且假设没有值file2.txt属于file0.txt（但就我而言不太可能）

Edit

需要明确的是，如果文件如下所示：

f0.txt
DDD
XXX
AAA

f1.txt
BBB
FFF
CCC

f2.txt
EEE
YYY
ZZZ

我要这个：

f0.txt
AAA
BBB
CCC

f1.txt
DDD
EEE
FFF

f2.txt
XXX
YYY
ZZZ

我不知道执行就地排序的命令，但我认为更快的“合并排序”是可能的：

for file in *.txt; do
    sort -o $file $file
done
sort -m *.txt | split -d -l 1000000 - output

The sortfor 循环中确保输入文件的内容已排序。如果不想覆盖原来的，只需更改后面的值即可-o范围。（如果您希望文件已经排序，您可以将排序语句更改为“仅检查”：sort -c $file || exit 1)
第二sort有效地合并输入文件，同时保持输出排序。
这通过管道传输到split命令然后将写入带后缀的输出文件。注意-特点;这告诉 split 从标准输入（即管道）而不是文件中读取。

另外，这里是合并排序如何工作的简短摘要：

sort从每个文件中读取一行。
它对这些行进行排序并选择应该排在第一位的行。该行被发送到输出，并从包含该行的文件中读取新行。
重复步骤 2，直到任何文件中都不再有行。
此时，输出应该是一个完美排序的文件。
Profit!

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Linux下对多个文件进行排序的相关文章

C 程序从连接到系统的 USB 设备读取数据

我正在尝试从连接到系统 USB 端口的 USB 设备例如随身碟获取数据在这里我可以打开设备文件并读取一些随机原始数据但我想获取像 minicom teraterm 这样的数据请让我知道我可以使用哪些方法和库来成功完成此操作以及如
无需 cron 在后台发送邮件

我想知道是否有一种方法可以运行 PHP 循环以便在后台向订阅者发送几百封电子邮件我的目标是格式化新闻通讯单击发送然后关闭浏览器或更改页面当然发送电子邮件的实际过程将在后台运行不会因浏览器关闭而中断我知道这可以通过 cron
劫持系统调用

我正在编写一个内核模块我需要劫持包装一些系统调用我正在暴力破解 sys call table 地址并使用 cr0 来禁用启用页面保护到目前为止一切顺利一旦完成我将公开整个代码因此如果有人愿意我可以更新这个问题无论如何
如何查找连接到 AF_INET 套接字的客户端的 UID？

有什么方法或类似的东西ucred for AF UNIX如果是AF INET插座 TCP在我的例子中找出连接到我的套接字的客户端的UID 还有 proc net tcp但它显示了UID of the creator插座的而不是连接的cli
Docker：处理 tar 文件时出错（退出状态 1）：设置枢轴目录时出错：不是目录

我是 Docker 新手不知道是什么原因导致此错误或如何诊断它任何有关此问题的具体帮助或有关首先检查何处以诊断此类问题的提示将不胜感激我的 Dockerfile FROM java 8 Install maven RUN apt ge
自动过滤/排序列表框项目 (Windows Phone)

我想确保添加到列表框中的项目根据每个项目的序列号按升序排序例如 1 项目 2 项目 4 项目 3 项目应根据其编号自动排序 1 2 3 10 这是 C 源代码 namespace XeroQuiz public partial class
在 Linux 上的 Python 中使用受密码保护的 Excel 工作表

问题很简单我每周都会收到一堆受密码保护的 Excel 文件我必须解析它们并使用 Python 将某些部分写入新文件我得到了文件的密码当在 Windows 上完成此操作时处理起来很简单我只需导入 win32com 并使用 clie
PHP 致命错误：未找到“MongoClient”类

我有一个使用 Apache 的网站代码如下当我尝试访问它时我在 error log 中收到错误 PHP Fatal Error Class MongoClient not found 以下是可能错误的设置但我认为没有错误 php i
如何模拟ARM处理器运行环境并加载Linux内核模块？

我尝试加载我的vmlinux into gdb并使用 ARM 内核模拟器但我不明白为什么我会得到Undefined target command sim 这是外壳输出 arm eabi gdb vmlinux GNU gdb GDB 7
嵌入式Linux poll()不断返回

我有一个特别的问题当我知道没有什么可读时民意调查不断返回因此设置如下我有 2 个文件描述符它们构成fd设置民意调查监视一种用于引脚从高到低的变化 GPIO 另一个用于代理输入代理输入出现问题处理的顺序是启动main函数然
PHP：是否可以从文件内容（字符串）创建 SplFileObject 对象？

例如 contents file get contents image png 是否可以从 contents 创建 SplFileObject 对象 Thanks php 有一些特殊的流包装器 http www php net manual
Godaddy 托管上的 CakePHP 控制台

我一直在努力让我的 CakePHP 网站在 Godaddy 网格托管帐户上运行我的蛋糕应用程序设置是从帐户的子目录托管的并且可以通过子域访问我必须调整我的 htaccess 文件才能使其正常工作现在我需要让 CakePHP 控制台
Woocommerce，基于短代码的产品列表上的排序下拉列表

在我们的商店里我们有许多标准的 WP 页面在这些页面上我们使用标准 Woocommerce 短代码展示了约 40 种产品例如 product category category boots per page 20 columns 4
Backbone Marionette CompositeView 排序列表 - 在添加时呈现额外的模型

这是小提琴 http jsfiddle net QhQ8D 10 http jsfiddle net QhQ8D 10 代码在下面制作一个聊天应用程序需要一个排序的连接的用户列表名称上带有比较器的图形集合连接到 CompositeV
为什么我收到的数据包数据大小大于mss？

我在两台 PC 上使用 ifconfig ethX mtu 300 修改了 MTU 并使用 netperf 测试网络我用 WireShark 嗅探了 SYN 数据包中的 MSS 260 但我得到了一些大于 260 的数据包为什么嗅探器
如何修复“iptables：没有该名称的链/目标/匹配”？

我在我的 Linux 嵌入式系统上构建并安装了 iptables 如果我列出所有规则则一切正常 iptables list Chain INPUT policy ACCEPT target prot opt source destinat
拆分字符串以仅获取前 5 个字符

我想去那个地点 var log src ap kernelmodule 10 001 100 但看起来我的代码必须处理 ap kernelmodule 10 002 100 ap kernelmodule 10 003 101 等我想使用
修改linux下的路径

虽然我认为我已经接近 Linux 专业人士但显然我仍然是一个初学者当我登录服务器时我需要使用最新版本的R 统计软件 R 安装在 2 个地方当我运行以下命令时 which R I get usr bin R 进而 R version
Elasticsearch 无法写入日志文件

我想激活 elasticsearch 的日志当我运行 elasticsearch 二进制文件时我意识到我在日志记录方面遇到问题无法加载配置这是输出 sudo usr share elasticsearch bin elasticse
Android：ANT 构建失败，并显示 google-play-services-lib：“解析为没有项目的 project.properties 文件的路径”

我正在尝试使用 ANT 构建我的应用程序但在包含 google play services lib 库项目后我惨遭失败 Step 1 我在 project properties 文件中设置了对库项目的引用 android library

随机推荐

在 Elasticsearch 中对具有一个值的属性进行多个值查询

我正在尝试在这个查询的基础上进行一些构建我正在搜索的索引还有一个带有 id 的实体字段因此一些记录将具有实体 16 实体 156 等具体取决于实体的 ID 我需要以这样的方式扩展此查询以便可以传递数组或某些值列表例如 te
删除键空间挂起

问题 drop keyspace MyKeyspace hangs 环境这是 virtualbox 中的 Ubuntu 12 04 64 位运行单个 Cassandra 实例在开发计算机上卡桑德拉是 1 1 6 myuser myh
在 .NET 中使用 try-catch 进行流量控制是否“不好”？

我刚刚在一个项目中发现 try myLabel Text school SchoolName catch myPanel Visible false 我想与开发人员交谈而不是写这个说会引发空异常因为school理论上可能为空而不是my
CSS 选择器：id 或类中的第一个 div

用于选择类中或具有特定 id 的第一个 div 的正确 CSS 选择器是什么对于父子元素来说这似乎要容易得多但我还没有找到简单元素的任何内容更新解决方案我发现的最干净最兼容的解决方案是 class class 它选择前一个类
如何在不使用完整备份的情况下使用生产数据刷新 SQL Server 测试实例

我有两台 MS SQL 2005 服务器一台用于生产一台用于测试并且两台服务器的恢复模型均为完整我将生产数据库的备份恢复到测试服务器然后让用户进行更改我希望能够回滚对测试 SQL 服务器所做的所有更改应用自测试服务器最初恢
C# 调用返回结构的 C++ DLL 函数

我有一个 C dll 它定义了一个结构体和一个 dll 调用如下所示 typedef const char FString typedef struct FString version FString build no FString b
使用 webbrowser 控件 c# 检测网页何时完全加载

我正在使用一个WebBrowsercontrol 有一个事件称为DocumentCompleted 该事件会针对网页中的每个框架以及加载的所有子文档例如 JS 和 CSS 触发我的问题是如何检测此事件的最后一个条目我的意思是如何检测页
iPhone / .NET WCF 互操作性

我正在构建一个 NET Web 服务和一个将使用这些服务的 iPhone 应用程序我很好奇是否有任何构建两者之间交换数据的协议的最佳实践对于我来说基于 SOAP 的 Web 服务对于 iPhone 应用程序来说太沉重了也许可以用
在 Java EE 应用程序开发中使用 Docker

我将添加300点作为赏金我最近开始仔细研究 Docker 以及如何使用它来更快地让团队的新成员启动并运行开发环境以及将新版本的软件交付到生产环境我有一些关于如何以及在什么阶段将 Java EE 应用程序添加到容器的问题据我所知有多
每个屏幕方向的文本大小不同？

我正在开发一个计算器在横向上我添加了更多按钮因此每个按钮都会变得更小以适应额外的按钮此时我只是使用较小的字体大小以便它们在横向模式下适合较小的按钮但是我希望纵向上的文本比横向上的文本更大我一直在尝试找出一种根据屏幕方向使用不同
如何删除构建产品

是否可以自动删除由生成的构建产品setup py脚本基于设置工具我刚刚开始一个新的 Python 项目这是我第一次使用设置工具作为一名开发人员所以我可能会犯错当我使用构建项目时python setup py bdist 三个目录 b
Java 安全管理器完全禁用反射

我在 Stackoverflow 上阅读了很多关于这个问题的问题但无法停止找到我的问题的解决方案或答案如果已经有一个如果有人给出提示我将不胜感激我的问题是是否可以完全禁用不可信代码的反射功能类似于getDeclaredMetho
CSV 损坏，如何修复？

我正在尝试解析 CSV 我想将它放入数据库或只是用 JavaScript 解析它但由于语法损坏任何一种方法都会失败我的整个 CSV 文件在这里 https gist github com 1023560 https gist gith
RTIMER_NOW() 和clock_time() 之间的Contiki 区别

我想知道之间的区别 RTIMER NOW and clock time 功能我可以将它们返回的值存储在 int 变量中吗它们返回的是整个模拟的时间还是调用它们的单个节点的时间如果一个节点在模拟中第一个事件发生后 5 秒启动其主进程这
如何在谷歌地图的边缘创建填充

我有一个非常繁忙的谷歌地图应用程序我正在尝试在地图的外边缘周围创建一个缓冲区以便谷歌地图命令不会把东西放在那里我的解决方案是创建不可见的 div 并将它们作为控件添加到地图中每个边缘一个这似乎很有效因为所有谷歌命令都会看到它们
无法覆盖 Rustup 工具链以自定义构建 iOS 工具链

我正在用我的 Rust 版本创建我自己的工具链我需要它与 iOS 架构进行交叉编译当尝试设置默认工具链或覆盖当前目录的工具链时我收到有关工具链名称的错误以下是我创建这个新工具链所采取的步骤创建 Rustup 工具链 rustup
Twitter Bootstrap 2：如何获得响应式设计以将侧边栏放在底部而不是顶部？

Twitter 的 Bootstrap 2 http twitter github com bootstrap 最后添加了原生响应式设计但是默认情况下当浏览器宽度低于最小宽度时它将侧边栏放在顶部我可以看到这对于许多网站来说是如何工
执行 rebase 后，Git 提交会在同一分支中重复

我理解 Pro Git 中提出的场景是关于变基的危险 https git scm com book en v2 Git Branching Rebasing rebase peril 作者基本上告诉你如何避免重复提交不要对已推送到公共存储
Flex，连续扫描流（来自套接字）。我是否错过了使用 yywrap() 的某些内容？

使用 Flex 进行模式识别在基于套接字的扫描仪连续流上工作 Flex 找不到与数组边界重叠的匹配项所以我实现了 yywrap 来设置新的数组内容一旦 yylex 检测到它将调用 yywrap 到目前为止还没有成功基本上
Linux下对多个文件进行排序

我有多个很多文件每个都非常大 file0 txt file1 txt file2 txt 我不想将它们合并到一个文件中因为生成的文件将超过 10 场演出每个文件中的每一行都包含一个 40 字节的字符串现在字符串的排序相当好大约

Linux下对多个文件进行排序

Edit

Linux下对多个文件进行排序 的相关文章

随机推荐

热门标签

Linux下对多个文件进行排序的相关文章