Bash 脚本根据另一个文件中指定的日期从日志文件中提取条目？

2023-12-19

我有一个相当大的逗号分隔 CSV 日志文件（>50000 行，我们称之为 file1.csv），看起来像这样：

field1,field2,MM-DD-YY HH:MM:SS,field4,field5...
...
field1,field2,07-29-10 08:04:22.7,field4,field5...
field1,field2,07-29-10 08:04:24.7,field4,field5...
field1,field2,07-29-10 08:04:26.7,field4,field5...
field1,field2,07-29-10 08:04:28.7,field4,field5...
field1,field2,07-29-10 08:04:30.7,field4,field5...
...

正如你所看到的，中间有一个字段是时间戳。

我还有一个文件（我们称之为 file2.csv），其中包含一个简短的时间列表：

timestamp,YYYY,MM,DD,HH,MM,SS
20100729180031,2010,07,29,18,00,31
20100729180039,2010,07,29,18,00,39
20100729180048,2010,07,29,18,00,48
20100729180056,2010,07,29,18,00,56
20100729180106,2010,07,29,18,01,06
20100729180115,2010,07,29,18,01,15

我想做的是仅提取 file1.csv 中具有 file2.csv 中指定时间的行。

如何使用 bash 脚本执行此操作？由于 file1.csv 相当大，因此效率也是一个问题。我以前做过非常简单的 bash 脚本，但真的不知道如何处理这个问题。也许 awk 的一些实现？或者还有别的办法吗？

附：并发症 1：我手动抽查了两个文件中的一些条目，以确保它们匹配，结果确实匹配。只需要找到一种方法来删除（或忽略）file1.csv 中秒（“SS”）字段末尾的额外“.7”。

附言并发症 2：结果 list1.csv 中的条目都间隔大约两秒。有时，list2.csv 中的时间戳恰好位于 list1.csv 中的两个条目之间！在这种情况下有没有办法找到最接近的匹配？

利用约翰的回答，您可以对文件进行排序和连接，仅打印您想要的列（或所有列，如果是这样）。请看下面（请注意，我考虑到您使用的是 UNIX，例如 Solaris，因此 nawk 可能比 awk 更快，而且我们没有可以提供更多便利的 gawk）：

# John's nice code
awk -F, '! /timestamp/ {print $3 "-" $4 "-" ($2-2000) " " $5 ":" $6 ":" $7}' file2.csv > times.list
# Sorting times.list file to prepare for the join
sort times.list -o times.list
# Sorting file1.csv
sort -t, -k3,3 file1.csv -o file1.csv
# Finally joining files and printing the rows that match the times
join -t, -1 3 -2 1 -o 1.1 1.2 1.3 1.4 1.5......1.50 file1.csv times.list

此方法的一个特殊之处是，您可以更改它以便在几种不同的情况下工作，例如不同的列顺序，以及键列未连接的情况。使用 grep 很难做到这一点（无论是否使用正则表达式）

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Bash 脚本根据另一个文件中指定的日期从日志文件中提取条目？的相关文章

加载配置文件时发生错误：访问路径 c:\Program Files (x86)\... 被拒绝

我有一个在 Windows 7 上使用 Visual Studio 2010 中的安装程序部署的应用程序该程序在 Windows 7 和 XP 上部署并运行良好但当我在 Windows 8 系统上部署它时出现有关访问配置文件的错误该
用于编辑 /etc/sudoers 文件的正则表达式模式

我想删除 etc sudoers 文件中的 uncommnet 轮组那么我应该使用什么正则表达式模式 cat etc sudoers Allows members of the sys group to run networking so
如何为 GlassFish Web 应用程序提供对外部资源（文件）的访问？

我是一个有点玻璃鱼 http en wikipedia org wiki GlassFish初学者所以请原谅我对这个问题的无知基本上我们正在为一个游戏网站提供服务为了使我们的网络应用程序可以下载客户端我们将其复制到domain1中
Flutter - 使用 Android 下载指示器下载文件

我正在尝试下载邮件系统的附件为此我正在使用颤振下载器 https pub dartlang org packages flutter downloader但我需要通过我的 http 客户端传递我的令牌我认为这个插件没有处理这个问题我
iPhone存储然后从Documents文件夹中读取文件

这一定很容易但我想将一个文件放在文档文件夹中该文件在启动时读入我有关于如何阅读的代码并已确认其在正确的目录中查找但是当我保存在 xcode 中的 Resources 文件夹中时我的文件 RootList txt 存储在 R
文件写入器覆盖文件而不是附加到末尾时出现问题

好的我在将多行写入文本文件时遇到一些问题程序运行但不会每次都使用新行当我希望它运行 4 次时文本文件应如下所示 a b c d 相反它看起来像 d 谁知道如何解决这个问题所有导入均正确导入来源已稍加编辑假设一切都已正确定
在 BASH 脚本中使用字符串作为变量名

我有以下内容 bin sh n fred bob f n echo f 我需要在替换后执行底线 echo n 有办法做到这一点吗我刚刚得到 test sh line 8 f bad substitution 在我这边您可以像这样使用数组
如何将查找结果传递给 CP，以便带空格的文件名起作用 [重复]

这个问题在这里已经有答案了我正在尝试将带有特定附件的文件复制到不同的目录并保留其相对路径从我调用的原始顶部路径 cp parents find name pdf print new path 我相信这有效但仅当找到的文件名称中没有空
f.read 为空

我在解释器中完成这一切 loc1 council council1 file1 open loc1 r 此时我可以执行 file1 read 并将文件的内容作为字符串打印到标准输出但如果我添加这个 string1 file1 read 字
将 mysql 查询输出存储到 shell 变量中

我需要一个变量来保存从数据库检索的结果到目前为止这基本上是我正在尝试但没有成功的事情 myvariable mysql database u user p password SELECT A B C FROM table a 正如你所看
Python子进程Exec格式错误

抱歉如果这个问题很愚蠢我正在使用Pythonsubprocess在 Ubuntu Natty 11 04 中调用 bat 文件的语句但是我收到错误消息 Traceback most recent call last File pfa
如何重命名 bash 函数？

我正在围绕另一个定义 bash 函数的软件包开发一些方便的包装器我想用我自己的同名函数替换他们的 bash 函数同时仍然能够从我的函数中运行他们的函数换句话说我需要重命名它们的函数或者为其创建某种持久别名当我创建同名函数时该别
Bash - 比较 2 个文件列表及其 md5 校验和

我有 2 个列表其中包含带有 md5sum 检查的文件即使文件相同列表也具有不同的路径我想检查每个文件的 md5 和我们正在讨论数千个文件这就是为什么我需要脚本来仅显示差异第一个列表是普通列表第二个列表是文件的当前状态我想
比较linux中的两个未排序列表，列出第二个文件中的唯一项

我有 2 个包含号码列表电话号码的文件我正在寻找一种列出第二个文件中第一个文件中不存在的数字的方法我尝试过各种方法 comm getting some weird sorting errors fgrep v x f second
运行 shell 命令并将输出发送到文件？

我需要能够通过 php 脚本修改我的 openvpn 身份验证文件我已将我的 http 用户设置为免通 sudoer 因为这台机器仅在我的家庭网络中可用我目前有以下命令 echo shell exec sudo echo usernam
为什么我需要一块一块地读取文件来缓冲？

我看到了以下用于将文件放入数组的代码该数组又用作将其插入 blob 列的 SQL 命令的参数 using FileStream fs new FileStream soubor FileMode Open FileAccess Read
Docker exec linux 终端创建别名

我有一个正在运行且独立的容器我想在附加到该容器之前创建一个命令别名当我连接到容器并输入 alias bar foo 创建别名并可以通过以下方式检查 alias command 但如果我想做同样的事情码头执行者命令即这样 docker
BASH 中的空函数

我正在使用 FPM 工具创建 deb 包此工具在从支持的文件中删除包之前之后创建不幸的是FPM生成的bash脚本包含这样的函数 dummy 该脚本退出时出现错误语法错误意外 BASH 不允许空函数吗哪个版本的 bash linu
使用grep 读取文件中pattern1 的日志并仅打印包含pattern1 的行。当在文件中找到pattern2时停止搜索

Using grep sed awk我想寻找pattern1 until pattern2在文件中找到并打印仅包含的结果pattern1 我不想要模式 1 和模式 2 范围之间的线该站点中有许多解决方案请帮忙我尝试了以下方法但没有结果
获取被调用的 javascript 文件的查询字符串

是否可以在调用的 javascript 文件上使用 javascript 获取查询参数如下所示 in html in file js console log this location query 这是否可能以某种方式实现或者我必须使用

随机推荐

多线程 Nashorn：o.constructor === o.constructor 给出 false

我正在 Nashorn 中尝试多线程脚本加载和评估并得到了令人震惊的行为 having some object o loaded in another thread print o constructor o constructor fa
iOS SDK中使用FourSquare API查找附近地点

如何使用 Foursquare API 在 iOS 应用程序中查找附近的地点由于我是这个环境的新手所以请帮助我找到 API 上可用的任何示例教程我曾经经历过这个链接 https github com anka bw examples
jboss 7.1.1 中两个 Web 应用程序的两个 DNS 名称

我有个问题我有两个网络应用程序部署为战争我们将它们称为 app1 war 和 app2 war 我希望通过 URL www website com 访问 app1 war 并且希望通过 www anotherweb com 访问 app
中心页脚固定在 IE 底部

我正在为一个大学项目编写一个网络界面我一直在处理这个问题我希望我的页脚固定在底部这样无论我使用哪个屏幕或切换全屏模式它都会就位它适用于除 IE7 之外的所有其他浏览器我不必支持以前的版本超文本标记语言 div a href i
OOAD设计问题

我有两张桌子 tblCustomer tblProduct tblCustomer Id Integer auto increament Name Varchar 30 tblProduct Id Integer auto increame
这个可变参数模板代码有什么作用？

template
如何在 JFreeChart 散点图中创建空心形状

使用的 JFreeChart 版本 1 5 0 我尝试了以下方法来获得散点图中的空心形状 PlotFrame java文件内容 package javaapplication1 import javax swing JFrame impor
停止CSS3动画跳跃

我有跟随小提琴 http jsfiddle net mauricederegt rtS5U 4 仅限 Webkit Chrome 只要观看动画一段时间您就会看到它停止一毫秒然后又继续难道是svg文件本身如果是这种情况我该如何修
如何在 shell 脚本中运行“cd”并在脚本完成后保留在那里？

我在 shell 脚本 bash 中使用了更改目录 bin bash alias mycd cd some place mycd pwd pwd prints some place正确但脚本完成后我当前的工作目录不会改变是否可以通过脚
IIS7 + PHP + HTTP POST = 挂起？

我通过 Windows Web App Gallery 在带有 IIS7 的 Windows 7 x64 计算机上安装了 PHP 一切似乎都很顺利一个简单的 phpinfo 页面就像您想象的那样工作但是每当我向 PHP 页面发出 PO
如何正确并行化嵌套 for 循环

我正在使用 OpenMP 并行化标量嵌套 for 循环 double P N N double x 0 0 y 0 0 for int i 0 i
检索手机号码和IMEI

我想找回自己的手机号码和IMEI 如何从 Android 手机获取此信息 use TelephonyManager tm TelephonyManager getSystemService Context TELEPHONY SERVICE
Spring MVC 中的模拟服务

我在 Spring MVC 中模拟服务时遇到问题 Controller public class CompanyController Autowired private CompanyService companyService Autow
如何禁用 Opera 中的登录/密码突出显示？

当用户确认保存密码提示时 Opera 始终以橙色突出显示登录密码输入它不适合我的设计有什么 CSS 方法可以改变禁用它吗 Edit如果不通过CSS 还有其他解决方案吗无法使用 CSS 禁用此功能这是浏览器功能尝试不同的边框
Google 云平台 - 计算引擎/App 引擎 - SSL/HTTPS

目标使我的谷歌云应用程序 SSL 使用预构建的解决方案在谷歌的计算引擎上启动一个实例我需要上传 ssl 证书才能接受信用卡并且或多或少可以做任何事情我找不到用户界面或任何使用计算引擎对我的应用程序域进行 ssl 的方法谷歌的应用
Eclipse 使用 EGit，很难看到 git-blame 信息

使用 Eclipse Indigo Service Release 2 EGit 插件和 JDK 1 7 我已经看到它应该支持责备注释但我无法让它像我看到的那样显示在 Eclipse Wiki 上 http wiki eclipse or
在 ngFor Angular 2 中设置输入类型复选框的选中状态

我有一个 Angular 2 应用程序我使用 ngFor 来处理一堆复选框当我初始化这个组件时我需要根据天气设置复选框的状态 id 存在于数组中 div class col md 12 div class col lg 12 opti
延迟加载DLL

为简单起见我将 DLL TUTORIAL dll 和头文件 MathFuncsDll h 放在根文件夹 C 中然后创建空项目设置配置属性 gt 链接器 gt 输入 gt 延迟加载Dll s to C DLL TUTORIAL dl
pace.js“隐藏除 PACE 之外的所有内容，直到页面完全加载”本地副本

我能够隐藏除速度之外的所有内容直到安装时加载页面pace js 与 eager io https eager io app kYKTiQjoVjQk install 但是当使用 Bower 安装插件并下载 css 主题时我无法弄清楚如
Bash 脚本根据另一个文件中指定的日期从日志文件中提取条目？

我有一个相当大的逗号分隔 CSV 日志文件 gt 50000 行我们称之为 file1 csv 看起来像这样 field1 field2 MM DD YY HH MM SS field4 field5 field1 field2 07 2

Bash 脚本根据另一个文件中指定的日期从日志文件中提取条目？

Bash 脚本根据另一个文件中指定的日期从日志文件中提取条目？ 的相关文章

随机推荐

热门标签

Bash 脚本根据另一个文件中指定的日期从日志文件中提取条目？的相关文章