如何从两个制表符分隔的文件中获取枢轴线？

2024-02-27

给定两个文件file1.txt

abc def \t 123 456
jkl mno \t 987 654
foo bar \t 789 123
bar bar \t 432

and file2.txt

foo bar \t hello world
abc def \t good morning
xyz \t 456

任务是提取第一列匹配的行并实现：

abc def \t 123 456 \t good morning
foo bar \t 789 123 \t hello world

我可以用Python这样做：

from io import StringIO

file1 = """abc def \t 123 456
jkl mno \t 987 654
foo bar \t 789 123
bar bar \t 432"""


file2 = """foo bar \t hello world
abc def \t good morning
xyz \t 456"""

map1, map2 = {}, {}

with StringIO(file1) as fin1:
    for line in file1.split('\n'):
        one, two = line.strip().split('\t')
        map1[one] = two
    
    
with StringIO(file2) as fin2:
    for line in file2.split('\n'):
        one, two = line.strip().split('\t')
        map2[one] = two
        
        
for k in set(map1).intersection(set(map2)):
    print('\t'.join([k, map1[k], map2[k]]))

实际的任务文件有数十亿行，是否有更快的解决方案，无需加载所有内容并保留哈希图/字典？

也许使用 unix/bash 命令？对文件进行预排序会有帮助吗？

The join命令有时很难使用，但这里很简单：

join -t $'\t' <(sort file1.txt) <(sort file2.txt)

使用 bash 的ANSI-C 引用 https://www.gnu.org/software/bash/manual/bash.html#ANSI_002dC-Quoting指定制表符分隔符，以及流程替代 https://www.gnu.org/software/bash/manual/bash.html#Process-Substitution将程序输出视为文件。

要查看输出，请将以上内容通过管道传输到cat -A查看表示为的选项卡^I:

abc def^I123 456^Igood morning$
foo bar^I789 123^Ihello world$

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

shell

csv

Dictionary

HashMap

如何从两个制表符分隔的文件中获取枢轴线？的相关文章

如何将本机 popcount 与 numba 一起使用

我正在使用 numba 0 57 1 我想在我的代码中利用本机 CPU popcount 我现有的代码太慢因为我需要运行它数亿次这是一个 MWE import numba as nb nb njit nb uint64 nb uint6
如何为 Intellij/PyCharm 设置 PYTHONSTARTUP 脚本

我尝试添加PYTHONSTARTUP环境变量我还尝试了自定义启动脚本但更令人惊讶的是这also没有工作 npa别名无法识别出于一点绝望我什至尝试添加到interpreter options 那什么也没做实际上是什么Interpr
pip 安装失败，SSL 证书验证失败 (_ssl.c:833)

我无法通过 pip install 安装任何外部 python 模块我已经正确安装了 python 但如果我使用 pip install 它会显示此错误这是我运行后的代码pip install pytesseract C Users 1
Python sqlite3参数化删除表

我在 python 中删除 sqlite3 表时遇到问题我正在使用标准sqlite3模块 self conn sqlite3 connect sql drop table self conn execute sql u table nam
Spyder 导入模块出错

我正在尝试在 Spyder 中使用 sklearn 一开始当我尝试导入它时我收到 ImportError No module named sklearn 然后我用 PYTHONPATH 管理器设置 PATH 然后使用工具菜单中的更新模
在 C# 中创建具有单独列的分隔文本

我一直在尝试在 C 中创建一个制表符限制的文本文件以便数据正确显示在单独的列中 Firstname Lastname Age John Smith 17 James Sawyer 31 我尝试过 t 字符但我得到的只是 Firstnam
使用 Pymongo 从 Windows 连接到 AWS 实例上的 MongoDB

此行反复抛出错误 client MongoClient ec2 12 345 67 89 us east 2 compute amazonaws com 27017 ssl True ssl keyfile C mongo pem 由于显而
Windows Defender 检测 Python EXE 为木马

我制作了一个 Python 脚本将 Windows 目录以 zip 形式邮寄给我我使用 sched 模块添加了一个调度程序每小时重复一次我试图制作一个简单的同步应用程序供个人使用在 Windows 启动时启动我使用将其转换为 e
如何为 C 分配的 numpy 数组注册析构函数？

我想在 C C 中为 numpy 数组分配数字并将它们作为 numpy 数组传递给 python 我可以做的PyArray SimpleNewFromData http docs scipy org doc numpy reference
使用 boto3 从 s3 下载时使用 filename 作为文件名

我正在使用 boto3 上传文件如下所示 client boto3 client s3 aws access key id id aws secret access key key client upload file tmp test
Flask 中的 import 和 extends 有什么区别？

我正在阅读 Flask Web 开发在例4 3中 extends base html import bootstrap wtf html as wtf 我想知道 extends 和 import 有什么区别我认为它们在用法上很相似在什
是否有更矢量化的方法来沿轴执行 numpy.outer ？

gt gt gt x np array a0 a1 b0 b1 gt gt gt y np array x0 x1 y0 y1 gt gt gt iterable np outer x i y i for i in xrange x sha
使用 3d 对象作为 3d 散点图中的标记 - Python

使用下面的代码我尝试模拟一个用罐头制成的碗我希望每个标记都是一个罐头最好的方法是什么我真的很感激任何建议谢谢 import pylab import numpy as np from math import pi sin cos
PyCharm 无法识别字典值类型

我有一个简单的代码片段其中我将字典值设置为空列表 new dict for i in range 1 13 new dict i 现在如果在下一行的循环内我会输入new dict i 并添加一个点我希望 PyCharm 向我显示可用于
如何在 Pytorch 中将一维 IntTensor 转换为 int

如何将一维 IntTensor 转换为整数这 IntTensor int 给出错误 KeyError Variable containing 423 torch IntTensor of size 1 我所知道的最简单最干净的方法 In
使用 Python 脚本打开特定文件类型？

如何使 Python 脚本成为特定文件类型例如 foo 的默认应用程序例如当我双击 Finder Explorer 中的文件时我希望该文件在 Python 脚本中打开这可以在 Win 和或 OS X 中实现吗如果重要的话该应
Python：帮助（numpy）在退出时导致段错误

我遇到了一个奇怪的现象在 python 解释器中我执行以下操作 gt gt gt import numpy gt gt gt help numpy 帮助显示正确但一旦我按 q 返回解释器 Segmentation fault core
Scrapy的redirect_urls异常.KeyError

我是 Scrapy 和 Python 的新手最近推出了我的第一个蜘蛛有一个功能似乎以前有效但现在它只适用于我试图废弃的一些网站代码行是 item url direct response request meta redirect u
如何将 fields 参数传递到 Google Drive Python API 调用中

I have results drive service files list body execute where body q query string maxResults 1 为了提高性能我想限制返回的字段如下所述 https
在至少 7 天内连续三天登录该产品的用户

我有一个用于用户参与的数据框 df 如下所示 time stamp user id 2013 01 01 10 05 23 1 2013 01 03 16 35 23 1 2013 01 06 11 06 35 1 2013 01 10 1

随机推荐

从临时服务器连接到 GitoLite 时出错 - ECONNREFUSED 部署错误

我在尝试将以前工作的项目部署到开发服务器时遇到了一些麻烦我没有设置系统但我确实拥有我需要的所有凭据我认为在尝试 cap staging 部署之后我到目前为止然后它产生了一个错误请看下面 triggering load call
sed 用 C++ 注释替换（单行）C 注释

我如何使用 sed 将源文件中的所有 C 风格注释替换为 C 风格所有这些 int main some comments to int main some comments 所有注释都是单行并且代码之间没有像这样的注释 int f in
多层神经网络不会预测负值

我已经实现了一个多层感知器来预测输入向量的正弦这些向量由随机选择的四个 1 0 1 组成偏差设置为 1 网络应该预测向量内容之和的 sin 例如输入输出 Sin 0 1 1 0 1 我遇到的问题是网络永远不会预测负值并且许多向量的
初始化 tkinter 类的父级/主控是什么？

Note 示例代码是一个删节版本但可以运行基本功能请重点关注class MainWindow tk Frame 问题什么样的object可以起到parent or master for tkinter class初始化我的例子看示
OpenGL重叠丑陋的渲染

我正在尝试使用 OpenGL 2 1 渲染场景但重叠形状的边框很奇怪我测试了一些 OpenGL 初始化但没有任何改变我将问题简化为一个简单的测试应用程序其中有 2 个球体但结果相同我尝试了一些关于 Gl DEPTH TEST
警告：未找到提供程序 com.sun.xml.internal.bind.v2.ContextFactory

我在 JSF 应用程序中集成了一些 Web 服务Jersey 一切正常甚至 OAuth 识别也正常但当启动我的网络服务器时我总是收到此错误 INFO Scanning for root resource and provider c
csrf 与 ajax 和 django post

使用jquery v1 7 1和django 1 3 我试图通过ajax发出post请求在我找到的一些教程代码中web http lethain com intro to unintrusive javascript with djang
如何获取javafx中子节点的访问权限？

我有一棵这样的树正如您所看到的 GridPane 有 10 列它们每个都包含包裹在 AnchorPane 中的 BorderPane 每个 BorderPane 由 2 个标签和 1 个单选按钮组成您可以在下面看到它的样子我想问您如
如何从 javascript HTMLCollection 获取元素

我不明白为什么我无法从 HtmlCollection 获取元素此代码示例 var col document getElementsByClassName jcrop holder console log col 在控制台上产生以下输出我
cv::warpPerspective 仅显示扭曲图像的一部分

我使用 getHomography 和 warpPerspective 将图像从前视角更改为中视角它的工作原理是图像扭曲到所需的视角但裁剪被关闭它将扭曲的图像大部分移动到图像框之外我认为原因是因为操作导致负坐标我已经手动计算了用于
Web API 令牌方案的好方法是什么？

我正在为一个 Web 应用程序开发 REST API 到目前为止我们已经在内部为几个配套应用程序开发了该 API 现在我们正在考虑向外部开发人员开放我们希望向 API 添加令牌以帮助识别谁在发出请求并总体上帮助管理其使用此时我
Jinja2 填充和对齐字符串

我想实现类似的目标 https pyformat info string pad align https pyformat info string pad align 在 Jinja2 中在 python 中如果我希望字符串始终具有一定
类型推断失败：没有足够的信息来推断参数请明确指定

我正在尝试用 Kotlin 编写 Vaadin 应用程序对于数据绑定 Vaadin 8 现在提供了类型安全数据绑定的可能性在 Kotlin 中我期望这样的工作 class LoginModel var username String
Formik 验证 isSubmitting / isValidating 未设置为 true

我有一个用户要求的表格我非常明显地表明该表格无效所以我打算弹出一个sweetalert对话框让他们知道他们需要仔细检查表格我想我可以在验证中这样做以便在提交尝试失败时提醒他们 const validate values gt con
VBScript 中的 CRLF

我是 VBScript 新手我正在尝试编写一个函数来识别打印行中是否有 CRLF 你能帮我么谢谢你可以简单地使用result Instr yourString vbCRLF 如果 CRLF 字符序列存在于中它将返回大于 0 的索引y
如何在javascript中为隐藏变量分配空值？

我有一个名为 str 的隐藏输入变量我正在为其分配 abc 值然后我尝试分配空值或者说对它的空引用但我不能 Edit 代码的一部分隐藏领域
为什么哈希的字符串键被冻结？

根据规格 http www ruby doc org core 1 9 3 Hash html method i store 用作哈希键的字符串被复制并冻结其他可变对象似乎没有这样特殊的考虑例如使用数组键可以进行以下操作 a 0 h
开玩笑，在 GitLab 上找不到命令

我想在 GITLAB 上使用 JEST 执行单元测试但它似乎不起作用它可以在我的本地计算机上运行但不能在 GitLab 上运行整个代码为 gitlab ci yml image node 16 cache paths node mo
exec sp_updatestats 的作用是什么？

有什么用sp updatestats 我可以在生产环境中运行它以提高性能吗 sp updatestats更新数据库中所有表的所有统计信息甚至单行已更改它使用默认示例来执行此操作这意味着它不会扫描表中的所有行因此它可能会生成不如替代方
如何从两个制表符分隔的文件中获取枢轴线？

给定两个文件file1 txt abc def t 123 456 jkl mno t 987 654 foo bar t 789 123 bar bar t 432 and file2 txt foo bar t hello world

如何从两个制表符分隔的文件中获取枢轴线？

如何从两个制表符分隔的文件中获取枢轴线？ 的相关文章

随机推荐

热门标签

如何从两个制表符分隔的文件中获取枢轴线？的相关文章