在 Python 中查看 Popen 管道流

2024-03-15

背景：
Linux 上的 Python 2.6.6。 DNA 序列分析流程的第一部分。
我想从已安装的远程存储（LAN）读取可能经过 gzip 压缩的文件，以及它是否经过 gzip 压缩； gunzip 将其压缩到流中（即使用gunzip FILENAME -c），如果流（文件）的第一个字符是“@”，则将该整个流路由到一个在标准输入上获取输入的过滤程序，否则只需将其直接通过管道传输到本地磁盘上的文件。我想最大限度地减少从远程存储读取/查找文件的数量（仅一次通过文件应该不是不可能的？）。

示例输入文件的内容，前四行对应于 FASTQ 格式的一条记录：

@I328_1_FC30MD2AAXX:8:1:1719:1113/1                                        
GTTATTATTATAATTTTTTACCGCATTTATCATTTCTTCTTTATTTTCATATTGATAATAAATATATGCAATTCG
+I328_1_FC30MD2AAXX:8:1:1719:1113/1                                        
hhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhahhhhhhfShhhYhhQhh]hhhhffhU\UhYWc

不应通过管道传输到过滤程序的文件包含如下所示的记录（前两行对应于 FASTA 格式的一条记录）：

>I328_1_FC30MD2AAXX:8:1:1719:1113/1
GTTATTATTATAATTTTTTACCGCATTTATCATTTCTTCTTTATTTTCATATTGATAATAAATATATGCAATTCG

有些人编写了半伪代码来可视化我想要做的事情（我知道按照我编写的方式这是不可能的）。我希望这有一定道理：

if gzipped:
    gunzip = Popen(["gunzip", "-c", "remotestorage/file.gz"], stdout=PIPE)
    if gunzip.stdout.peek(1) == "@": # This isn't possible
        fastq = True
    else:
        fastq = False
if fastq:
    filter = Popen(["filter", "localstorage/outputfile.fastq"], stdin=gunzip.stdout).communicate()
else:
    # Send the gunzipped stream to another file

忽略这样一个事实：代码不会像我在这里编写的那样运行，并且我没有错误处理等，所有这些都已经在我的其他代码中了。我只是想要帮助查看流或找到解决方法。如果你能的话我会很棒gunzip.stdout.peek(1)但我意识到这是不可能的。

到目前为止我尝试过的：
我认为 subprocess.Popen 可能会帮助我实现这一目标，并且我尝试了很多不同的想法，其中包括尝试使用某种 io.BufferedRandom() 对象来写入流，但我不知道如何做到这一点会工作。我知道流是不可搜索的，但也许解决方法可能是读取gunzip流的第一个字符，然后创建一个新流，在其中首先根据文件内容输入“@”或“>”，然后填充其余部分将gunzip.stdout-stream添加到新流中。然后，这个新流将被输入到过滤器的 Popen 标准输入中。

请注意，文件大小可能比可用内存大几倍。我不想从远程存储中执行多次源文件读取，也不想进行不必要的文件访问。

欢迎任何想法！请向我提问，如果我说得不够清楚，我可以澄清。

这是您的实现首先根据文件内容输入“@”或“">”，然后将gunzip.stdout-stream的其余部分填充到新流中提议。我只测试了测试的本地文件分支，但它应该足以演示这个概念。

if gzipped:
    source = Popen(["gunzip", "-c", "remotestorage/file.gz"], stdout=PIPE)
else:
    source = Popen(["cat", "remotestorage/file"], stdout=PIPE)
firstchar = source.stdout.read(1)
# "unread" the char we've just read
source = Popen([r"(printf '\x%02x' && cat)" % ord(firstchar)],
               shell=True, stdin=source.stdout, stdout=PIPE)

# Now feed the output to a filter or to a local file.
flocal = None
try:
    if firstchar == "@":
        filter = Popen(["filter", "localstorage/outputfile.fastq"],
                       stdin=source.stdout)
    else:
        flocal = open('localstorage/outputfile.stream', 'w')
        filter = Popen(["cat"], stdin=source.stdout, stdout=flocal)
    filter.communicate()
finally:
    if flocal is not None:
        flocal.close()

这个想法是从源命令的输出中读取单个字符，然后使用重新创建原始输出(printf '\xhh' && cat)，有效实现peek。替换流指定shell=True to Popen，将其留给 shell 并cat做繁重的工作。数据始终保留在管道中，永远不会完全读入内存。请注意，仅在单次调用时请求 shell 的服务Popen它实现了不读取所查看的字节，而不是涉及用户提供的文件名的调用。即使在这一点上，该字节也会转义为十六进制，以确保 shell 在调用时不会破坏它printf.

可以进一步清理代码以实现名为的实际函数peek返回所查看的内容和替换内容new_source.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

在 Python 中查看 Popen 管道流的相关文章

从 Excel 获取输入并在 python 脚本中使用这些输入

如何从 excel 获取输入并在 python 中使用这些输入看一眼xlrd http pypi python org pypi xlrd 这是我发现的学习如何使用它的最佳参考 http www dev explorer com arti
在 Python 中比较浮点数是否几乎相等的最佳方法是什么？

众所周知由于舍入和精度问题比较浮点数是否相等有点繁琐例如比较浮点数 2012 年版 https randomascii wordpress com 2012 02 25 comparing floating point number
让 Django 提供可下载文件

我希望网站上的用户能够下载路径被遮挡的文件因此无法直接下载它们例如我希望 URL 是这样的 http example com download f somefile txt 在服务器上我知道所有可下载的文件都位于该文件夹中 home
使用 Python 将列名称与 CSV 文件中的数据对齐

这是我用来将数据写入 csv 文件的代码 with open temp csv a as fp a csv writer fp delimiter t data faceXpos faceYpos faceHeight faceWidth
ipython/jupyter 中的 tk 问题

我正在尝试编写一个用于从 ipython jupyter 笔记本启动的 gui 但在笔记本中使用 tkinter 时遇到了麻烦特别是在让 tk gui 窗口正常关闭方面如何从 jupyter 制作启动 tkinter gui 然后在不
seaborn 箱线图的子图

我有一个像这样的数据框 import seaborn as sns import pandas as pd pylab inline df pd DataFrame a one one two two one two one one one
错误：tensorflow：无法匹配检查点的文件

我正在训练一个张量流模型在每个时期之后我都会保存模型状态并腌制一些数组到目前为止我的模型执行了 2 个纪元并且保存状态的文件夹包含以下文件 checkpoint model e knihy preprocessed txt e0 c
无法使用 wxPython 打开在 folium 中生成的本地 HTML 文件

我目前正在尝试将 GPS 坐标绘制为地图上的标记并在 wxPython 中显示结果我使用 folium 绘制坐标标记并生成 HTML 文件 import folium fmap folium Map 43 5321 172 6362 z
如何在solidpython中设置特殊变量$fa、$fs、$fn

in 上一个线程 https stackoverflow com questions 54040390 how to save data in stl file after python solid processing显示了如何通过 So
Python 中的 Firebase 身份验证时出现 KeyError：“databaseURL”

相信你做得很好我是 firebase 的新手正在尝试进行用户身份验证我已经安装了pyrebase4并在firebase控制台上创建了一个项目我还启用了使用电子邮件和密码登录并尝试连接我的应用程序下面是我正在尝试的代码 impo
如何在 FastAPI Swagger API 中按方法类型对方法进行排序？

如何在 FastAPI Swagger 自动文档中设置 API 方法的排序顺序我希望所有方法按类型分组 GET POST PUT DELETE 这个答案 https stackoverflow com questions 24951268
Python：两个列表之间的成对比较：列表 a >= 列表 b？

如果我想检查列表中的所有元素 a 1 2 3 6 大于或等于另一个列表中对应的元素 b 0 2 3 5 如果 a i gt b i 对于所有i的则返回 true 否则返回 false 这有逻辑功能吗比如a gt b 谢谢你可以这样做
AppEngine 警告 - OpenBLAS 警告 - 无法确定该系统上的 L2 缓存大小

我尝试在 GC AppEngine 上部署应用程序部署过程中没有错误但应用程序无法运行仅显示加载页面日志中唯一一个奇怪的原始日志 OpenBLAS WARNING could not determine the L2 cache s
获取列的 [0, x] 元素的最小值

我需要计算一列其中值是对其他列进行矢量化运算的结果 df new col df col1 min 0 df col2 然而事实证明我不能像上面的语法一样使用 min 那么获得 pandas 列的零和给定值之间的最小值的正确方法是什么
Tensorflow `tf.layers.batch_normalization` 不会向 `tf.GraphKeys.UPDATE_OPS` 添加更新操作

以下代码复制粘贴可运行说明了如何使用tf layers batch normalization import tensorflow as tf bn tf layers batch normalization tf constant
如何单独捕获这些异常？

我正在编写一个与 Quickbooks 交互的 Python 程序连接到 Quickbooks 时根据问题的不同我可能会遇到以下两个常见异常之一 pywintypes com error 2147352567 Exception oc
使用 Python 获取 Youtube 数据

我正在尝试学习如何分析网络上可用的社交媒体数据我从 Youtube 开始 from apiclient errors import HttpError from outh2client tools import argparser fro
如何从 PyObject 获取指向字符串的 char*

我怎样才能得到一个char from a PyObject它指向一个字符串例如这是 python 脚本 Test Connect 272 22 20 65 1234 这是 C 代码 static PyObject Connect PyO
内置模块位于哪里？

我尝试查找列出的所有目录sys path但我找不到任何builtins py文件那么它在哪里呢从字面上看该模块内置于 python 解释器中 gt gt gt import builtins gt gt gt builtins
我可以以某种方式“编译”一个Python脚本以在没有安装Python的PC上运行吗？

所以我有一个Python脚本 myscript py 我是这样执行的 python D myscript py 但是我必须安装 Python 并将其包含在PATH使其工作的环境变量是否有可能以某种方式将 Python 可执行文件与 Py

随机推荐

C# 中的冗余？

采取以下片段 List
com.mysql.jdbc.exceptions.MySQLNonTransientConnectionException：当 autocommit=true 时无法调用回滚

我在我的应用程序中使用 Jboss 5 0 和 mysql 并且会有很多并发操作并且数据库包含相当多的记录这个错误经常出现时不时地 com mysql jdbc exceptions MySQLNonTransientConnecti
如何在 NodeJs 中运行 SOAP 请求？

起初这听起来像是一个重复的问题但我已经浏览了我找到的所有博客教程视频但没有一个真正说明了如何运行该请求示例对于 RESTful 请求您在 NodeJs 中编码点击路由 https localhost 3000 api get
如何使用 junit 测试 if 语句？

我似乎无法在网上找到任何解决此问题的教程我有这个if陈述 if basket getCustomerId null Basket exBasket findBasketByCustomerId basket getCustomerId i
如何使用点击手势显示/隐藏 pageViewController 上的状态栏（iOS8 / Swift）

浏览所有类似问题的解决方案我一直试图得到statusBar通过点击手势显示隐藏我已经设定View controller based status bar appearance NO在 plist 中我在我的中尝试了以下代码DataV
HTML / CSS：遇到有关网站宽度/高度的问题

我正在建立一个网站为人们访问的区域做广告作为我自己的一项任务我花了一些时间尝试将迄今为止所做的所有工作都放在一页上我希望没有滚动条我不想让滚动条不可见等等我的意思是让网页适合浏览器的一页而用户无需出于美观目的而滚动我尝试过调
如何在Windows服务中检测从睡眠模式唤醒？

再会我编写了一个 Windows 服务它检测 USB 闪存驱动器连接并对连接的驱动器执行某些操作现在经过测试我需要在从睡眠模式唤醒后重新处理设备当服务作为 Windows 程序工作时我解决了这个问题为了解决我另外处理DBT D
从 Haskell 代码生成 LLVM IR

我的目标是获取不同语言主要是 C C Obj C 和 Haskell 的源代码并提供有关它们的各种统计信息例如变量函数内存分配复杂性等的数量 LLVM 似乎是一个完美的工具因为我可以为这些语言生成位码并且通过 LLVM 的可
.NET 中的别名

是否可以为现有类型创建别名并在整个项目中使用该别名例如创建 CustomerID System UInt32 并使用 CustomerID 作为数据类型版本 NET Framework 4 0 使用 using 关键字我们可以创建别
Jibx - 如何使用值和属性解组/编组标签？
Windows 应用商店应用程序和 F#

我正在尝试使用 F 创建一个可移植库以与 Windows 应用商店应用程序一起使用我用一个类创建了一个 fs 文件 module FunctionalRT open System Net open System IO type WebHe
Xcode 10 - 界面生成器文档

我无法将现有故事板的 Interface Builder Document 版本更改为 Xcode 10 0 选择 Xcode 10 0 出现提示时保存并关闭并重新打开我的故事板后它总是恢复到 Xcode 9 0 即使创建新的故事板它也
在 MongoDb 中，如何对文档中存在的内部字段进行排序？

我的文档看起来像这样 field1 somevalue name xtz nested documents array of nested document x 1 y 2 first nested document x 2 y 3 sec
在R中使用正则表达式捕获字符串的一部分

我有这些字符串 myseq lt c ALM GSK LN 06 ID AS04 LV 06 ID png AS04 SP 06 IP png 我想做的是捕获序列的一部分 ALM GSK LN ID AS04 LV ID AS04 SP I
ASP.NET + 访问路径被拒绝

我有一个 ASP NET 应用程序它尝试在运行时在 Web 服务器上写入文件在我的开发环境中这是有效的但是当我将其部署到生产服务器并执行代码时我收到一条错误消息 Access to the path C Inetpub wwwr
活动更改之前的动画

我试图做一些简单的事情但我不明白为什么它不起作用我想做的是当我触摸 ImageView 时它会在上面显示动画然后只有当该动画结束时它才会开始新的活动相反发生的情况是新活动立即开始并且不显示动画这是动画 xml
java swing中N个jtable的同步滚动

我需要将 N 个表并排排列在网格窗格中前提是所有 jtable 的滚动窗格高度保持相同现在我想同步所有 jtable 的滚动这意味着如果我滚动第一个 jtable 那么其余的 jtable 应该自动滚动相同的量有人对此有任何想法吗
Net::HTTP 对 HTTPS 请求的响应极其缓慢

由于某种原因在我的开发机器上通过 Net HTTP 执行的 HTTPS 请求的响应非常非常慢我尝试过 RestClient 和 HTTParty 它们都有同样的问题它似乎不知从何而来我已经提出了数百次这些请求没有任何问题但今天
Sql连接查询

我有三张桌子 tblLink LinkId LinkName GroupId SubGroupId GroupId 和 SubGroupId 是 tblGroup 和 tblSubGroup 中的外键tblGroup 组ID 组名称 tbl
在 Python 中查看 Popen 管道流

背景 Linux 上的 Python 2 6 6 DNA 序列分析流程的第一部分我想从已安装的远程存储 LAN 读取可能经过 gzip 压缩的文件以及它是否经过 gzip 压缩 gunzip 将其压缩到流中即使用gunzip FILE

在 Python 中查看 Popen 管道流

在 Python 中查看 Popen 管道流 的相关文章

随机推荐

热门标签

在 Python 中查看 Popen 管道流的相关文章