Python-删除uuencoding行

2023-12-19

我正在处理许多文本文件，其中（其中一些）包含 uuencoding，可以是 .jpg 或 .pdf 或 .zip of .xlsx 等。我不关心嵌入的 UUencoded 数据，所以我只想丢弃这些段落并保留其余文本。我正在努力思考如何想出一种只跳过足够多但又不过多的方法。

总结一下http://en.wikipedia.org/wiki/Uuencoding http://en.wikipedia.org/wiki/Uuencoding每个斑点都以

begin 644 filename.extension

begin 644 之后的每一行似乎都以字母开头

所以这也可能有帮助。知道如何拥有一个删除文件夹（目录）中所有 .txt 文件的所有这些行的函数吗？

例如下面是.jpg uuencoding

GRAPHIC
18
g438975g32h99a01.jpg

begin 644 g438975g32h99a01.jpg
M_]C_X``02D9)1@`!`@$`8`!@``#_[0G64&AO;=&]S:&]P(#,N,``X0DE-`^T`
M`````!``8`````$``0!@`````0`!.$))300-```````$````'CA"24T$&0``
M````!````!XX0DE-`_,```````D```````````$`.$))300*```````!```X
M0DE-)Q````````H``0`````````".$))30/U``````!(`"]F9@`!`&QF9;@`&
M```````!`"]F9@`!`*&9F@`&```````!`#(````!`%H````&```````!`#4`
M```!`"T````&```````!.$))30/X``````!P``#_____________________
M________`^@`````_____________________________P/H`````/______
M______________________\#Z`````#_____________________________
M`^@``#A"24T$"```````$`````$```)````"0``````X0DE-!!X```````0`
M````.$))300:``````!M````!@``````````````)P```+`````&`&<`,P`R
M`&@`.0`Y`````0`````````````````````````!``````````````"P````
M)P`````````````````````````````````````````````X0DE-!!$`````
M``$!`#A"24T$%```````!`````(X0DE-!`P`````!SH````!````<````!D`
M``%0```@T```!QX`&``!_]C_X``02D9)1@`!`@$`2`!(``#_[@`.061O8F4`
M9(`````!_]L`A``,"`@("0@,"0D,$0L*"Q$5#PP,#Q48$Q,5$Q,8$0P,#`P,
M#!$,#`P,#`P,#`P,#`P,#`P,#`P,#`P,#`P,#`P,`0T+"PT.#1`.#A`4#@X.
M%!0.#@X.%!$,#`P,#!$1#`P,#`P,$0P,#`P,#`P,#`P,#`P,#`P,#`P,#`P,
M#`P,#`S_P``1"``9`'`#`2(``A$!`Q$!_]T`!``'_\0!/P```04!`0$!`0$`
M`````````P`!`@0%!@<("0H+`0`!!0$!`0$!`0`````````!``(#!`4&!P@)
M"@L0``$$`0,"!`(%!P8(!0,,,P$``A$#!"$2,05!46$3(G&!,@84D:&Q0B;,D
M%5+!8C,T<H+10P)E\K.$P]-U
MX_-&)Y2DA;25Q-3D]*6UQ=7E]59F=H:6IK;&UN;V-T=79W>'EZ>WQ]?G]Q$`
M`@(!`@0$`P0%!@<'!@4U`0`"$0,A,1($05%A<2(3!3*!D12AL4(CP5+1\#,D
M8N%R@I)#4Q5C<S3Q)086HK*#!R8UPM)$DU2C%V1%539T9>+RLX3#TW7C\T:4
MI(6TE<34Y/2EM<75Y?569G:&EJ;:VQM;F]B

我想只剩下

GRAPHIC
18
g438975g32h99a01.jpg

有关背景，另请参阅我之前的问题如何从txt文件中删除奇怪的编码 https://stackoverflow.com/questions/28604776/how-to-remove-weird-encoding-from-txt-file

编辑：这是一个尝试

start_marker = '开始 644'

with open('fileWithBegin644.txt') as inf:
    ignoreLines = False
    for line in inf:
        if start_marker in line:
            print line,
            ignoreLines = True         
        if not ignoreLines:
    with open("strip_" + inf, "w") as f: 
        f.write(line.get_text().encode('utf-8'))

但我收到以下错误

  File "removeUuencodingFromAll.py", line 10
    with open("strip_" + inf, "w") as f: 
    ^
IndentationError: expected an indented block

我编写了一个本来应该是相当简单的生成器的代码。因为规范有点乏味（为什么在不同的行上有两个单独的结束标记？），所以它相当庞大，但就这样吧。它应该同时作为 uuencode 的验证器，但我只在非常有限的设置中测试了它。

import re

def unuuencode (iterator, collector=None, ignore_length_errors=False):
    """
    Yield lines from iterator except when they are in an uuencode blob.

    If collector is not None, append to it the uuencoded blobs as a list
    of a list of lines, one for each uuencoded blob.
    """
    state = None  # one of { None, 'in_blob', 'closing', 'closed' }
    collectitem = None
    regex = re.compile(r'^begin\s+[0-7]{3,6}\s+.*?(?:\r?\n)?$')

    for line in iterator:
        if state == None:
            if regex.match(line):
                if collector != None:
                    collectitem = [line]
                state = 'in_blob'
                continue
            else:
                yield line

        else:
            stripped = line.rstrip('\r\n')

            if state == 'in_blob' and line.startswith('`'):
                state = 'closing'

            if state == 'closing':
                if stripped != '`':
                    raise ValueError('Expected "`" but got "%s"' % line)
                state = 'closed'
            elif state == 'closed':
                if stripped != 'end':
                    raise ValueError('Expected "end" but got "%s"' % line)
                state = None
            else:
                expect = ord(line[0:1])-32
                actual = len(stripped)
                seen = (len(stripped)-1)*6/8
                if seen != expect:
                    if not ignore_length_errors:
                        raise ValueError('Wrong prefix on line: %s '
                            '(indicated %i, 6/8 %i, actual length %i)' % (
                                line, expect, seen, actual))
                if line[0:1] != 'M':
                    state = 'closing'

            if collectitem:
                collectitem.append(line)

            if state is None:
                if collectitem:
                    collector.append(collectitem)
                    collectitem = None

            continue

像这样使用它：

with open(file, 'r') as f:
    lines = [x for x in unuuencode(f)]

或者像这样：

with open(file, 'r') as f:
    blobs = []
    lines = [x for x in unuuencode(f, collector=blobs)]

或者像这样：

with open(file, 'r') as f:
    lines = f.read().split('\n')
# ... or whichever way you obtained your content as an array of lines
lines = [x for x in unuuencode(lines)]

或者在这种情况下您似乎正在使用的代码 https://stackoverflow.com/a/28608292/874188:

for fi in sys.argv[1:]:
    with open(fi) as markup:
        soup = BeautifulSoup(''.join(unuuencode(markup, ignore_length_errors=True)))
    with open("strip_" + fi, "w") as f:
        f.write(soup.get_text().encode('utf-8'))

The sample http://www.sec.gov/Archives/edgar/data/789019/000119312514289961/0001193125-14-289961.txt您链接到的第二个 uuencoded blob 中的长度指示符无效，因此我添加了一个选项来忽略它。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

uuencode

Python-删除uuencoding行的相关文章

pywinauto 32位用户警告

我正在尝试使用 pywinauto 在每次更新类文件时自动启动和停止 TomCat 但是当我尝试运行它时它会给出以下警告 UserWarning 32 bit application should be automated using
tensorflow Protobuf编译问题

我想为 google 对象检测 API 编译 protobuf 库我按照官方教程输入protoc object detection protos proto python out 然后我得到的是 object detection prot
Pandas 字符串提取所有匹配项

我正在学习 pandas 系列字符串方法中的正则表达式操作我能够从字符串中提取第一个数字但我的正则表达式与第二个数字不匹配如何捕获这两个数字注意第二行第二个元素在这里是 NAN CODE import pandas as pd d
使用 Python 在 Google Cloud Storage 存储桶中创建/上传新文件

如何使用 Python 和可用的客户端库在 Google Cloud Storage 中创建新的空文件或者如何使用 blob 函数 upload from filename 将新文件上传到选定的存储桶要初始化 blob 对象我们应该在
Python grpc protobuf 存根生成问题：--grpc_out: protoc-gen-grpc: 插件失败，状态代码 1

正如问题所说我从源代码编译了 grpc 并且也做了sudo pip install grpcio 但是那which grpc python plugin不返回任何内容这是一个问题因为route guide的grpc python示例
我应该为 MySQL 使用什么 python 3 库？ [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案据我所知 MySQLdb 仍然没有移植到 Python 3 pypy 上似乎有另一个名为 PyMySQL
Django 未在 404 页面上应用应用程序中的 CSS 文件

姜戈3 0 8 Python 3 7 x 我有一个包含一些应用程序的 Django 项目我正在尝试为 400 403 404 500 错误制作一些默认错误页面我已经这样做了并显示了适当的模板但没有任何样式或 JS 在 404 错
Seaborn 热图中的自定义调色板间隔

我正在尝试绘制一个heatmap https seaborn pydata org generated seaborn heatmap html使用seaborn库绘图函数如下所示 def plot confusion matrix da
了解 asyncio 已经运行的永久循环和挂起的任务

我在理解如何将新任务挂起到已经运行的事件循环中时遇到问题这段代码 import asyncio import logging asyncio coroutine def blocking cmd while True logging in
如何为 C 分配的 numpy 数组注册析构函数？

我想在 C C 中为 numpy 数组分配数字并将它们作为 numpy 数组传递给 python 我可以做的PyArray SimpleNewFromData http docs scipy org doc numpy reference
python-polars 通过分隔符将字符串列拆分为许多列

在 pandas 中以下代码会将 col1 中的字符串拆分为许多列有没有办法在极地做到这一点 d col1 a b c d a b c d df pd DataFrame data d df a b c d df col1 str sp
如何在 Pytorch 中将一维 IntTensor 转换为 int

如何将一维 IntTensor 转换为整数这 IntTensor int 给出错误 KeyError Variable containing 423 torch IntTensor of size 1 我所知道的最简单最干净的方法 In
PyCharm - 如何挂起所有线程

我们使用 PyCharm 5 0 1 进行多线程调试当它在断点处停止时只有特定线程停止而所有其他线程继续这使得冻结时刻和检查参数值以及其他线程的当前状态变得困难当其中一个线程在断点处停止时是否可以挂起所有线程这在最新的 P
如何在 Sublime 2 REPL Mac 中运行 Python 3

我的问题如下我安装了 sublime 2 和 sublime repl 插件一切正常我唯一需要的是更改在控制台内置的 sublimerepl 上运行的 python 版本我的意思是我有 python 2 7 5 预先安装了 mav
使用 statsmodels.formula.api 中的 ols - 如何删除常数项？

我正在遵循第一个例子statsmodels教程 http statsmodels sourceforge net devel http statsmodels sourceforge net devel 如何指定在 ols 中不使用常数项进
如何使用 pygame.mixer 重复音乐？

我创建了以下使用 pygame mixer 播放 mp3 音乐的代码然而音乐不会重复有什么想法可以让音乐重复播放吗这是代码 playlist list playlist append put music here mp3 playl
如何将 fields 参数传递到 Google Drive Python API 调用中

I have results drive service files list body execute where body q query string maxResults 1 为了提高性能我想限制返回的字段如下所述 https
Scrapy 抓取并跟踪 href 中的链接

我对 scrapy 很陌生我需要从 url 的主页跟踪 href 到多个深度再次在 href 链接内我有多个 href 我需要遵循这些href 直到到达我想要抓取的页面我的页面的示例 html 是初始页 div class page
Pip 突然使用了错误版本的 Python

在 os x 上使用 pip 时遇到一个奇怪的问题据我所知快速查看我的 bash history 似乎可以确认我最近没有对我的配置进行任何更改唉 pip 命令似乎突然使用了与以前不同的 python 版本到目前为止我使用命令 p
Flask 扩展未在 app.extensions 中注册

我想访问在我的 Flask 应用程序上注册的一些扩展我尝试使用app extensions 但我初始化的一些扩展不在字典中 from flask import current app current app extensions get

随机推荐

找到Python解释器的完整路径？

如何从当前执行的 Python 脚本中找到当前运行的 Python 解释器的完整路径 sys executable包含当前运行的Python解释器的完整路径 import sys print sys executable 现在是记录在这里
将 PHP 实体（如 – 或 š）转换为其适用的字符

有没有办法将 HTML 实体转换为其适用的字符类似的东西html entity decode 我正在尝试从 TinyMCE 输出中制作没有 HTML 实体的普通文本根据用户贡献的笔记 http de php net manual en
IE11 中的 http 伪流

我有一些视频我需要能够找到其中的各个点而无需在该点之前下载整个视频到目前为止我使用带有 NodeJS 的 html5 视频标签和 vid streamer 模块在 Firefox 和 Chrome 中运行得很好然而 IE 11
选择数组结束项的最有效方法？

我正在寻找最有效的方法即按下较小的键来索引数组的最后一个元素然后像 a lt c 1 2 3 n lt length a b lt a n 不应该使用我想只使用一个命令在上面的例子中我可以使用 b lt a length a 但我
Android 清除/完成之前的活动（除了一项）

在android中我有以下路径活动 1 gt 活动 2 gt 活动 3 gt 活动 N gt 按下按钮当按下按钮时我想清除完成从活动 2 到 N 的所有活动然后转到活动 X 换句话说我想完成所有活动直至最初的一个然后移至另一
在 R 中识别传单中栅格上的点击位置

我正在绘制一个大型经纬度 NetCDFraster超过一个Rleaflet地图使用shinydashboard 当我单击地图时会出现一个弹出窗口显示行列经纬度位置和单击的栅格点的值参见下面的可重现代码问题是如果栅格足够大我会
进度条无法使用带有 Angular cli 的 Service Worker

我们正在开发 Angular 4 应用程序并使用 cli 启用服务工作人员一切都很好除了文件上传进度条停留在 0 只有完成后才会达到 100 我们怀疑这是由于 Service Worker 造成的因为我们在开发环境中没有看到它奇怪
如何使用gcloud命令行部署多个功能？

我想部署多个云功能这是我的index js const batchMultipleMessage require gcf 1 const batchMultipleMessage2 require gcf 2 module exports
我可以请求 SQL Server 缓存某个结果集吗？

某个查询正在从 ASP NET 页面调用我在 Management Studio 中研究了该查询的执行计划 87 用于排序我非常需要排序否则显示的数据将毫无意义无论如何我是否可以请求 SQL Server 缓存排序的结果集以便它
是否可以在不知道c中数组长度的情况下使用gets？

如果我们想在 c 中使用 gets 我们会这样做 int main void char str 100 while gets str printf s n str 我们必须先知道str的长度即100 然后使用gets 是否可以在不知道c中
@Pattern 用于字母数字字符串 - Bean 验证

我在 bean 中有一个变量名我想添加 Pattern验证仅接受字母数字目前我有这个 NotNull Pattern regexp A Za z0 9 String name 但错误是Invalid regular expressio
将 NSNumber 转换为 Float 时出现意外行为

升级到 Xcode 9 3 9E145 后我的应用程序显示了一些意外的行为问题似乎在于将 NSNumber 转换为 Float 我用as为此类型转换运算符请参阅以下示例 let n NSNumber init value 1 12 l
Web 操作系统实用吗？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案我是一名全职 Web 开发人员但我的根源是桌面程序员现在似乎有很多关于 Web 操作系统的讨论将 Web 应用程序合并到 Web 操作系统
django.core.exceptions.ImproperlyConfigured：设置 SECRET_KEY 环境变量

这个项目工作正常直到我使用 environ 将 SECRET KEY 和 DEBUG 作为环境变量当我收到此错误后输出是 env E ecommercedj gt python manage py runserver Tracebac
如何在（简单）有向图中强制形成直边？

我有以下简单的有向图 digraph clientproxyserver Client gt Proxy label Request from Client Proxy gt Server label Forwarded Request S
悬停时切换 CSS 颜色

我正在尝试向这样的类添加突出显示颜色 common box hover function common box addClass hover me 这可行但为什么不行 common box hover function common bo
管道在kedro中找不到节点

我正在关注管道教程 https kedro readthedocs io en latest 03 tutorial 04 create pipelines html 创建所有需要的文件启动 kedrokedro run node pre
捕获并打印完整的 Python 异常回溯，无需停止/退出程序

我想捕获并记录异常而不退出例如 try do stuff except Exception as err print Exception err I want to print the entire traceback here not
生成一定范围内的“n”个唯一随机数[重复]

这个问题在这里已经有答案了我知道如何在 Python 中生成一定范围内的随机数 random randint numLow numHigh 我知道我可以将其放入循环中以生成 n 个数字 for x in range 0 n listOfN
Python-删除uuencoding行

我正在处理许多文本文件其中其中一些包含 uuencoding 可以是 jpg 或 pdf 或 zip of xlsx 等我不关心嵌入的 UUencoded 数据所以我只想丢弃这些段落并保留其余文本我正在努力思考如何想出一种只跳过

Python-删除uuencoding行

Python-删除uuencoding行 的相关文章

随机推荐

热门标签

Python-删除uuencoding行的相关文章