Python 拼凑将 UCS-2 (UTF-16?) 读取为 ASCII

2024-02-03

我对这个问题有点不知所措，所以请提前原谅我的术语。

我在 Windows XP 上使用 Python 2.7 运行它。

我发现一些 Python 代码可以读取日志文件，执行一些操作，然后显示一些内容。

什么，这还不够详细吗？好的，这是一个简化版本：

#!/usr/bin/python

import re
import sys

class NotSupportedTOCError(Exception):
    pass

def filter_toc_entries(lines):
    while True:
        line = lines.next()
        if re.match(r""" \s* 
                   .+\s+ \| (?#track)
                \s+.+\s+ \| (?#start)
                \s+.+\s+ \| (?#length)
                \s+.+\s+ \| (?#start sec)
                \s+.+\s*$   (?#end sec)
                """, line, re.X):
            lines.next()
            break

    while True:
        line = lines.next()
        m = re.match(r"""
            ^\s*
            (?P<num>\d+)
            \s*\|\s*
            (?P<start_time>[0-9:.]+)
            \s*\|\s*
            (?P<length_time>[0-9:.]+)
            \s*\|\s*
            (?P<start_sector>\d+)
            \s*\|\s*
            (?P<end_sector>\d+)
            \s*$
            """, line, re.X)
        if not m:
            break
        yield m.groupdict()

def calculate_mb_toc_numbers(eac_entries):
    eac = list(eac_entries)
    num_tracks = len(eac)

    tracknums = [int(e['num']) for e in eac]
    if range(1,num_tracks+1) != tracknums:
        raise NotSupportedTOCError("Non-standard track number sequence: %s", tracknums)

    leadout_offset = int(eac[-1]['end_sector']) + 150 + 1
    offsets = [(int(x['start_sector']) + 150) for x in eac]
    return [1, num_tracks, leadout_offset] + offsets

f = open(sys.argv[1])

mb_toc_urlpart = "%20".join(str(x) for x in calculate_mb_toc_numbers(filter_toc_entries(f)))

print mb_toc_urlpart

只要日志文件是“简单”文本，代码就可以正常工作（我很想说 ASCII，尽管这可能不精确/准确 - 例如 Notepad++ 表明它是 ANSI）。

但是，该脚本不适用于某些日志文件（在这些情况下，Notepad++ 会显示“UCS-2 Little Endian”）。

我收到以下错误：

Traceback (most recent call last):
  File "simple.py", line 55, in <module>
    mb_toc_urlpart = "%20".join(str(x) for x in calculate_mb_toc_numbers(filter_
toc_entries(f)))
  File "simple.py", line 49, in calculate_mb_toc_numbers
    leadout_offset = int(eac[-1]['end_sector']) + 150 + 1
IndexError: list index out of range

这个日志works http://dl.dropbox.com/u/20950646/works.log

这个日志breaks http://dl.dropbox.com/u/20950646/breaks.log

我相信是编码破坏了脚本，因为如果我只是在命令提示符下执行此操作：

type ascii.log > scrubbed.log

然后在 scrapbed.log 上运行脚本，脚本工作正常（这实际上对我的目的来说很好，因为没有丢失重要信息，并且我没有写回文件，只是打印到控制台）。

一种解决方法是在将日志文件传递给 Python 之前对其进行“清理”（例如，使用上面的类型管道技巧到一个临时文件，然后在其上运行脚本），但我想让 Python “忽略”编码如果它是可能的。我也不确定如何检测脚本正在读取的日志文件类型，以便我可以采取适当的行动。

我正在阅读this http://docs.python.org/howto/unicode and this http://www.joelonsoftware.com/articles/Unicode.html但我的眼睛仍然在他们的脑海中旋转，所以虽然这可能是我的长期策略，但我想知道是否有我可以使用的临时黑客。

codecs.open() http://docs.python.org/library/codecs.html#codecs.open将允许您使用特定编码打开文件，并且它将产生unicodes。您可以尝试一些，从最有可能到最不可能（或者该工具总是可以生成 UTF-16LE，但哈哈机会很大）。

Also, “Python 中的 Unicode，完全揭秘” http://farmdev.com/talks/unicode/.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

encoding

Python 拼凑将 UCS-2 (UTF-16?) 读取为 ASCII 的相关文章

Pandas ParserError：标记数据时出错。 C 错误：字符串内有 EOF

我的数据超过 400 000 行运行此代码时 f pd read csv filename error bad lines False 我收到以下错误 pandas errors ParserError Error tokenizing
如何测试该变量不等于多个事物？

这是我的一段代码 choice while choice 1 and choice 2 and choice 3 choice raw input pick 1 2 or 3 if choice 1 print 1 it is elif c
MacOS Big Sur 中的 NPM 错误“找不到 Python 可执行文件”

我已经花了整整一周的时间寻找这个问题的答案但没有成功我查看了每个 StackOverflow 帖子 Google 的每一篇文章以及我能找到的每个相关的 Github 问题大多数相关错误似乎都比较旧所以我想知道我的问题是否由于我使用的
如何使用 Pycharm 运行 fast-api 服务器？

我有一个简单的 API 函数如下所示 from fastapi import FastAPI app FastAPI app get async def read root return Hello World 我正在使用启动服务器uvi
如何进行重定向并保留查询字符串？

我想进行重定向并保留查询字符串就像是self redirect加上发送的查询参数那可能吗 newurl my new route urllib urlencode self request params self redirect ne
在 ubuntu 中卸载 python 模块

我必须删除一个名为 django 的 python 模块一种流行的模块因为我安装了错误的版本 1 3 py 2 6 中的 beta 如何卸载这个模块请解释一下因为我只在 Windows 中使用过 python 而从未在 Ubuntu
python win32com.client 调整窗口大小

我正在使用 Python 3 4 1 通过 win32com client 控制 Windows 应用程序我可以激活它我可以发送击键点击等现在我想知道是否有办法调整窗口大小并将其设置到特定位置我找不到方法这里有一些代码片段所以
如何使用 Python 在表单中选择选项？

我想知道如何以格式如下的形式选择选项 td align left td
Flask 和 Reactjs 抛出 JSX 转换错误

我已经开始将 ReactJS 与 Python Flask 后端结合使用通过 Flask 渲染模板时我在 Chrome 控制台中收到以下客户端错误错误找不到模块 jstransform visitors es6 templates
Plotly：如何设置文本格式（下划线、粗体、斜体）

使用注释时我尝试在绘图中为文本添加下划线我使用添加注释 import plotly graph objects as go g go FigureWidget make subplots rows 1 cols 1 g update l
python 硒按名称查找元素

查找电子邮件输入的正确代码是什么https accounts google com ServiceLogin html 是
类型错误：无法连接“str”和“int”对象有人可以帮助新手使用他们的代码吗？

感谢任何帮助还有任何重大缺陷或您在格式或基本方面看到的任何重大缺陷请指出谢谢 day raw input How many days locations raw input Where to days str day location
在 Keras 中使用有状态 LSTM 训练多变量多级数回归问题

我有时间序列P过程每个过程的长度各不相同但都有 5 个变量维度我试图预测测试过程的估计寿命我正在用有状态的方法来解决这个问题LSTM在喀拉斯但我不确定我的训练过程是否正确我将每个序列分成长度的批次30 所以每个序列都是这样的形
哈希 freezeset 与排序元组

在 Python 中给定一组可比较的可散列的元素s 散列是否更好frozenset s or tuple sorted s 这取决于你在做什么创建一个更快frozenset 比排序tuple but frozenset占用的内存比tu
Python：如何“杀死”类实例/对象？

我希望 Roach 类在达到一定量的饥饿时死亡但我不知道如何删除该实例我的术语可能有误但我的意思是窗户上有大量蟑螂我希望特定的蟑螂完全消失我会向您展示代码但它很长我将蟑螂类添加到策划者类蟑螂种群列表中一般来说每个
如何读取多个文件并将它们合并到一个 pandas 数据框中？

我想读取位于同一目录中的多个文件然后将它们合并到一个 pandas 数据框中如果我这样做的话它会起作用 import pandas as pd df1 pd read csv data 12015 csv df2 pd read csv
根据标签位置计算 Pandas DataFrame 的索引

我正在尝试计算标签的索引Pandas https pandas pydata org DataFrame在每一列中基本上我有以下内容DataFrame d col1 label1 label2 label3 col2 label2 lab
python 中“重载”函数的最佳方法？ [复制]

这个问题在这里已经有答案了我正在尝试在 python 中做这样的事情 def foo x y do something at position x y def foo pos foo pos x pos y 所以我想根据我提供的参数数量调
如何将另一整列作为参数传递给 pandas fillna()

我想用另一列中的值填充一列中的缺失值使用fillna方法我读到循环遍历每一行将是非常糟糕的做法最好一次完成所有事情但我不知道如何使用fillna 之前的数据 Day Cat1 Cat2 1 cat mouse 2 dog eleph
基于 Web 请求在 Airflow 上运行作业

我想知道是否可以在通过 HTTP 收到请求时执行气流任务我对 Airflow 的调度部分不感兴趣我只是想用它来代替芹菜因此示例操作如下所示用户提交一份表格请求某些报告后端接收请求并向用户发送请求已收到的通知然后后端使用 Ai

随机推荐

aufs au_opts_parse:1155:docker[2010] 未知选项 dirperm1

我安装了 Docker 现在当我的 Ubuntu 14 04 Trusty 系统尝试启动时我收到以下消息 aufs au opts parse 1155 docker 2010 unknown option dirperm1 这意味着什
为什么 webpack 需要一个空扩展名

我试图弄清楚为什么 webpack 需要这个空扩展名 Inside resolve extensions总是有这样的配置 extensions js jsx 为什么不能只是这样 extensions js jsx 在较新的 Webpack
如何下载 TFS 搁置集

我需要将 TFS 中的搁置集下载到本地文件夹 Visual studio 2010 有没有下载工具集的工具或插件如果你只需要将文件从搁置集中获取到本地文件夹这是一个正常的过程称为Unshelve http msdn microsoft
即使 IP 更改或浏览器数据已清除，我如何识别网站上的唯一用户？

我正在开发一个视频流网站我想计算每个视频的独特观看次数我参考了互联网上的一些网站甚至询问了其他一些程序员他们说要么使用 cookie 要么使用会话要么使用 IP 地址但这些事情会随着时间的推移而改变另外如果可能的话我们可以
如何处理 AWS Athena 中的嵌入换行符

我在 AWS Athena 中创建了一个表如下所示 CREATE EXTERNAL TABLE IF NOT EXISTS default test line breaks col1 string col2 string ROW FORM
是否可以训练斯坦福 NER 系统来识别更多命名实体类型？

我现在正在使用一些 NLP 库 stanford 和 nltk 斯坦福大学我看到了演示部分但只是想问是否可以使用它来识别更多实体类型因此目前斯坦福的 NER 系统如演示所示可以将实体识别为人名称组织或位置但认可的组织仅限于大
从给定节点开始有向图的 BFS 遍历

我的基本理解广度优先搜索图的遍历是 BFS Start from any node Add it to queue Add it to visited array While queue is not empty Remove head f
添加用于将 Word 注释中的标题提取到 Excel 中的代码

我有一些代码用于将 Word 中的注释提取到 Excel 中但是它只提取一级标题直接标题我可以添加哪些代码来提取 Excel 中不同列中的不同标题级别我可以按样式选择这些不同的标题级别吗如果我使用 MyOwnHeading 样式
Maven：在 pom.xml 中配置并行构建

Maven 具有执行并行构建的能力 https cwiki apache org confluence display MAVEN Parallel builds in Maven 3 https cwiki apache org conf
jQuery 支持“:invalid”选择器

我收到以下控制台消息 16 04 01 292 Error Syntax error unrecognized expression unsupported pseudo invalid http localhost 8080 assets
JHipster：将根域重定向到 www

我正在从事搜索引擎优化工作我想https pomzen com https pomzen com被重定向到https www pomzen com https www pomzen com 是否可以在 JHipster 项目中完成还是在
防止表单提交后重新加载页面

有没有办法检测并停止页面是否正在重新加载我有一个页面在成功提交其中存在的表单后正在重新加载我想要一个事件侦听器来查看页面是否正在重新加载并应该阻止它重新加载我不能return false 成功提交注册表在你的html中
当 Svelte 重用父 dom 元素时如何确保仅本地转换

在 Svelte 中我有一个组件用于显示两个不同列表中的项目当这些项目从一个列表移动到另一个列表时它们使用过渡来动画进入或退出不过我还有一种方法可以过滤屏幕上显示的内容显示一组新的项目将使用相同的组件但具有不同的数据在这种情
在 ASMX 中测试自定义 SOAP 标头

ASMX生成的测试表单对于测试操作来说非常方便然而没有明显的方法来包含 SOAP 标头如何在不编写客户端程序来使用该服务的情况下测试标头如果您关心互操作性请不要使用 net 客户端应用程序来测试 net Web 服务使用 SOA
asp.net-mvc 在后期操作中获取字典或如何将 FormCollection 转换为字典

任何人都知道如何改变FormCollection into a IDictionary或者如何获得IDictionary在后期行动中这只是 Omnu 代码的等价物但对我来说似乎更优雅 Dictionary
如何重新加载当前状态？

我正在使用 Angular UI Router 并且想要重新加载当前状态并刷新所有数据重新运行当前状态及其父级的控制器我有 3 个州级别目录组织详细信息目录组织包含一个包含组织列表的表单击表中的项目加载目录组织详细信息使
Cordova - 如何不出现闪屏？

我不希望我的 Cordova 项目 Android 和 iOS 出现启动屏幕如何删除它我尝试禁用启动画面插件但它仍然出现怎么解决
安装Oracle表单并出现错误。无法启动安装程序 (555)

甲骨文形式下载地址 http www oracle com technetwork developer tools forms downloads index html http www oracle com technetwork dev
Json.Net布尔解析问题

JObject Parse jsonString 导致布尔数据出现问题例如json 是 BoolParam true 我用下面的代码来解析 JObject data JObject Parse str1 foreach var x in
Python 拼凑将 UCS-2 (UTF-16?) 读取为 ASCII

我对这个问题有点不知所措所以请提前原谅我的术语我在 Windows XP 上使用 Python 2 7 运行它我发现一些 Python 代码可以读取日志文件执行一些操作然后显示一些内容什么这还不够详细吗好的这是一个简化版本

Python 拼凑将 UCS-2 (UTF-16?) 读取为 ASCII

Python 拼凑将 UCS-2 (UTF-16?) 读取为 ASCII 的相关文章

随机推荐

热门标签