如何修复 Python 中的双重编码和损坏的字符串？

2024-01-06

我的流程正在处理已被破坏的数据。我可以看出它已经用 UTF-8 进行了双重编码，但这只是故事的一半。双倍的-decoding仅适用于单字节（拉丁语）且完好无损地通过 UTF-8 的代码点。双字节（或更大）的代码点不能使用以下命令进行双重解码.decode('utf-8').encode('raw_unicode_escape').decode('utf-8')

我有一个例子可以帮助解决这个问题。我经历过的字符串之一是这样的：

'\xc3\x82\xc2\xa9\xc3\x82\xc2\xae\xc3\xa2\xe2\x80\x9e\xc2\xa2'

这应该解决：

u'\xa9\xae\u2122'

如果我在该点之前截断字符串，那么我可以成功地进行双重解码：

'\xc3\x82\xc2\xa9\xc3\x82\xc2\xae'.decode('utf-8').encode('raw_unicode_escape').decode('utf-8')

但是，这不适用于整个字符串，因为第一次解码会产生以下结果：

u'\xc2\xa9\xc2\xae\xe2\u201e\xa2'

谁能指出我解决这个问题的正确方向？与此同时，我将继续研究这个问题，看看是否能弄清楚。

好吧，所以我基本上只需要对编码进行一些猜测，直到找到解决方案。问题在于数据也是 cp1252 编码的（可能是因为数据来自 Windows 系统）。解决办法是调用.decode('utf-8').encode('cp1252').decode('utf-8') and voila:

>>> raw = '\xc3\x82\xc2\xa9\xc3\x82\xc2\xae\xc3\xa2\xe2\x80\x9e\xc2\xa2'
>>> print raw.decode('utf-8').encode('cp1252').decode('utf-8')
©®™

我希望其他人通过偶然发现这个问题得到帮助！

发现这也有帮助：

https://gist.github.com/litchfield/1282752/653b0c1944741ac90ca9c63c25ee3c2f609b323b https://gist.github.com/litchfield/1282752/653b0c1944741ac90ca9c63c25ee3c2f609b323b

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何修复 Python 中的双重编码和损坏的字符串？的相关文章

Python在postgresql表中查找带有单引号符号的字符串

我需要从 psql 表中查找包含多个单引号的字符串我当前的解决方案是将单引号替换为双单引号如下所示 sql query f SELECT exists SELECT 1 FROM table name WHERE my column m
更改 Altair 中的构面标题位置？

如何将方面标题在本例中为年份移动到每个图的上方默认值似乎位于图表的一侧这可以轻易改变吗 import altair as alt from vega datasets import data df data seattle weat
登录网站并使用 python 请求下载文件

我有一个带有 HTML 表单的网站登录后它会将我带到 start php 站点然后将我重定向到overview php 我想从该服务器下载文件当我单击 ZIP 文件的下载链接时链接后面的地址是 getimage php path
python 中的 Johansen 协整检验

我找不到任何有关在处理统计和时间序列分析 pandas 和 statsmodel 的 Python 模块中执行 Johansen 协整检验的功能的参考有谁知道是否有一些代码可以执行时间序列之间的协整测试现在这已在 Python 的 s
使用 scipy curve_fit 拟合噪声指数的建议？

我正在尝试拟合通常按以下方式建模的数据 def fit eq x a b c d e return a 1 np exp x b c np exp x d e x np arange 0 100 0 001 y fit eq x 1 1 1
Pandas 滚动窗口 Spearman 相关性

我想使用滚动窗口计算 DataFrame 两列之间的 Spearman 和或 Pearson 相关性我努力了df corr df col1 rolling P corr df col2 P为窗口尺寸但我似乎无法定义该方法添加meth
动态 __init_subclass__ 方法的参数绑定

我正在尝试让类装饰器工作装饰器会添加一个 init subclass 方法到它所应用的类但是当该方法动态添加到类中时第一个参数不会绑定到子类对象为什么会发生这种情况举个例子这是可行的下面的静态代码是我试图最终得到的示例 cl
Python多处理错误“ForkAwareLocal”对象没有属性“连接”

下面是我的代码我面临着多处理问题我看到这个问题之前已经被问过我已经尝试过这些解决方案但它似乎不起作用有人可以帮我吗 from multiprocessing import Pool Manager Class X def init
如何使用 paramiko 查看（日志）文件传输进度？

我正在使用 Paramiko 的 SFTPClient 在主机之间传输文件我希望我的脚本打印文件传输进度类似于使用 scp 看到的输出 scp my file user host user host password my file 1
Pandas style.bar 颜色基于条件？

如何渲染其中一列的 Pandas dfstyle bar color属性是根据某些条件计算的 Example df style bar subset before after color ff781c vmin 0 0 vmax 1 0 而
在 Sphinx 中，有没有办法在声明参数的同时记录参数？

我更喜欢在声明参数的同一行记录每个参数根据需要以便应用D R Y http en wikipedia org wiki Don t repeat yourself 如果我有这样的代码 def foo flab nickers a ser
由于 json 字符串化 dict 键导致数据丢失

考虑下面的例子 gt gt gt import json gt gt gt d 0 potato 0 spud gt gt gt json dumps d 0 potato 0 spud gt gt gt json loads json d
无法在 python 3.8 上将带有 webapp 的 python 部署到 azure

我正在尝试使用部署一个测试项目Flask使用以下方法将框架迁移到 Azure 云中Azure CLI https learn microsoft com en us azure app service containers quicksta
如何将回溯/sys.exc_info() 值保存在变量中？

我想将错误名称和回溯详细信息保存到变量中这是我的尝试 import sys try try print x except Exception ex raise NameError except Exception er print 0 s
如何使用 Keras ImageDataGenerator 预测单个图像？

我已经训练 CNN 对图像进行 3 类分类在训练模型时我使用 keras 的 ImageDataGenerator 类对图像应用预处理功能并重新缩放它现在我的网络在测试集上训练得非常准确但我不知道如何在单图像预测上应用预处理功能如
对数据帧的每 2 小时数据进行 Groupby

我有一个数据框 Time T201FN1ST2010 T201FN1VT2010 1791 2017 12 26 00 00 00 854 69 0 87 1792 2017 12 26 00 20 00 855 76 0 87 1793
处理大文件的最快方法？

我有多个 3 GB 制表符分隔文件每个文件中有 2000 万行所有行都必须独立处理任何两行之间没有关系我的问题是什么会更快逐行阅读 with open as infile for line in infile 将文件分块读入内存
Python 通过从现有 csv 文件中过滤选定的行来写入新的 csv 文件

只是一个问题我试图将 csv 文件中的选定行写入新的 csv 文件但出现错误我试图读取的 test csv 文件是这样的两列 2013 9 1 2013 10 2 2013 11 3 2013 12 4 2014 1 5 2014
Django 模型：如何使用 mixin 类来覆盖 django 模型以实现 save 等功能

我想在每次保存模型之前验证值所以我必须重写保存函数代码几乎是一样的我想把它写在 mixin 类中但失败了我不知道如何写 super func 我英语不好抱歉 class SyncableMixin object def sav
如何为所有用户安装 Anaconda python？

Anaconda python 发行版 https store continuum io cshop anaconda 非常方便地部署科学计算环境 SCE 并根据需要切换python版本默认情况下安装会将 python 定位到 anac

随机推荐

Android中使用canvas和bitmap，如何获取这张图片？

I am new in android I am trying to draw this image match statistic and fill the image with color with 10 to 100 I tried
access()有什么问题？ [复制]

这个问题在这里已经有答案了可能的重复 access 安全漏洞 https stackoverflow com questions 7925177 access security hole 我引用手册页访问 2 Warning Using
从以编程方式创建的 tableViewCell 中删除图像

我想移动单元格上包含的 imageView 并且它可以工作但在新位置创建新图像并保留旧图像然后显示两个我怎样才能删除旧的使用的代码 UIImage cellImage UIImage imageNamed showIconName
SDL 窗口似乎被操作系统错误地标记为“无响应”

我有一个通过 Derelict 3 访问的 SDL2 窗口它应该是黑白频闪不是因为我讨厌癫痫病患者而且它成功地做到了这一点然而在一段时间后 Ubuntu 13 10 将窗口标记为无响应将其变灰并使频闪效果变暗这非常令人恼火
使用 ui-grid 常量禁用滚动条

使用最新版本的 ui grid v3 0 0 rc 16 可以单独关闭水平和垂直滚动条我通过交换得到了这个工作 scope gridOptions enableScrollbars false with scope gridOptions
如何从 Redis 获取值并将其放入 NGiNX 中的变量中？

这是我的配置 location session set redis key cookie session redis pass 000 00 000 000 6379 echo cookie session echo echo redis
string.Format 如何处理空值？

在下面的代码中为什么这两个string Format调用的行为方式不一样吗在第一个中没有抛出异常但在第二个中ArgumentNullException被抛出 static void Main string args Exceptio
onClick 输入类型=“image”

我一直在转来转去试图找到一个明确的答案基本上我想将 Google Analytics 事件跟踪添加到表单提交中我希望为其添加 onClick 但我很难确定是否所有浏览器都支持它我问设计表单的人她说他们不使用按钮类型的原因是导致在
Backtrader 错误：“DataFrame”对象没有属性“setenvironment”

我是反向交易者的新手我有一个大问题我想开始我的策略只是一个简单的 GoldenCross 策略这个 GoldenCross py 脚本如下所示 import math import backtrader as bt class Go
dijit 过滤选择最小长度

我似乎找不到一种方法来要求过滤选择输入具有一定的长度我尝试过这样的 new dijit form FilteringSelect name bla store jsonRestStore searchAttr name pattern 3
有人在 vuetify 和 Laravel 7 上取得过成功吗？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我一直在尝试在使用 laravel 7 构建的多个项目中安装 vuetify 我成功地让它工作了一次但每一次连续的尝试都会破坏 vu
使用 msal.js 对 Angular Spa 进行身份验证

我的角度应用程序有 1000 条独特的路线用户应该能够从任何这些页面单击登录按钮已经基于此示例实现了 msal js https github com Gimly simpleAngularAzureB2C blob master sr
如何避免 Google Ads 拖慢我的网站（尤其是移动网站）速度？

我知道很多网站管理员认为页面速度毫无意义然而我相信这个因素是谷歌决定对任何网站进行排名的前三名因素之一我厌倦了看到谷歌自己的服务如何减慢我的网页速度我编写干净的代码当我启动任何网站应用程序时它在 GTMetrix 和 Ping
如何在 docker 镜像中包含修改后的配置文件？

我是 Docker 新手一位 Devop 同事在 github 存储库中创建了一个 WSO2 docker 镜像他使用此类图像来创建暂存和生产实例 The docker compose yml is openssl req newkey
使用 Twisted 和 inlineCallbacks 进行测试

这是我的函数定义 defer inlineCallbacks def get order order id do some db operations defer returnValue order details 我想做的是使用 Twis
当导入 Angular 13 项目时，Angular 13 包/库抛出错误“moment is not a function”

我正在升级私有角度库包 my lib 以便我可以迁移所有其他项目但是当导入到项目中时其中一项服务使用 moment 并抛出错误错误类型错误时刻不是函数该库在开发模式下工作构建和发布都正常即使导入到项目中所有组件和资源都加载
我需要做什么才能解决“使用移动值”错误？

我正在尝试计算 Rust 中的第 10 001 个素数 Project Euler 7 作为其中的一部分我检查整数是否是素数的方法引用了向量 fn main let mut count u32 1 let mut num u64 1 le
Git pull - 致命：读取错误：参数无效

我尝试使用 msysgit 1 8 1 进行拉取也尝试使用 1 7 10 和 11 结果相同但总是收到一个我不知道如何调试解决的错误 E java myproject gt git pull Enter passphrase for
url 中的分号作为查询字符串的分隔符

我一直听说 W3C 建议使用而不是作为查询字符串分隔符我们建议 HTTP 服务器实现者特别是 CGI 实现者支持使用代替来保存作者以这种方式转义字符的麻烦有人可以解释一下为什么吗推荐代替另外我尝试使用代替例子
如何修复 Python 中的双重编码和损坏的字符串？

我的流程正在处理已被破坏的数据我可以看出它已经用 UTF 8 进行了双重编码但这只是故事的一半双倍的 decoding仅适用于单字节拉丁语且完好无损地通过 UTF 8 的代码点双字节或更大的代码点不能使用以下命令进行双重解码

如何修复 Python 中的双重编码和损坏的字符串？

如何修复 Python 中的双重编码和损坏的字符串？ 的相关文章

随机推荐

热门标签

如何修复 Python 中的双重编码和损坏的字符串？的相关文章