文件包含\u00c2\u00a0，转换为字符

2024-04-15

我有一个 JSON 文件，其中包含这样的文本

 .....wax, and voila!\u00c2\u00a0At the moment you can't use our ...

我的简单问题是如何将这些 \u 代码转换（而不是删除）为空格、撇号等...？

Input:一个文本文件.....wax, and voila!\u00c2\u00a0At the moment you can't use our ...

Output: .....wax, and voila!(converted to the line break)At the moment you can't use our ...

Python代码

def TEST():
        export= requests.get('https://sample.uk/', auth=('user', 'pass')).text

        with open("TEST.json",'w') as file:
            file.write(export.decode('utf8'))

我尝试过的：

使用 .json()
组合 .encode().decode() 等的任何不同方式。

Edit 1

当我将此文件上传到 BigQuery 时，我有 -Â symbol

更大的样本：

{
    "xxxx1": "...You don\u2019t nee...",
    "xxxx2": "...Gu\u00e9rer...",
    "xxxx3": "...boost.\u00a0Sit back an....",
    "xxxx4": "\" \u306f\u3058\u3081\u307e\u3057\u3066\"",
    "xxxx5": "\u00a0\n\u00a0",
    "xxxx6": "It was Christmas Eve babe\u2026",
    "xxxx7": "It\u2019s xxx xxx\u2026"
}

Python代码：

import json
import re
import codecs


def load():
    epos_export = r'{"xxxx1": "...You don\u2019t nee...","xxxx2": "...Gu\u00e9rer...","xxxx3": "...boost.\u00a0Sit back an....","xxxx4": "\" \u306f\u3058\u3081\u307e\u3057\u3066\"","xxxx5": "\u00a0\n\u00a0","xxxx6": "It was Christmas Eve babe\u2026","xxxx7": "It\u2019s xxx xxx\u2026"}'
    x = json.loads(re.sub(r"(?i)(?:\\u00[0-9a-f]{2})+", unmangle_utf8, epos_export))

    with open("TEST.json", "w") as file:
        json.dump(x,file)

def unmangle_utf8(match):
    escaped = match.group(0)                   # '\\u00e2\\u0082\\u00ac'
    hexstr = escaped.replace(r'\u00', '')      # 'e282ac'
    buffer = codecs.decode(hexstr, "hex")      # b'\xe2\x82\xac'

    try:
        return buffer.decode('utf8')           # '€'
    except UnicodeDecodeError:
        print("Could not decode buffer: %s" % buffer)



if __name__ == '__main__':
    load()

我制作了这个粗略的 UTF-8 unmangler，它似乎可以解决您混乱的编码情况：

import codecs
import re
import json

def unmangle_utf8(match):
    escaped = match.group(0)                   # '\\u00e2\\u0082\\u00ac'
    hexstr = escaped.replace(r'\u00', '')      # 'e282ac'
    buffer = codecs.decode(hexstr, "hex")      # b'\xe2\x82\xac'

    try:
        return buffer.decode('utf8')           # '€'
    except UnicodeDecodeError:
        print("Could not decode buffer: %s" % buffer)

Usage:

broken_json = '{"some_key": "... \\u00e2\\u0080\\u0099 w\\u0061x, and voila!\\u00c2\\u00a0\\u00c2\\u00a0At the moment you can\'t use our \\u00e2\\u0082\\u00ac ..."}'
print("Broken JSON\n", broken_json)

converted = re.sub(r"(?i)(?:\\u00[0-9a-f]{2})+", unmangle_utf8, broken_json)
print("Fixed JSON\n", converted)

data = json.loads(converted)
print("Parsed data\n", data)
print("Single value\n", data['some_key'])

它使用正则表达式从字符串中获取十六进制序列，将它们转换为单个字节并将它们解码为 UTF-8。

对于上面的示例字符串（我已经包含了 3 字节字符€作为测试）这会打印：



Broken JSON
 {"some_key": "... \u00e2\u0080\u0099 w\u0061x, and voila!\u00c2\u00a0\u00c2\u00a0At the moment you can't use our \u00e2\u0082\u00ac ..."}
Fixed JSON
 {"some_key": "... ’ wax, and voila!  At the moment you can't use our € ..."}
Parsed data
 {'some_key': "... ’ wax, and voila!\xa0\xa0At the moment you can't use our € ..."}
Single value
 ... ’ wax, and voila!  At the moment you can't use our € ...

The \xa0“解析数据”中的内容是由Python输出字典到控制台的方式引起的，它仍然是实际的不间断空格。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

python3x

python27

Decode

encode

文件包含\u00c2\u00a0，转换为字符的相关文章

Python：如果满足条件，则循环遍历一个字典并在新字典中创建键/值对

我想将一个字典的值与第二个字典的值进行比较如果值满足特定条件我想创建第三个字典其中的键和值对将根据匹配情况而变化这是一个显示我的问题的人为示例编辑对所有返回感到抱歉但堆栈溢出无法识别单个返回并且在一行上运行 3 4 行使代
扭曲多种协议

我希望为我正在从事的项目学习扭曲该项目需要服务器响应 HTTP 请求以及通过 TCP 连接的其他协议 Twisted能够同时处理多种协议吗我想使用 Twisted Web 来帮助处理 HTTP 但同时需要响应其他端口上的 TCP 连接
如何在anaconda python 3.6上安装tensorflow

我使用 anaconda 包安装了新版本的 python 3 6 但是我无法安装张量流总是收到这样的错误 tensorflow gpu 1 0 0rc2 cp35 cp35m win amd64 whl 在此平台上不受支持如何在 ana
让 Django 提供可下载文件

我希望网站上的用户能够下载路径被遮挡的文件因此无法直接下载它们例如我希望 URL 是这样的 http example com download f somefile txt 在服务器上我知道所有可下载的文件都位于该文件夹中 home
Native TF 与 Keras TF 性能比较

我使用本机和后端张量流创建了完全相同的网络但在使用多个不同参数进行了多个小时的测试后仍然无法弄清楚为什么 keras 优于本机张量流并产生更好稍微但更好的结果 Keras 是否实现了不同的权重初始化方法或者执行除 tf train
NLTK：包错误？朋克和泡菜？

基本上我不知道为什么会收到此错误只是为了获得更多图像这里有一个代码格式的类似消息由于是最新的该帖子的答案已经在消息中提到 Preprocessing raw texts LookupError Traceback most rec
为什么 pandas.DataFrame.update 会更改更新后的数据帧的数据类型？

出于显而易见的原因我想在更新后将列的数据类型保留为 int 有什么想法为什么这不能按预期工作吗 import pandas as pd df1 pd DataFrame a 1 b 2 c foo a 3 b 4 c baz df2 pd
如何使用 django Rest 框架保存多对多字段对象

我有博客发布标签三个模型在博客模型中我将字段 postedin 作为发布模型的外键将标签作为标签模型的许多字段模型 py class Posted models Model name models CharField Pos
我可以在pycharm中的断点处进入交互模式吗

我是一个相当新的 Pycharm 3 用户正在从事 django 项目我可以在 pycharm3 中的断点处进入交互模式吗这可能吗当程序在断点处停止时我尝试过工具 gt 打开调试命令行但我没有看到控制台打开我怎样才能让它发挥作
LogRecord 没有预期的字段

在使用 logging 模块的Python中文档承诺LogRecord实例将具有许多属性这些属性在文档中明确列出然而情况似乎并不总是如此当我不使用日志记录模块的 basicConfig 方法时下面的程序显示属性 asctime
将具有多个时区的 pandas 列转换为单个时区

Problem 我在 pandas DataFrame 中有一个列其中包含带有时区的时间戳此列中有两个不同的时区我需要确保只有一个这是该列末尾的输出 260003 2019 05 21 12 00 00 06 00 260004 2
django-allauth：电子邮件确认

我已经设置了 django allauth 并在新用户注册时使用电子邮件确认效果很好但在确认电子邮件中我得到 Hello from example com You re receiving this e mail because us
如何在solidpython中设置特殊变量$fa、$fs、$fn

in 上一个线程 https stackoverflow com questions 54040390 how to save data in stl file after python solid processing显示了如何通过 So
自动创建带有文件输出的目录[重复]

这个问题在这里已经有答案了假设我想制作一个文件 filename foo bar baz txt with open filename w as f f write FOOBAR 这给出了一个IOError since foo bar不存
在解析器/子解析器的开头使用 argparse.REMAINDER

我想实现一个 arg 解析器它允许我将单元测试作为子命令之一运行盲目地将参数传递给 unittest main 例如 foo py unittest args to pass to unittest main 以及其他子命令 foo p
AppEngine 警告 - OpenBLAS 警告 - 无法确定该系统上的 L2 缓存大小

我尝试在 GC AppEngine 上部署应用程序部署过程中没有错误但应用程序无法运行仅显示加载页面日志中唯一一个奇怪的原始日志 OpenBLAS WARNING could not determine the L2 cache s
Python-使用元组作为列表索引[重复]

这个问题在这里已经有答案了我有一个元组列表 tuples list 1 0 2 3 3 2 2 0 我想访问二维数组的元素a例如使用其中一些元组 for i in range 3 print a tuples list i 应该输出的值
启动客户端时，代码要求提供电话/机器人令牌

使用 Telethon 库运行我的第一个代码时它要求提供机器人令牌这是实际的代码 from telethon import TelegramClient events sync api id 1234567 api hash xxxxx
如何仅在按下某个键时触发鼠标单击？在Python中

我想制作一个程序或者当我单击某个键时鼠标会自动单击只要我单击该键如果我不单击该键它就会停止我不希望只在触摸按键一次时才发生点击而是只要按住按键就发生点击也可以像雷蛇突触鼠标一样按下鼠标左键触发点击任何想法 EDIT 1 这
如何将动态数据传递给装饰器

我正在尝试编写一个基本的 CRUD 控制器类来执行以下操作下列的 class BaseCrudController model field validation template dir expose self template dir

随机推荐

反汇编中演示 volatile 的示例 C 代码？

演示反汇编中易失性和非易失性之间差异的简短说明性 C 程序是什么 ie int main volatile int x vs int main int x 我们可以用什么来代替两者这样生成的代码就不同了例如 x 0 If x is no
从原始 r 和 s 创建 DER 格式的 ECDSA 签名

我有一个原始 ECDSA 签名 R 和 S 值我需要 DER 编码版本的签名有没有一种直接的方法可以使用 c 接口在 openssl 中执行此操作我目前的尝试是使用i2d ECDSA SIG const ECDSA SIG sig u
单选按钮选中更改事件触发两次

请阅读我的问题它不是重复的问题我在 Windows 窗体上有三个单选按钮所有这些按钮都具有关联的常见 CheckedChanged 事件当我单击任何这些单选按钮时它会触发 CheckedChanged 事件两次这是我的代码 pr
什么可能导致 ASP.NET 应用程序忘记用户？

我有一个 ASP NET 应用程序它似乎在一段时间后忘记了用户已登录我正在使用会员资格提供商当选择记住登录时它会在会话期间记住它我什至可以关闭浏览器重新启动并返回它仍然会登录但过了一段时间它就会忘记而且似乎在任何旧时间
在 ASP.NET 3.5 中创建 RSS 源

如何使用 C 在 ASP NET 3 5 中创建 RSS 提要哪些框架部分可以帮助 NET 开发人员更轻松地发布 RSS 或 Atom 提要 NET 4 中是否有任何额外功能可以使此任务比 3 5 中更容易 3 5 中有一个新的命名空间
如何限制拖动元素在interact.js中重叠

容器中的拖动元素不应该重叠我们如何限制请帮忙交互API链接 http interactjs io 抱歉没有尽早回答这个问题我相信你必须手动检查元素的顶部底部左侧和右侧边缘的位置所以这就是我所做的 Call this func
matlab 数组中的 DICOM 维度（所有帧都以数组的最后一个维度结束）

在我的 GUI 之一中我加载 DICOM 图像有时它们只是一个体积和另一个维度当我将它们加载到 Matlab 中时一切都会到达我想要的位置 handles inf dicominfo filepath filename handle
对链接列表进行排序

我用 C 编写了一个基本的链表类它有一个 Node 对象它显然代表列表中的每个节点代码中没有使用IEnumerable 但是我可以实现排序功能吗我使用的语言是C C 中有这样的例子吗我正在从这个工作sample http ww
Python，在输出中将所有浮点数打印到小数点后两位

我需要输出 4 个不同的浮点数到小数点后两位这就是我所拥有的 print 2f var1 kg 2f var2 lb 2f var3 gal 2f var4 l 这是非常不干净的而且看起来很糟糕有没有办法让输出 2f 中出现任何浮动
如何在 Swift 中创建一个空数组？

我对如何在 Swift 中创建空数组感到非常困惑您能否向我展示创建带有一些细节的空数组的不同方法干得好 var yourArray String 上面的方法也适用于其他类型而不仅仅是字符串这只是一个例子为其添加价值我想您最终会想
app.dock.hide(); 的等效项是什么？

我目前正在开发电子托盘应用程序对于 Mac Electron 框架具有将应用程序隐藏在 Dock 中的功能 app dock hide 我尝试在 Windows 计算机上运行此程序并收到错误 TypeError Cannot read p
“内部联系”是什么意思？

标准中写道当名称具有内部链接时它所表示的实体可以是由同一翻译单元中其他范围的名称引用 and 具有命名空间范围 3 3 6 的名称具有内部链接如果它是变量函数或函数模板的名称显式声明为静态所以考虑下面的代码 include
s3 存储桶中的 utf-8 文件名

是否可以使用 utf 8 编码名称如 jpg 向 s3 添加密钥使用 boto 上传时出现以下错误
Python 请求：requests.exceptions.TooManyRedirects：超过 30 个重定向

我试图使用 python requests 库抓取此页面 import requests from lxml import etree html url http www amazon in b ref sa menu mobile ele
使用 MongoDB 有效确定层次结构中记录的所有者

我正在努力实现以下目标选择我拥有的所有记录其中所有权是我创建的对象或我管理的用户创建的对象其中用户管理可以在管理用户的用户层次结构中所有权显然很简单可以通过与所有者相对应的简单 ID 来处理用户管理的层次结构让我有点难以执行而
当 Net Framework 引用 Net 标准库时，无法加载文件或程序集

我对 netstandard 非常陌生当我想运行引用 netstandard 库的 Net Framework 控制台调试模式时我刚刚遇到异常所以我后来发现如果我将 nuget 中的 System IO Ports 安装到 Net
如何在某一点切断一条线，但在最近的空间处分割

我希望每行在 20 个字符过去后分开但我希望它在最近的空格处分开这样句子就只有整个单词这是我的代码 System out println Please input a word Scanner stringScanner new Sc
如何获取PAC的访问日志（代理自动配置）

我正在使用 Chrome 我想为自己监控浏览器访问日志我怀疑某些扩展程序在后台发送 url 等我尝试使用 Privoxy 但它无法记录 HTTPS url 我认为 PAC 是记录原始 url 的唯一方法我使用 PAC 几年了但我仍然
如何使用 django-pytest 跟踪 Django 重定向？

在设置一个档案索引视图 https docs djangoproject com en 2 0 ref class based views generic date based django views generic dates Arch
文件包含\u00c2\u00a0，转换为字符

我有一个 JSON 文件其中包含这样的文本 wax and voila u00c2 u00a0At the moment you can t use our 我的简单问题是如何将这些 u 代码转换而不是删除为空格撇号等 Input

文件包含\u00c2\u00a0，转换为字符

文件包含\u00c2\u00a0，转换为字符 的相关文章

随机推荐

热门标签

文件包含\u00c2\u00a0，转换为字符的相关文章