将 Unicode 转义符转换为希伯来语文本

2023-12-07

我的 json 文件中有以下文本：

"\u00d7\u0090\u00d7\u0097\u00d7\u0095\u00d7\u0096\u00d7\u00aa 
\u00d7\u00a4\u00d7\u0095\u00d7\u009c\u00d7\u0092"

它代表希伯来语中的文本“אחוזת פולג”。

无论我使用哪种编码/解码，我似乎都无法正确使用 Python 3.

例如，如果我尝试：

text = "\u00d7\u0090\u00d7\u0097\u00d7\u0095\u00d7\u0096\u00d7\u00aa 
\u00d7\u00a4\u00d7\u0095\u00d7\u009c\u00d7\u0092".encode('unicode-escape')

print(text)

我得到的文字是：

b'\\xd7\\x90\\xd7\\x97\\xd7\\x95\\xd7\\x96\\xd7\\xaa \\xd7\\xa4\\xd7\\x95\\xd7\\x9c\\xd7\\x92'

在字节码中是almost正确的文本，如果我能够删除只有一个反斜杠并转动

b'\\xd7\\x90\\xd7\\x97\\xd7\\x95\\xd7\\x96\\xd7\\xaa \\xd7\\xa4\\xd7\\x95\\xd7\\x9c\\xd7\\x92'

into

text = b'\xd7\x90\xd7\x97\xd7\x95\xd7\x96\xd7\xaa \xd7\xa4\xd7\x95\xd7\x9c\xd7\x92'

（注意我如何将双斜杠更改为单斜杠）然后

text.decode('utf-8')

将产生正确的希伯来语文本。

但我正在努力这样做，并且无法设法创建一段代码来为我做到这一点（而不是像我刚刚展示的那样手动......）

非常感谢任何帮助...

该字符串不“表示”希伯来语文本（至少不表示为 unicode 代码点、UTF-16、UTF-8 或任何众所周知的方式）。相反，它表示一个 UTF-16 代码单元序列，这个序列主要由乘号、货币符号和一些奇怪的控制字符组成。

看起来原始字符数据已经使用一些奇怪的编码组合进行了多次编码和解码。

假设这就是 JSON 文件中保存的内容：

"\u00d7\u0090\u00d7\u0097\u00d7\u0095\u00d7\u0096\u00d7\u00aa \u00d7\u00a4\u00d7\u0095\u00d7\u009c\u00d7\u0092"

您可以按如下方式恢复希伯来语文本：

(jsonInput
  .encode('latin-1')
  .decode('raw_unicode_escape')
  .encode('latin-1')
  .decode('utf-8')
)

对于上面的例子，它给出：

'אחוזת פולג'

如果您使用 JSON 反序列化器读取数据，那么您当然应该省略.encode('latin-1').decode('raw_unicode_escape')步骤，因为 JSON 反序列化器已经为您解释转义序列。也就是说，在 JSON 反序列化器加载文本元素后，只需将其编码为latin-1然后将其解码为utf-8。这有效是因为latin-1(ISO-8859-1) 是一种 8 位字符编码，与 unicode 的前 256 个代码点完全对应，而奇怪的损坏文本将 UTF-8 编码的每个字节编码为 UTF-16 代码的 ASCII 转义单元。

我不确定如果您的 JSON 同时包含损坏的转义序列和有效文本，您可以做什么，可能是latin-1不再正常工作了。请不要将此转换应用于您的 JSON 文件，除非 JSON 本身仅包含 ASCII，这只会让一切变得更糟。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

将 Unicode 转义符转换为希伯来语文本的相关文章

一次用 \r\n & \n & \r 分解字符串？ [复制]

这个问题在这里已经有答案了我想按行分割字符串但我希望它基于所有主要使用的换行符 n r n r 并返回一个包含每一行的数组您可以使用正则表达式和preg split http php net preg split反而 lines pr
PyMC3-自定义 theano Op 进行数值积分

我使用 PyMC3 进行参数估计使用必须定义的特定似然函数我用谷歌搜索了一下发现我应该使用densitydist实现用户定义的似然函数的方法但它不起作用如何在 PyMC3 中合并用户定义的似然函数并找出最大 aposteriori
如何循环遍历字典列表并打印特定键的值？

我是 Python 新手有一个问题我知道这是一个非常简单的问题运行Python 3 4 我有一个需要迭代并提取特定信息的列表以下是列表称为部分的示例已截断数千个项目 state DEAD id phwl type name
如何在Python 3中将文本流编码为字节流？

将字节流解码为文本流很容易 import io f io TextIOWrapper io BytesIO b Test nTest n utf 8 f readline 在这个例子中 io BytesIO b Test nTest n 是
使用 Python 从 AWS S3 下载文件

我尝试使用以下代码将文件从 Amazon S3 存储桶下载到本地但收到错误消息无法找到凭证下面给出的是我编写的代码 from boto3 session import Session import boto3 ACCESS KEY A
在 PHP 中比较字符串的方式与 MySQL 相同

我将 varchar 存储在 utf8 MySQL 表中并使用 utf8 general ci 排序规则我在 varchar 上有一个唯一索引我想在 PHP 中进行字符串比较这相当于 MySQL 对索引所做的操作一个具体的例子是我
pip 安装最新的依赖版本

当我使用安装包时pip install e 它仅安装不满足的依赖项并忽略依赖项升级如何在每次运行时安装最新的依赖版本pip install e 我尝试过使用pip install upgrade e 但是使用这个选项没有任何改变我仍然得
setColumnStretch 和 setRowStretch 如何工作

我有一个使用构建的应用程序PySide2它使用setColumnStretch用于柱拉伸和setRowStretch用于行拉伸它工作得很好但我无法理解它是如何工作的我参考了 qt 文档但它对我没有帮助我被困在括号内的两个值上例如
从 C++ 调用 Python 脚本并使用其输出

我想从 C 调用 python 脚本并希望使用该脚本生成的输出 csv 文件返回 C 我在 main 中尝试过 std string filename home abc xyz script py std string command p
相当于“setup.py”中的“--find-links”

相当于什么 find links f标记为pip in setup py I know dependency links存在但这需要指向一个特定的文件我想要类似的东西 f它可以指向一个链接列表可以根据版本和操作系统从中选择包 In a
Selenium 3 Firefox .click() 不起作用

自从我升级到最新的 Selenium 版本后我的 Firefox 驱动程序无法正常工作未能通过搜索 Google Stack 找到答案我希望这里有人能找到答案我已经构建了一个页面对象模型用于登录网页单击管理站点并填写用户名密码
适用于 Python 3.x 的 Hive 客户端

是否可以使用 Python 3 x 连接到 hadoop 并运行 hive 查询我正在使用Python 3 4 1 我发现可以按照这里写的方式完成 https cwiki apache org confluence display Hiv
Json.dump 失败并显示“必须是 unicode，而不是 str”TypeError

我有一个 json 文件其中恰好有大量中文和日文以及其他语言字符我将其加载到我的 python 2 7 脚本中使用io open如下 with io open multiIdName json encoding utf 8 as j
Huggingface 变形金刚模块未被 anaconda 识别

我正在使用 Anaconda python 3 7 Windows 10 我尝试通过安装变压器https huggingface co transformers https huggingface co transformers 在我的环境
Python“\x00”填充/来自 cStringIO 的 utf-32 字符串

通过另一个系统的cStringIO 我通过以下方式编写了一些unicode u content length encode utf 8 在读完这篇文章后使用unicode stringio fd read utf 8 I get u c
如何创建始终有效的导入？

我正在努力在我的一个项目中建立一个工作结构问题是我有一个像这样的结构的主包和子包我遗漏了所有不必要的文件 code py mypackage init py mypackage work py mypackage utils py u
AIOHTTP - Application.make_handler(...) 已弃用 - 添加多重处理

我经历了我可以从 Python Web 服务器中获得多少性能的旅程这让我想到了 AIOHTTP 和 uvloop 尽管如此我仍然可以看到 AIOHTTP 并未充分利用我的 CPU 潜力我开始将多处理与 AIOHTTP 结合使用我
SMTP 库 Python3：不太安全的应用程序访问

自 5 月 30 日起 Google 已取消允许不太安全的应用程序访问 G Mail 我正在使用 SMTP 库从我的 Flask 网站发送电子邮件由于这种方法需要 Google 刚刚删除的功能所以我陷入了困境我正在寻找此问题的任何解决
Google 地图查询返回的 JSON 包含像 \x26 这样的编码字符（如何解码？）

在 Java 应用程序中我获取 JSON 来自 Google 地图其中包含以下字符 x26我想将其转换为其原始字符据我所知这是一个 UTF 8 表示法但我不完全确定在源 JSON 中可能会出现各种编码字符例如 x3c div
如何在Vim中正确显示UTF-8字符

我想要需要编辑包含 UTF 8 字符的文件并且我想使用 Vim 在我被指责问以前问过的问题之前我已经阅读了有关编码文件编码 s 术语编码等的 Vim 文档用 google 搜索了该主题并阅读这个问题 https stackove

随机推荐

标记列表

我喜欢使用列表项作为分隔符来标记列表有没有一种Python式的方法可以做到这一点或者我必须自己写一些东西 Data Label 23 NORM RESP 1 256 None RELV SubList TokenizeList Data
将正则表达式插入另一个正则表达式

在下面的代码中 k2与k1 那是 k2完全相同只是它是使用插值定义的也就是说我expected它是完全一样的从结果可知p k2它不是 v aeiouAEIOU vowels k1 b zB Z aeiouAEIOU consonan
PATCH 和 PUT 请求之间的主要区别是什么？

我正在使用一个PUT我的 Rails 应用程序中的请求现在一个新的 HTTP 动词 PATCH已经被浏览器实现了所以我想知道两者的主要区别是什么PATCH and PUT请求是什么以及我们何时应该使用其中之一 HTTP 动词可能是
通过交换多个字母来修改字符串

假设我有一个很长的字符串例如 ABCEEEEEEDEDAAA 但它仅由五个字母组成说我全部都要 A to be D 反之亦然同样 B and C 一个例子是 DNA 中的核苷酸修改后的示例将是 DCBEEEEEEAEADDD 我意识
Response.Redirect 从 Visual Studio 中的一个 Web 项目到另一个 Web 项目

我正在尝试将项目集成到现有的解决方案中解决方案中的启动项目名为 Foo 它被写入虚拟路径 csweb 当该项目启动时它会加载 csweb Default aspx 这是当前未修改的主页我正在尝试重定向到不同项目中的不同主页我向名为
解析推送通知异常：“未经授权：需要主密钥”

我想使用 Parse API 和 GCM 发送推送通知我已经在服务器上成功完成配置并通过从解析终端发送推送通知并在 Android 设备上接收进行测试但是当我以编程方式发送推送时出现异常未经授权需要主密钥我使用以下代码 Pars
如何将字符串列表数据绑定到 WPF/WP7 中的列表框？

我试图将字符串值列表绑定到列表框以便它们的值逐行列出现在我用这个
如何确定 Perl 警告的位置 - 插入后在哈希上使用each()

我有一个相当大的 Perl 程序用 PAR Packer 打包成可执行文件它使用了相当多的模块通常当 perl 给我一个警告时比如使用未定义的值它会打印错误的位置然后很容易更深入地调试它然而我现在面临一个错误我认为是在
如何缩放嵌入
标签的顽固 SVG？
我有一些指定的 SVG 文件width and height也viewbox像这样

Scala 正则表达式 IP 地址模式匹配

我不明白为什么这段代码返回 false val reg d 1 3 d 1 3 d 1 3 d 1 3 r ttt20 30 4 140ttt match case reg one two three four gt if host one

如何更改浮动元素的顺序？

我几乎不使用float right在我的 css 中现在我做了并遇到了一个恼人的问题我将菜单项浮动到右侧 my HTMl ul li a href Home a li li a href Feedback a li li a href

如何将 CsvHelper.CsvWriter 与 F# 选项类型一起使用？

我正在尝试使用 Net CsvHelper 库将 F 记录集合保存到 csv 文件问题在于选项类型未正确转换为字符串 r nuget CsvHelper open System IO open System Globalization o

JQuery - $ 未定义

我有一个简单的 jquery 点击事件以及 site master 中定义的 jquery 引用 Scripts jquery 1 3 2 js gt type text javascript gt 我已经检查了脚本是否被正确解析我能够

分页大结果集的最佳方法是什么 - Java

我正在寻找从性能角度来看的最佳方法在网页上部分显示结果集比如说每页 10 个项目如果用户想查看更多结果他可以按下一个 btn 我认为可能是错误的按下下一步按钮时应该向服务器发出新请求目前我正在尝试学习Java GWT 谢

如何防止回到之前的活动？

当按下手机上的返回按钮时我想防止特定活动返回到上一个活动具体来说我有登录和注册屏幕两者都启动一个名为的新活动HomeScreen当成功登录注册时主屏幕启动后我想阻止用户通过按返回键返回登录或注册屏幕我尝试使用Inte

使用 TPACKET_V2 时，Vlan id 设置为 0

我对这个 TPACKET V2 的使用有疑问我的问题是在套接字上设置这种类型的数据包后当我尝试接收一些数据包时我无法从数据包中读取 vlan id 当然是从数据包的标头 vlan tci 始终为 0 现在我正在使用 open sus

NSString *string = @"someString" vs NSString *string = [[NSString alloc] initWithFormat@"%@", string]

如果我有一个方法 void myMethod NSString string Object anothermethodWithString string 我打电话给 Object myMethod this is a string with

如何将未知的参数列表映射到 elisp 中的启动进程？

我终于尝试学习 elisp 但还没有集中精力如何将未知的参数列表动态映射到变量这是一个工作函数它将最多三个参数传递给启动进程但我想将无限数量的参数传递给该函数 defun create drush buffer command res

C++ 空括号成员初始化 - 将内存清零？

我最初写了一些这样的代码 class Foo public Foo m buffer private char m buffer 1024 比我聪明的人说使用 m buffer 初始化器会将内存清零我的目的是让内存保持未初始化状态我没有

将 Unicode 转义符转换为希伯来语文本

我的 json 文件中有以下文本 u00d7 u0090 u00d7 u0097 u00d7 u0095 u00d7 u0096 u00d7 u00aa u00d7 u00a4 u00d7 u0095 u00d7 u009c u00d7 u
热门标签

离线语音识别

高压MOS管

Qt开发环境

袖珍卡

MySQL数据库

手机上怎么学习计算机

区块链Web30

杂货铺

C 知识点

给指定服务器加路由

Android 随笔

域渗透

汇编笔记

定时器应用

pwm输出

dede织梦

跨域ajax原理
Powered by Hwhale

将 Unicode 转义符转换为希伯来语文本

将 Unicode 转义符转换为希伯来语文本 的相关文章

随机推荐

热门标签

将 Unicode 转义符转换为希伯来语文本的相关文章