在python中将拉丁字符串转换为unicode

2023-12-06

我正在使用 scrapy，我抓取了一些网站并将抓取页面中的项目存储到 json 文件中，但其中一些包含以下格式。

l = ["Holding it Together",
     "Fowler RV Trip",
     "S\u00e9n\u00e9gal - Mali - Niger","H\u00eatres et \u00e9tang",
     "Coll\u00e8ge marsan","N\u00b0one",
     "Lines through the days 1 (Arabic) \u0633\u0637\u0648\u0631 \u0639\u0628\u0631 \u0627\u0644\u0623\u064a\u0627\u0645 1",
     "\u00cdndia, Tail\u00e2ndia &amp; Cingapura"]

我可以预期该列表由不同的格式组成，但我想对其进行转换并将字符串以其原始名称存储在列表中，如下所示

l = ["Holding it Together",
     "Fowler RV Trip",
     "Lines through the days 1 (Arabic) سطور عبر الأيام 1 | شمس الدين خ | Blogs"         ,
     "Índia, Tailândia & Cingapura "]

提前致谢...........

您有包含 unicode 转义符的字节字符串。您可以使用以下命令将它们转换为 unicodeunicode_escape codec:

>>> print "H\u00eatres et \u00e9tang".decode("unicode_escape")
Hêtres et étang

您可以将其编码回字节字符串：

>>> s = "H\u00eatres et \u00e9tang".decode("unicode_escape")
>>> s.encode("latin1")
'H\xeatres et \xe9tang'

您可以过滤和解码非 unicode 字符串，例如：

for s in l: 
    if not isinstance(s, unicode): 
        print s.decode('unicode_escape')

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

Unicode

Scrapy

latin

在python中将拉丁字符串转换为unicode 的相关文章

JavaScript 相当于 Python 的参数化 string.format() 函数

这是 Python 示例 gt gt gt Coordinates latitude longitude format latitude 37 24N longitude 115 81W Coordinates 37 24N 115 81W
从Python中的字符串中提取货币金额

我正在制作一个程序从字符串中获取货币并将其转换为其他货币例如如果字符串是 the car cost me 13 250 我需要得到 and 13250 我已经有了这个正则表达式 1 确实如此但是该字符串很有可能有多个价格并且全部使
Kivy - 文本换行工作错误

我正在尝试在 Kivy 1 8 0 应用程序中换行文本当没有太多文字时一切正常但如果文本很长并且窗口不是很大它只是剪切文本这是示例代码 vbox BoxLayout orientation vertical size hint y
TF map_fn 或 while_loop 用于不同形状的张量列表

我想处理不同形状的张量序列列表并输出另一个张量列表考虑每个时间戳上具有不同隐藏状态大小的 RNN 就像是输入 tf ones 1 2 2 tf ones 2 2 3 tf ones 3 2 1 输出 tf zeros 1 2 4 t
更新 Sqlalchemy 中的多个列

我有一个在 Flask 上运行的应用程序并使用 sqlalchemy 与数据库交互我想用用户指定的值更新表的列我正在使用的查询是 def update table value1 value2 value3 query update T
更改 Altair 中的构面标题位置？

如何将方面标题在本例中为年份移动到每个图的上方默认值似乎位于图表的一侧这可以轻易改变吗 import altair as alt from vega datasets import data df data seattle weat
可以用 Django 制作移动应用程序吗？

我想知道我是否可以在我的网站上使用 Django 代码并以某种方式在移动应用程序 Flutter 等框架中使用它那么是否可以使用我现在拥有的 Django 后端并在移动应用程序中使用它所以就像models views etc 是的有
如何将 self 传递给装饰器？

我该如何通过self key下面进入装饰器 class CacheMix object def init self args kwargs super CacheMix self init args kwargs key func Cons
更改 python tkinter canvas 中的线坐标

我画了一条线tkinter Canvas现在我想移动一端这可能吗例如和itemconfig import tkinter tk tkinter Tk canvas tkinter Canvas tk canvas pack line c
Python多处理错误“ForkAwareLocal”对象没有属性“连接”

下面是我的代码我面临着多处理问题我看到这个问题之前已经被问过我已经尝试过这些解决方案但它似乎不起作用有人可以帮我吗 from multiprocessing import Pool Manager Class X def init
使用 numpy 在 python 中执行最大方差旋转

我正在研究矩阵的主成分分析我已经找到了如下所示的组件矩阵 A np array 0 73465832 0 24819766 0 32045055 0 3728976 0 58628043 0 63433607 0 72617152 0 5
如何添加剧作家的等待时间

我正在将 scrapy 与 playwright 集成但发现自己在单击后添加计时器时遇到困难因此当我点击后截取页面的屏幕截图时它仍然挂在登录页面上如何集成计时器以便页面等待几秒钟直到页面加载选择器 onetrust close
将文本注释到轴并对齐为圆

我正在尝试在轴上绘制文本并将该文本与圆对齐更准确地说有一些具有不同坐标 x y 的点位于该圆内并使用以下命令创建 ax scatter x y s 100 我想用圆圈连接并标记每个点 Cnameb 文本的坐标由 xp yp 定义因此
处理大文件的最快方法？

我有多个 3 GB 制表符分隔文件每个文件中有 2000 万行所有行都必须独立处理任何两行之间没有关系我的问题是什么会更快逐行阅读 with open as infile for line in infile 将文件分块读入内存
为什么 smtplib.SMTP().sendmail 不发送 DKIM 签名邮件

我已经在服务器上设置了 postfix 以及 openDKIM 当我跑步时 echo Testing setup mail s Postfix test my email address 我收到电子邮件邮件标题中有一个DKIM Signa
如何在 robobrowser-python 中发出 POST 请求

http robobrowser readthedocs org en latest api html http robobrowser readthedocs org en latest api html 我正在尝试使用 APIbrows
Python：高精度time.sleep

你能告诉我如何在 Win32 和 Linux 上的 Python 2 6 中获得高精度睡眠函数吗您可以在中使用浮点数sleep http docs python org library time html time sleep 该参数可以
如何循环遍历字典列表并打印特定键的值？

我是 Python 新手有一个问题我知道这是一个非常简单的问题运行Python 3 4 我有一个需要迭代并提取特定信息的列表以下是列表称为部分的示例已截断数千个项目 state DEAD id phwl type name
如何为所有用户安装 Anaconda python？

Anaconda python 发行版 https store continuum io cshop anaconda 非常方便地部署科学计算环境 SCE 并根据需要切换python版本默认情况下安装会将 python 定位到 anac
python sklearn中的fit方法

我问自己关于 sklearn 中拟合方法的各种问题问题1 当我这样做时 from sklearn decomposition import TruncatedSVD model TruncatedSVD svd 1 model fit X

随机推荐

如何从使用 write.table 创建的 CSV 文件中删除尾随空白或换行符？

我想将 R 中的数据帧写入 CSV 文件考虑下面的玩具示例 df lt data frame ID c 1 2 3 X c a b c Y c 1 2 NA df which is na df Y 1 write table t df f
最小最大值二维数组javascript

我发现了很多类似的帖子但还没有一个完全满足这个问题如何从 javascript 中的以下 2D 数组中获取最小值和最大值 1 2 3 4 5 6 7 8 9 即返回 1 和 9 this问题不完全是我想要的因为用户想忽略第 0 列并
Prolog：将列表拆分为两个列表（唯一项/重复项）

我一直在尝试将给定列表拆分为两个不同的列表唯一列表和重复列表例如如果我们有列表 1 1 2 3 3 4 5 我希望唯一列表是 2 4 5 并复制为 1 3 我不希望列表中的所有 1 都出现在重复列表中我只需要其中之一我现在拥有的代
HTML5 画布中最简单的幻灯片，canvas.context.clearRect 不适用于 setTimeout

这是一个非常简单的幻灯片的代码应在 4 秒内显示 4 张图像每秒一张图像相反我得到了 4 秒的延迟然后所有图像都绘制在彼此之上我究竟做错了什么
谷歌地图只加载了一半

查看上面的图片并尝试 URL gt http domainsoutlook com s site stackoverflow com html并转到服务器信息选项卡我注意到的荒谬之处是如果我加载http domainsoutlook c
仅在一台机器上出现 HTML 对齐问题（均为 IE8）

我有以下 HTML 和 CSS 代码一机在IE8下运行良好但在第二台机器上与 IE8 不一致为了纠正它需要改变什么注意未对齐是针对 Logout 文本注图像尺寸为214 X 57 注意两个系统都具有相同的分辨率和 100 缩
在 D3 中加载 TopoJSON 文件时的随机行

我正在尝试显示意大利制图形状文件例如这个使用D3 js 我可以加载 Zip 文件地图塑造者查看地图将其简化并导出为 TopoJSON 我可以在 MapShaper 中加载 TopoJSON 它看起来仍然没问题但是当我尝试使用 D3
如何用Swing制作画布？

我正在尝试用 Java 制作一个绘画编辑器其中有一个工具栏其中包含我想要粘贴到画布中的对象我使用 Swing 组件来制作 GUI 但是当我寻找制作画布的方法时我只找到了 AWT 中的类画布有没有办法用Swing制作类似canvas
如何通过 eclipse 在本地集群/模式下调试 Apache Storm

使用以下问答我设法通过 Apache Storm 集群本地运行上的 eclipse 启用调试如何在 Eclipse 中调试 Apache Storm My conf storm yaml有以下行可以在工作节点上启用调试 worker
如何（尝试）将单个字符串解析为“DD/MM/YYYY”格式的日期时间？（VB.Net）

如何尝试将单个字符串解析为 DD MM YYYY 格式的日期时间 VB Net 例如我使用输入字符串 30 12 1999 1999 年 12 月 30 日如何尝试将其解析为 DateTime 尝试这个 Dim date As
双缓冲 JFrame

当我开发 2D 游戏时我阅读了很多有关双缓冲的内容我遇到过许多不同的实施策略但不确定双缓冲如何适合我创建游戏窗口的方式例如我遇到的一篇文章 http content gpwiki org index php Java Tutori
在Java中实例化泛型类[重复]

这个问题在这里已经有答案了我知道 Java 泛型比 Nets 稍逊一筹我有一个通用类Foo
Tweepy 是否支持运行多个 Stream 来收集数据？

例如我想收集与三个关键字相关的数据关键字1 keyword2 keyword3 我知道我可以使用以下方法一次性收集所有这些内容 set track keyword1 keyword2 keyword3 是否可以运行三个不同的 Pytho
为什么这段使用随机字符串的代码会打印“hello world”？

以下打印语句将打印 hello world 有人能解释一下吗 System out println randomString 229985452 randomString 147909649 And randomString 看起来像这样
当 buildToolsVersion 从 22.0.1 更改为 23.0.1 时出现 ProcessException

看到 ProcessException 这似乎是一个老问题但在我的例子中这个异常的原因是不同的我正在尝试将compileSDKVersion从22移动到23 我还将buildToolsVersion从22 0 1更改为23 0 1 当
C 中的 ## 预处理器有什么用[重复]

这个问题在这里已经有答案了可能的重复 C 预处理器和串联有人可以举例解释吗它允许从它们的部分构造标识符例如 define CLASS NAME name CLASS name 会扩大CLASS NAME alpha to CLASS
函数中的 malloc 效果不佳

我不明白为什么整件事不起作用我只想做malloc在函数中func 当我从中返回时 malloc消失了我明白了检测到glibc test free 无效指针 0xb76ffff4 char p 使指针成为 main 的本地指针您可以将
在Javascript函数下调用php页面

是否可以在Javascript函数下调用php页面我有一个 javascript 函数如果有人按 OKK 我想调用 php 页面到目前为止这是我的代码 function show confirm var r confirm Do Y
使用 Jasmine 和 Karma 在 AngularJS 中依赖工厂进行单元测试失败

我正在使用 Jasmine 来测试 AngularJS 工厂我在测试具有依赖性的工厂时遇到困难我已经包含了我正在测试的工厂的代码和测试代码问题是我收到错误并且测试失败这是我看到的错误 Chrome 33 0 1750 Mac OS
在python中将拉丁字符串转换为unicode

我正在使用 scrapy 我抓取了一些网站并将抓取页面中的项目存储到 json 文件中但其中一些包含以下格式 l Holding it Together Fowler RV Trip S u00e9n u00e9gal Mali Nige

在python中将拉丁字符串转换为unicode

在python中将拉丁字符串转换为unicode 的相关文章

随机推荐

热门标签