在 Python 中将 XML/HTML 实体转换为 Unicode 字符串 [重复]

2024-01-18

我正在做一些网页抓取，网站经常使用 HTML 实体来表示非 ASCII 字符。 Python 是否有一个实用程序可以接受带有 HTML 实体的字符串并返回 unicode 类型？

例如：

我回来了：

&#x01ce;

代表一个带有声调标记的“ǎ”。在二进制中，这表示为 16 位 01ce。我想将html实体转换为值u'\u01ce'

标准库自己的 HTMLParser 有一个未记录的函数 unescape() ，它的作用完全符合您的想法：

直至 Python 3.4：

import HTMLParser
h = HTMLParser.HTMLParser()
h.unescape('&copy; 2010') # u'\xa9 2010'
h.unescape('&#169; 2010') # u'\xa9 2010'

Python 3.4+：

import html
html.unescape('&copy; 2010') # u'\xa9 2010'
html.unescape('&#169; 2010') # u'\xa9 2010'

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

html

entities

在 Python 中将 XML/HTML 实体转换为 Unicode 字符串 [重复] 的相关文章

揭秘sharedctypes性能

在 python 中可以在多个进程之间共享 ctypes 对象然而我注意到分配这些对象似乎非常昂贵考虑以下代码 from multiprocessing import sharedctypes as sct import ctypes
Python、subprocess、call()、check_call 和 returncode 来查找命令是否存在

我已经弄清楚如何使用 call 让我的 python 脚本运行命令 import subprocess mycommandline lumberjack sleep all night work all day subprocess cal
如何在 Azure 数据工厂 - Databricks 中使用 continuation_token 获取 ADF Pipeline 运行详细信息的下一页？

我在用 adf client pipeline runs query by factory resourceGroupName 工厂名称过滤器参数的方法azure mgmt datafactory DataFactoryManageme
Python：我不明白 sum() 的完整用法

当然我明白你使用 sum 与几个数字然后它总结所有但我正在查看它的文档我发现了这一点 sum iterable start 第二个参数 start 的作用是什么这太尴尬了但我似乎无法通过谷歌找到任何示例并且对于尝试学习该语言的
为什么我应该使用 WSGI？

使用 mod python 一段时间了我读了越来越多关于 WSGI 有多好的文章但没有真正理解为什么那么我为什么要切换到它呢有什么好处这很难吗学习曲线值得吗为了用 Python 开发复杂的 Web 应用程序您可能会使用更全面
`pyqt5'错误`元数据生成失败`

我正在尝试安装pyqt5使用带有 M1 芯片和 Python 3 9 12 的 mac 操作系统我怀疑M1芯片可能是原因我收到一个错误metadata generation failed 最小工作示例 directly in the t
在 Spyder 的变量资源管理器中查看局部变量

我是 python 新手正在使用 Spyder 的 IDE 我欣赏它的一项功能是它的变量资源管理器然而根据一些研究我发现它只显示全局变量我找到的解决方法是使用检查模块 import inspect local vars def m
即使在包裹后也具有等宽的弹性项目

是否可以制作一个像这样的纯 CSS 解决方案物品有一些min width 它们应该动态增长以填充所有容器宽度然后换行到新行列表中的所有项目都应具有相同的宽度现在看起来是这样的这就是我希望它看起来像的样子我已经手动管理这些底部项目
禁用特定 div 上的 Tab 键

我有以下结构 div div Some content div div Some content div div 我想禁用 div2 上的 tab 键我的意思是按下 tab 键时 div2 的元素不会获得焦点有没有简单的方法可以使用
从 python 检测 macOS 中的暗模式

我正在编写一个 PyQt 应用程序我必须添加一个补丁以便在启用暗模式的 Macos 上可以读取字体 app QApplication Fix for the font colours on macos when running dark
带有 RotatingFileHandler 的 Python 3 记录器超出 maxBytes 限制

我使用以下代码来限制日志文件的大小最小示例 import logging from logging handlers import RotatingFileHandler Set up logfile and message loggin
OSX 上的 locale.getlocale() 问题

我需要获取系统区域设置来执行许多操作最终我想使用 gettext 翻译我的应用程序我打算在 Linux 和 OSX 上分发它但我在 OSX Snow Leopard 上遇到了问题 python Python 2 5 2 r252 60
元素和 svg 形状之间的白线

大家好我正在使用由 shapedivider 生成的 svg 整形器您可以看到有一条白线我不知道为什么它在那里以及如何删除它请你帮助我好吗有形状分隔符的代码 custom shape divider bottom 1640714
HTML 输入 - 名称与 ID [重复]

这个问题在这里已经有答案了使用 HTML 时
计算互相关函数？

In R 我在用ccf or acf计算成对互相关函数以便我可以找出哪个移位给我带来最大值从它的外观来看 R给我一个标准化的值序列 Python 的 scipy 中是否有类似的东西或者我应该使用fft模块目前我正在这样做 xcor
操作错误：(sqlite3.OperationalError) SQL 变量太多，同时将 SQL 与数据帧一起使用

我有一个熊猫数据框如下所示 activity User Id 0 VIEWED MOVIE 158d292ec18a49 1 VIEWED MOVIE 158d292ec18a49 2 VIEWED MOVIE 158d292ec18a4
[cocos2d-x]当我尝试在 Windows 10 中运行“python android-build.py -p 19 cpp-tests”时出现错误

当我尝试运行命令时python android build p cpp tests 我收到如图所示的错误在此之前我收到了另一条关于 Android SDK Tools 版本兼容性的错误消息所以我只是将 sdk 版本从 26 0 0
在 HTML5 iOS 7 / iOS 8 中显示十进制键盘

经过几个小时的搜索后我只是有一个简单的问题是否有可能在网络浏览器输入字段中显示小数键盘 input type number 只显示数字但我需要在左下角使用逗号或点我尝试过任何事情 pattern step等等但没有显示十进制键盘
强制输入数字小数位

我想强制
tkinter：打开一个带有按钮提示的新窗口[关闭]

Closed 这个问题需要调试细节 help minimal reproducible example 目前不接受答案用户如何按下 tkinter GUI 中的按钮来打开新窗口我只需要非常简单的解决方案如果代码也能被解释那就太好了这

随机推荐

示例代码 MoviePlayer 问题

我之前已经发布过这个问题但无法得到答案所以我再次发布是关于从 iPhone 开发者网站下载的 MoviePlayer 示例当我按下电影播放器控制模式中的完成按钮时电影完成并退出到主窗口查看同时调用了moviePlayBac
tkinter 列表框用 python 拖放

谁能指出我在哪里可以找到有关制作能够拖放项目以重新排列的列表框的信息我发现了一些与 Perl 相关的内容但我对该语言一无所知而且我对 tkinter 还很陌生所以这很令人困惑我知道如何生成列表框但我不确定如何通过拖放对其进行重新
没有 robolectric 的模拟 android.os.BaseBundle

我正在尝试对此代码进行单元测试 Bundle cidParam String accountId Bundle params new Bundle 1 params putString Params CID accountId return
有没有办法通过Tag属性获取XAML元素？

Is there any way to get the XAML element by its tag value 我的代码是这样的
Swagger 3.0.0 codegen 失败 java.lang.RuntimeException：缺少 swagger 输入或配置

我使用 swagger 指定我的 API 我之前使用的是 2 0 现在根据我使用离线 swagger 编辑器指定 3 0 0 规范的文档有新版本 3 0 0 准备好后我下载了 json 文件我将使用它生成 spring 服务器代码我
使用 NHibernate 对 Informix 数据库执行本机 SQL 查询时如何转义冒号 (:) 字符？

我正在尝试使用 NHibernate 创建查询对 Informix 数据库执行一组本机 SQL 查询然而如果查询包含冒号它们被认为是保留字符 NHibernate 设置为更改查询因此查询失败这是本机 SQL 查询的示例 CREA
Google 大查询 API 返回“为此项目扫描了太多免费查询字节”

我正在使用 Google 的大型查询 API 从他们的 n gram 数据集中检索结果因此我发送了多个查询 SELECT ngram from trigram dataset where ngram natural languagepr
Web 服务集成 - 如何访问响应类中的请求对象？

我有一个访问网络服务的代码该代码又给我返回一个响应
Maven - 发布多个子模块/工件

我有一个 Kotlin 项目组织如下 project name gt project name core gt project name domain 我的 gradle 发布脚本设置如下 publishing repositories
如何在 Android 应用程序中查看内部存储中的 PDF 文件？

我制作了一个应用程序在其中我可以通过 URL 成功从互联网下载 pdf 文件并通过创建文件夹 app Pdf 将它们保存到应用程序的内部存储中但现在我想使用第三方应用程序如 adobe pdf 查看器等打开该文件我尝试了很多方
始终 -bash：gomobile：找不到命令

我已经安装了 gomobile Users GaryChan go bin gomobile 我的项目是 Users GaryChan go src abc com project 当我尝试运行构建 android SDK 时 Users
如何将 Azure 资源注册为 Azure Active Directory 中的应用程序？

我有一个 Azure CDN 它有一个自定义域我尝试注册自己的证书以支持 HTTPS 我正在尝试按照此处的说明进行操作 https learn microsoft com en us azure cdn cdn custom ssl ta
有没有开源/免费的 .NET 网站脏话过滤器？

您是否知道任何开源免费的 NET 脏话过滤器准确地说是 ASP NET MVC 我搜索了谷歌但找不到任何结果如果可能的话我想避免完全自己实现它很容易犯错误或忽略某些事情多好的问题啊我本来会将此添加为评论但我是个 Updat
在android中编辑文本焦点

在我的应用程序中我编辑文本如下 EditText1 EditText2 EditText3 EditText4 EditText5 EditText6 在 xml 中我声明了android imeOptions actionNext 我也
Android sp 与 dp 文本 - 如何调整“规模”以及支持的理念是什么

因此我们从许多其他帖子中知道在 Android 中我们应该使用 sp 而不是 dp 来表示文本并且我们知道这样做的原因是尊重用户的偏好但这些偏好到底是什么用户如何更改此设置我无法通过手机上的设置找到任何参考我希望在辅助功能
删除所有空格并将 SQL 中的多行合并为单行

在 SQL Server 2014 中删除字符串中所有空格的最佳方法是什么我的字符串是 Maximize your productivity for building engaging beautiful web mapping appl
如何提高Scrapy爬取速度？

我正在使用 Scrapy 抓取网站并将数据提取到 json 文件但我发现对于某些网站抓取工具需要很长时间才能抓取完整的网站我的问题是如何才能最大限度地减少爬行所需的时间尝试调整CONCURRENT ITEMS CONCURRENT
如何在 4gl 中使用变量进行“分组”

有没有办法在 4gl 查询中按表中的字段对记录进行分组 My code define variable v invoice as inte no undo define variable v sell price as decimal no
Lua 的 `package.config` 中的最后几行是什么意思？

The Lua 规范说的是package config http www lua org manual 5 2 manual html pdf package config 编号是我添加的第一行是目录分隔符字符串默认为对于 Windo
在 Python 中将 XML/HTML 实体转换为 Unicode 字符串 [重复]

这个问题在这里已经有答案了我正在做一些网页抓取网站经常使用 HTML 实体来表示非 ASCII 字符 Python 是否有一个实用程序可以接受带有 HTML 实体的字符串并返回 unicode 类型例如我回来了 x01ce 代表一个

在 Python 中将 XML/HTML 实体转换为 Unicode 字符串 [重复]

在 Python 中将 XML/HTML 实体转换为 Unicode 字符串 [重复] 的相关文章

随机推荐

热门标签