使用 ElementTree 解析具有特殊字符的 XML

2023-12-13

我尝试使用 GET 服务进行解析ElementTree，其内容我不控制，包含非 UTF8 特殊字符：

respXML = response.content.decode("utf-8")

respRoot = ET.fromstring(respXML)

第二行抛出

xml.etree.ElementTree.ParseError：引用无效字符号：第 3591 行，第 39 列

如何确保无论字符集如何都能解析 XML，如果发现非法字符，我可以稍后对其运行替换？例如，是否存在一种包含所有内容的编码？我知道我可以搜索并替换输入 XML 字符串，但我更愿意先解析它，因为我的解析将其转换为更易于搜索的数据结构。

有问题的特殊字符是但我希望能够摄取任何角色。整个标签是<literal>Alzheimers disease</literal>.

在 @tdelaney 的帮助下，我通过将输入 XML 作为字符串进行清理来克服了这个障碍：

respXML = response.content.decode("utf-8")

scrubbedXML = re.sub('&.+[0-9]+;', '', respXML)

respRoot = ET.fromstring(scrubbedXML)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

xml

elementtree

使用 ElementTree 解析具有特殊字符的 XML 的相关文章

XPATH / XSLT：选择父节点的属性与另一个节点的属性匹配的节点

我正在尝试使用 XPath 和 XSLT 对以下 XML 进行转换
在本地托管 W3 XML 架构文件

我在一家公司工作我们有自己的 XML 语言有自己的一组模式来验证W3 架构 https www w3 org 2009 01 xml xsd 出于业务原因我需要在内部托管这些文件而不是依赖于网络托管版本我对 XML 模式缺乏经验
重新索引错误没有意义

I have DataFrames大小在 100k 到 2m 之间我正在处理这个问题的框架是如此之大但请注意我必须对其他框架执行相同的操作 gt gt gt len data 357451 现在这个文件是通过编译许多文件创建的所以它
pip 安装失败，SSL 证书验证失败 (_ssl.c:833)

我无法通过 pip install 安装任何外部 python 模块我已经正确安装了 python 但如果我使用 pip install 它会显示此错误这是我运行后的代码pip install pytesseract C Users 1
Python grpc protobuf 存根生成问题：--grpc_out: protoc-gen-grpc: 插件失败，状态代码 1

正如问题所说我从源代码编译了 grpc 并且也做了sudo pip install grpcio 但是那which grpc python plugin不返回任何内容这是一个问题因为route guide的grpc python示例
蜘蛛内的Scrapyd jobid值

Scrapy 框架 Scrapyd 服务器我在获取蜘蛛内部的 jobid 值时遇到一些问题将数据发布到后http localhost 6800 schedule json http localhost 6800 schedule jso
我应该为 MySQL 使用什么 python 3 库？ [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案据我所知 MySQLdb 仍然没有移植到 Python 3 pypy 上似乎有另一个名为 PyMySQL
使用 Pymongo 从 Windows 连接到 AWS 实例上的 MongoDB

此行反复抛出错误 client MongoClient ec2 12 345 67 89 us east 2 compute amazonaws com 27017 ssl True ssl keyfile C mongo pem 由于显而
如何从 Lua 调用 Python 函数？

我想从我的 lua 文件运行 python 脚本我怎样才能实现这个目标 Example Python代码 sum py file def sum from python a b return a b Lua code main lua f
了解 asyncio 已经运行的永久循环和挂起的任务

我在理解如何将新任务挂起到已经运行的事件循环中时遇到问题这段代码 import asyncio import logging asyncio coroutine def blocking cmd while True logging in
在 vim 折叠线中语法高亮 Python

我发现代码折叠 http en wikipedia org wiki Code folding帮助我更好地组织我的文件因此在我的底部 vimrc 我启用vim代码折叠 http vimdoc sourceforge net htmldo
使用 boto3 从 s3 下载时使用 filename 作为文件名

我正在使用 boto3 上传文件如下所示 client boto3 client s3 aws access key id id aws secret access key key client upload file tmp test
Flask 中的 import 和 extends 有什么区别？

我正在阅读 Flask Web 开发在例4 3中 extends base html import bootstrap wtf html as wtf 我想知道 extends 和 import 有什么区别我认为它们在用法上很相似在什
USSD 接口 -> java web 应用程序通信

请需要一些有关通过 USSD 接口进行 Java Web 应用程序通信的信息我们需要实施这一举措以覆盖拥有低端手机的贫困社区的目标客户群我正在研究 USSD 作为与我们当前的 Java EE Web 应用程序进行通信的一种方式我相信
如何绘制多类分类器的精度和召回率？

我正在使用 scikit learn 我想绘制精度和召回曲线我正在使用的分类器是RandomForestClassifier scikit learn 文档中的所有资源都使用二元分类另外我可以绘制多类的 ROC 曲线吗另外我只找到
检查多个 pd.DataFrame 是否相等

是否有一种 Pythonic 方式无循环或递归来检查是否超过两个pd DataFrames 例如 pd DataFrames 列表彼此相等吗就像是 all x equals dfs 0 for x in dfs with dfs数据
如何测试列表中多个值的成员资格

我想测试两个或多个值是否在列表中具有成员资格但我得到了意外的结果 gt gt gt a b in b a foo bar a True 那么 Python 可以同时测试列表中多个值的成员资格吗这个结果意味着什么 See also How
如何修改 contenteditable 元素的innerHTML

我使用 Selenium 与 Chrome driver 和 python3 6 来测试网站我在网页中有代码片段如下 div class 3F6QL 2WovP div class 39LWd Type a message div div
Scrapy的redirect_urls异常.KeyError

我是 Scrapy 和 Python 的新手最近推出了我的第一个蜘蛛有一个功能似乎以前有效但现在它只适用于我试图废弃的一些网站代码行是 item url direct response request meta redirect u
Python 队列 get()/task_done() 问题

我的消费者端队列 m queue get queue task done

随机推荐

如何将列表中的所有整数相乘[重复]

这个问题在这里已经有答案了你好我想将列表中的整数相乘例如 l 1 2 3 l 1 2 2 2 3 2 output l 2 4 6 所以我在网上搜索大多数答案都是关于将所有整数相乘例如 1 2 3 Try a 列表理解 l x 2
如何在多个视图控制器中从最后一个视图控制器移动到第一个视图控制器

嗨我是 iPhone 编程新手有人可以帮我吗我有多个 viewController 在第一个名为 HomeViewController 的 ViewController 中我调用了该方法 self presentModalViewC
密码分页总结果计数

我有一个巨大的密码查询我需要对其结果进行分页我想做的是在限制完成之前获取结果总数这是我的测试图 http console neo4j org id 6hq9tj 我尝试使用count o 在查询的所有部分但我总是得到相同的结果总数
无法在 android api 23 上打开位置？

我使用了以下代码请求许可的对话按预期显示但当我点击允许时它什么也没做日志消息不会显示为好像未授予权限因此我转到参数来验证位置是否为打开以及关闭难道不是因为我授予应用程序访问我的位置的权限而应该打开它吗如果我手动打开
如何为维恩图准备 Pandas df

我有一个 Pandas 数据框如下所示 ID VALUE A Today A Yesterday B Tomorrow C Tomorrow D Today D Tomorrow E Today
获取 XML 文档注释
如何收听N个频道？（动态选择语句）

要开始执行两个 goroutine 的无限循环我可以使用下面的代码收到消息后它将启动一个新的 goroutine 并永远持续下去 c1 make chan string c2 make chan string go DoStuff c
Schema.org 在一页上设置多个事件

是否有一种正确的方法可以在 Schema org 的一个页面上显示多个事件理想情况下我们不希望每个事件都有一个页面这是我们想要的示例结构 div div h2 Chili Cookoff h2 div div h3 span Manh
如何将 knockout.js 与 ASP.NET MVC ViewModel 结合使用？

Bounty 已经有一段时间了我仍然有几个悬而未决的问题我希望通过增加赏金也许这些问题能够得到解答如何将 html 助手与 knockout js 一起使用为什么需要准备好文档才能使其正常工作有关更多信息请参阅第一次编辑如果我
使用 prolog 解决 Caliban 问题

我正在努力使用学校的序言来解决逻辑难题线索如下布朗克拉克琼斯和史密斯是四位为他们的人民服务的重要公民作为建筑师银行家医生和律师的社区尽管不一定分别布朗比琼斯更保守但比史密斯更自由比比他年轻的人打高尔夫球更好并且拥有
通过重叠两个数据框，为每个组/id 创建子图

我有以下两个数据框 Load the required libraries import pandas as pd import matplotlib pyplot as plt Create dataset 1 data set 1 id
使用 Python 处理 XLSX 中的图像

我有一个 xlsx 有两张表一张在 G1 O25 中有一些数据我们称之为数据一张在 G1 O25 的单元格中插入了一些图像我们称之为图像我的目标是使用 Python 通过图像过滤数据我想要一个弹出窗口显示单元格 G1 中的
在对象中声明函数名，为什么？ [复制]

这个问题在这里已经有答案了正在研究一些 js 代码性能并看到了这种方法 window sample foo function foo a b code goes here bar function bar a b code goes he
support-library-v4 的依赖问题

我想在 Eclipse 中导入 2 个现有项目作为库这两个库项目都依赖于support library v4并有一个 jar 文件因此当我导入它们时系统会要求我修复依赖项我收到此错误 Jar mismatch Fix your d
在类似 C 的语言中，空格是否被视为标记？

空格是否被视为 C 类语言中的一种标记尤其对 C 感兴趣 K R 中的参考手册对此似乎有点含糊不空格不会被视为令牌从http c0x coding guidelines com 6 4 html 标准文本草案不幸的是实际标准需要花
Fortran语言中的多态性

我有一个类似的代码 Module C sys use class A implicit none Private Type public C sys type private logical Ao set false type A Ao C
如何从用户控件处理页面事件？ (VB.net)

我希望在用户控件生命周期的预加载阶段执行一些代码但是预加载事件仅适用于 Page 对象因此我将以下方法添加到我的用户控件中 Private Sub Page PreLoad ByVal sender As Object ByVal
角度平移即时方法不起作用

我们有一个带有角度翻译的网站它工作完美我们有一个变量我们想用某种语言键来固定它假设网站的语言有 en 和 zh 作为选项我希望无论语言选择如何某个翻译都以 zh 返回通过浏览API参考我找到了一种名为 Instant 的方法
C++ 宏乘法是怎么回事

define MAX 265 std cout lt lt 0 MAX lt lt std endl to my surprise the output is 9 rather than 0 这个 C 宏乘法有什么问题 EDIT 以下是完整
使用 ElementTree 解析具有特殊字符的 XML

我尝试使用 GET 服务进行解析ElementTree 其内容我不控制包含非 UTF8 特殊字符 respXML response content decode utf 8 respRoot ET fromstring respXML 第

使用 ElementTree 解析具有特殊字符的 XML

使用 ElementTree 解析具有特殊字符的 XML 的相关文章

随机推荐

热门标签