我尝试使用 GET 服务进行解析ElementTree
,其内容我不控制,包含非 UTF8 特殊字符:
respXML = response.content.decode("utf-8")
respRoot = ET.fromstring(respXML)
第二行抛出
xml.etree.ElementTree.ParseError:引用无效字符号:第 3591 行,第 39 列
如何确保无论字符集如何都能解析 XML,如果发现非法字符,我可以稍后对其运行替换?例如,是否存在一种包含所有内容的编码?我知道我可以搜索并替换输入 XML 字符串,但我更愿意先解析它,因为我的解析将其转换为更易于搜索的数据结构。
有问题的特殊字符是
但我希望能够摄取任何角色。整个标签是<literal>Alzheimers disease</literal>
.
在 @tdelaney 的帮助下,我通过将输入 XML 作为字符串进行清理来克服了这个障碍:
respXML = response.content.decode("utf-8")
scrubbedXML = re.sub('&.+[0-9]+;', '', respXML)
respRoot = ET.fromstring(scrubbedXML)
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)