如何让Python bs4在XML上正常工作？

2024-04-28

我正在尝试使用 Python 和 BeautifulSoup 4 (bs4) 将 Inkscape SVG 转换为某些专有软件的类似 XML 的格式。我似乎无法让 bs4 正确解析一个最小的示例。我需要解析器尊重自闭标签，处理 unicode，而不是添加 html 内容。我认为用 selfClosingTags 指定“lxml”解析器应该可以做到这一点，但是不行！一探究竟。

#!/usr/bin/python
from __future__ import print_function
from bs4 import BeautifulSoup

print('\nbs4 mangled XML:')
print(BeautifulSoup('<x><c name="b1"><d value="a"/></c></x>',
    features = "lxml", 
    selfClosingTags = ('d')).prettify())

print('''\nExpected output:
<x>
 <c name="b1">
  <d value="a"/>
 </c>
</x>''')

这打印

bs4 mangled XML:
/usr/local/lib/python2.7/dist-packages/beautifulsoup4-4.4.1-py2.7.egg/bs4/__init__.py:112: UserWarning: BS4 does not respect the selfClosingTags argument to the BeautifulSoup constructor. The tree builder is responsible for understanding self-closing tags.
<html>
 <body>
  <x>
   <c name="b1">
    <d value="a">
    </d>
   </c>
  </x>
 </body>
</html>

Expected output:
<x>
 <c name="b1">
  <d value="a"/>
 </c>
</x>

我已经查看了相关的 StackOverflow 问题，但没有找到解决方案。

这个问题 https://stackoverflow.com/questions/15980757/how-to-prevent-beautifulsoup4-from-adding-extra-htmlbody-tags-to-the-soup解决了 html 样板，但仅用于解析 html 的子部分，而不用于解析 xml。

这个问题 https://stackoverflow.com/questions/4844827/can-beautifulsoup-parse-xml-when-certain-tag-is-self-closing-and-not-at-the-same涉及让 beautifulsoup 4 尊重自关闭标签，并且没有可接受的答案。

这个问题 https://stackoverflow.com/questions/2211589/selfclosingtags-in-beautifulsoup似乎表明传递 selfClosingTags 参数应该有所帮助，但正如您所看到的，这现在会生成一个警告BS4 does not respect the selfClosingTags argument，并且自闭合标签被破坏。

这个问题 https://stackoverflow.com/questions/14961497/how-to-get-beautifulsoup-4-to-respect-a-self-closing-tag建议使用“xml”（而不是“lxml”）将导致空标签自动关闭。这might适合我的目的，但将“xml”解析器应用于我的实际数据会失败，因为文件包含“xml”解析器不支持的unicode。

“xml”与“lxml”不同吗？标准中是否有“xml”cannot支持unicode和“lxml”cannot包含自闭合标签？也许我只是想做一些被禁止的事情？

如果您希望结果输出为xml然后将其解析为这样。你的xml数据可以包含unicode，但是，您需要声明编码：

#!/usr/bin/env python
# -*- encoding: utf8 -*-

The SelfClosingTags不再被认可 http://www.crummy.com/software/BeautifulSoup/bs4/doc/#xml。相反，Beautifulsoup 将空标签视为空元素标签。如果将子级添加到空元素标记，它就不再是空元素标记。

将您的函数更改为如下所示应该可以工作（除了编码之外）：

print(BeautifulSoup('<x><c name="b1"><d value="a®"/></c></x>',
    features = "xml").prettify())

Result:

<?xml version="1.0" encoding="utf-8"?>
<x>
 <c name="b1">
  <d value="aÂŽ"/>
 </c>
</x>

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何让Python bs4在XML上正常工作？的相关文章

使用 pdfkit 和 FastAPI 下载 PDF 文件

我将使用 FastAPI 创建一个 API 将HTML页面到 PDF 文件使用pdfkit 但是它将文件保存到我的本地磁盘当我在线提供此API后用户如何将该PDF文件下载到他们的计算机上 from typing import Opt
如何在anaconda python 3.6上安装tensorflow

我使用 anaconda 包安装了新版本的 python 3 6 但是我无法安装张量流总是收到这样的错误 tensorflow gpu 1 0 0rc2 cp35 cp35m win amd64 whl 在此平台上不受支持如何在 ana
如何从 Windows 7 PC 上完全卸载 Python 2.7

从这里安装了Python 2 7 https www python org downloads release python 279 https www python org downloads release python 279 然后我
R.scale() 和 sklearn.preprocessing.scale() 之间的区别

我目前正在将数据分析从 R 转移到 Python 当在 R 中缩放数据集时我将使用 R scale 根据我的理解它将执行以下操作 x mean x sd x 为了替换该函数我尝试使用 sklearn preprocessing sca
Python 中 eval("input()") 和 eval(input()) 之间的区别

我正在尝试以下功能 x eval input 输入为 123 x 的类型也是int 它工作正常 In 22 x eval input enter enter 123 In 24 print type x
如何在 Django 中像应用程序一样从配置中注册 Flask 蓝图？

如何从我的配置中注册 Flask 蓝图就像 Django 中的应用程序一样我想在配置文件中定义蓝图它将自动注册 config py BLUEPRINTS news files 实际上我一直在一个暂定名为的项目中勾勒出类似的东西臀部口袋
Python3 - 如何将字符串转换为十六进制

我正在尝试将字符串逐个字符转换为十六进制但我无法在Python3中弄清楚它在较旧的 python 版本中我的以下内容有效 test This is a test for c in range 0 len test print 0x s
错误：tensorflow：无法匹配检查点的文件

我正在训练一个张量流模型在每个时期之后我都会保存模型状态并腌制一些数组到目前为止我的模型执行了 2 个纪元并且保存状态的文件夹包含以下文件 checkpoint model e knihy preprocessed txt e0 c
无法使用 wxPython 打开在 folium 中生成的本地 HTML 文件

我目前正在尝试将 GPS 坐标绘制为地图上的标记并在 wxPython 中显示结果我使用 folium 绘制坐标标记并生成 HTML 文件 import folium fmap folium Map 43 5321 172 6362 z
NumPy 根据另一个数组中的值对第三个数组中的每个匹配元素求和一个数组

我有两个 numpy 数组一个包含值另一个包含每个值类别 values np array 1 2 3 4 5 6 7 8 9 10 valcats np array 101 301 201 201 102 302 302 202 102
Python 中的 Firebase 身份验证时出现 KeyError：“databaseURL”

相信你做得很好我是 firebase 的新手正在尝试进行用户身份验证我已经安装了pyrebase4并在firebase控制台上创建了一个项目我还启用了使用电子邮件和密码登录并尝试连接我的应用程序下面是我正在尝试的代码 impo
AppEngine 警告 - OpenBLAS 警告 - 无法确定该系统上的 L2 缓存大小

我尝试在 GC AppEngine 上部署应用程序部署过程中没有错误但应用程序无法运行仅显示加载页面日志中唯一一个奇怪的原始日志 OpenBLAS WARNING could not determine the L2 cache s
Python-使用元组作为列表索引[重复]

这个问题在这里已经有答案了我有一个元组列表 tuples list 1 0 2 3 3 2 2 0 我想访问二维数组的元素a例如使用其中一些元组 for i in range 3 print a tuples list i 应该输出的值
获取列的 [0, x] 元素的最小值

我需要计算一列其中值是对其他列进行矢量化运算的结果 df new col df col1 min 0 df col2 然而事实证明我不能像上面的语法一样使用 min 那么获得 pandas 列的零和给定值之间的最小值的正确方法是什么
如何仅在按下某个键时触发鼠标单击？在Python中

我想制作一个程序或者当我单击某个键时鼠标会自动单击只要我单击该键如果我不单击该键它就会停止我不希望只在触摸按键一次时才发生点击而是只要按住按键就发生点击也可以像雷蛇突触鼠标一样按下鼠标左键触发点击任何想法 EDIT 1 这
带属性的 XML 模式限制

在XML Schema中如何创建元素Age具有restriction允许在元素内部写入最大值为 10 最小值为 1 的整数Age还有元素Age有属性
Paramiko ValueError“p 的长度必须恰好为 1024、2048 或 3072 位”

我正在尝试使用 Python 脚本连接 SFTP 由于 p 错误我无法连接 import paramiko client paramiko SSHClient client load system host keys client con
`numpy.diff` 和 `scipy.fftpack.diff` 在微分时给出不同的结果

我正在尝试计算一些数据的导数并且正在尝试比较有限差分的输出和谱方法的输出但结果却截然不同我无法弄清楚到底为什么考虑下面的示例代码 import numpy as np from scipy import fftpack as sp
在不同进程之间共享列表？

我有以下问题我编写了一个函数它将列表作为输入并为列表中的每个元素创建一个字典然后我想将这本字典附加到一个新列表中这样我就得到了一个字典列表我正在尝试为此生成多个进程我的问题是我希望不同的进程访问由其他进程更新的字典列表例如
如何通过解析导入来组合并获取单个 Python 文件

我正在尝试获取单个 Python 文件作为输出我有一个 Python 脚本其中有多个此类导入 from that import sub 导入来自所有本地模块而不是来自系统或 Python 库有什么方法可以解决这些问题并获得一个完整的

随机推荐

Java 中是否有等效于 C++ 的析构函数？ [复制]

这个问题在这里已经有答案了最简单的设计如下 class Session Timer t new Timer 每当 Session分配完毕后我在其中启动一个计时器计时器将在 10 20 分钟后到期现在假设如果Session在计时器到
C++ 强制转换为 void 的目的是什么？ [复制]

这个问题在这里已经有答案了可能的重复将未使用的返回值强制转换为 void https stackoverflow com questions 689677 casting unused return values to void 我读了
如何恢复默认状态栏颜色？

在我的一项活动中我不希望状态栏有任何颜色我希望它在我的应用程序运行之前保持为任何颜色我可以将其更改为黑色但黑色不是默认值默认值是透明的我不想尝试找出哪种透明度是正确的因为它在其他人的手机上可能有所不同所以我想在此特定活动中基
查找字符串中只出现一次的字符

我正在用 PHP 编写一个算法来解决给定的数独难题我已经设置了一个带有两个类的面向对象的实现 Square9x9 棋盘上每个单独图块的类以及Sudoku类其矩阵为Squares 代表董事会我正在使用的算法的实现是一种三层方法第一步
var chat = $.connection.chat; 出现对象未定义错误使用 SignalR 时

我尝试安装 SignalR 库来创建示例聊天应用程序我相信我已遵循文档中给出的所有步骤我不确定失败的原因是什么创建聊天对象时失败我正在使用 VS2010 并使用 VS2010 包下载实用程序下载 SignalR 有人对此有疑问吗谢
jq：删除具有空字符串值的键

我有以下 JSON data NAME Test 1 ID 1 IP 192 168 1 2 80 NAME Test 2 ID 2 IP NAME Test 3 ID 3 IP 192 168 1 3 80 NAME Test 4 ID
使用简洁形式的 NSManagedObjectID URI？

在我的应用程序中我使用 Core Data 以及不使用 Core Data 的附加 sqlite 数据库在这个附加数据库中我有一些列存储对NSManagedObject实例通过每个实例的NSManagedObjectID 我得到一个实
带参数和不带参数的 super() 有什么区别？

我遇到了一个使用的代码super 方法有两种不同的方式我不明白逻辑上有什么区别我现在正在学习pygame模块我有一个任务来创建一个类Ball它继承自Sprite这是一个来自pygame模块如果我没记错的话我遇到了这段代码 impo
通过 UIActivityViewController 与 WhatsApp 共享时按钮中的文本颜色错误

当我与 WhatsApp 分享短信时UIActivityViewController就我而言共享的第二个屏幕的按钮颜色错误第一屏就OK了这个问题已经讨论过很多次了可以在这里找到很多答案当从 iOS7 中的 UIActivityVi
将显示的模式（路径）绑定到数据模型/如何使路径具有相同的维度

背景随意跳过此我正在构建一个处理马匹马匹主人以及主人的比赛颜色丝绸的程序这个问题是关于一个UserControl 称为SilksControl充当视图JockeySilks 为了表示丝绸我使用以下枚举类 public clas
使用 Xamarin.Forms 和 .net Standard 进行 Firebase 电子邮件/密码身份验证 (VS2017)

Firebase 电子邮件密码身份验证是否可以使用通用代码 net 标准的 Android 和 IOS 通用代码进行开发我已经设计了具有 XAML 格式的简单登录页面但我没有找到任何与 Firebase 身份验证与 Xamarin F
类似 Instagram 的强制触摸弹出模式

我正在尝试复制 Instagram 的强制触摸功能其中 1 将手指放在图像上图像会变暗悬停效果简单 2 用力按一下就会出现内容的弹出模式预览 3 用力按压模式将扩展至全屏我在使用 Ionic 4 Cordova 3d touc
microsoft.visualbasic.fileio 不存在

我使用 NET Framework 4 0 在 Visual Studio 2012 中构建 C Web 应用程序我添加了 Microsoft VisualBasic 作为对该项目的引用我在使用以下代码行时遇到问题使用 Microso
如何在同一活动中为底部导航和导航抽屉创建侦听器？

这是我的java代码 public class HomeActivity extends AppCompatActivity implements NavigationView OnNavigationItemSelectedListene
当Python只应附加到一个列表时，它附加到两个列表

我有一个名为团队的列表其中包含两个对象这些对象是同一类的对象并且它们都有一个成员列表我将单独附加到这些列表中请参阅 Fight AddParticipant 但我附加的两个参与者对象似乎最终出现在两个团队对象中这是意外行
不要使用静态转换进行算术转换（cpp-core-guidelines）

msvc 的 cpp 核心指南代码分析器告诉我警告 C26472 不要使用static cast用于算术转换使用大括号初始化 gsl narrow cast or gsl narrow 类型1 对于这个片段 static cast
在 FFmpeg 中使用 -filter_complex amerge 时混合流

我目前遇到 ffmpeg 及其过滤器之一的问题我正在尝试将视频的 2 个音频流合并为一个为此我尝试了这个命令 ffmpeg i home maniaplanet Videos ManiaPlanet 2014 08 21 20 09 1
JAX-WS 和 Guice 3

是否有某种方法可以获取使用 JAX WS 创建的 SOAP Web 服务类并使用 Guice 3 0 guice persist 事务或什至只是简单的依赖注入来注入它们 guiceyfruit 包提供了一个 GuiceManaged 注释
openssh-server 未在 Docker 容器中启动

我有一个奇怪的问题我无法 ssh 到具有 IP 地址的 docker 容器172 17 0 61 我收到以下错误 ssh 172 17 0 61 ssh connect to host 172 17 0 61 port 22 Connec
如何让Python bs4在XML上正常工作？

我正在尝试使用 Python 和 BeautifulSoup 4 bs4 将 Inkscape SVG 转换为某些专有软件的类似 XML 的格式我似乎无法让 bs4 正确解析一个最小的示例我需要解析器尊重自闭标签处理 unicode

如何让Python bs4在XML上正常工作？

如何让Python bs4在XML上正常工作？ 的相关文章

随机推荐

热门标签

如何让Python bs4在XML上正常工作？的相关文章