Beautiful Soup - `findAll` 没有捕获 SVG 中的所有标签（`ElementTree` 可以）

2024-03-14

我试图通过修改来生成分区统计图SVG map http://upload.wikimedia.org/wikipedia/commons/5/5f/USA_Counties_with_FIPS_and_names.svg描绘了美国的所有县。基本方法是通过流动的数据 http://flowingdata.com/2009/11/12/how-to-make-a-us-county-thematic-map-using-free-tools/。由于 SVG 基本上只是 XML，因此该方法利用美丽汤 http://www.crummy.com/software/BeautifulSoup/bs4/doc/ parser.

问题是，解析器并没有捕获所有pathSVG 文件中的元素。以下仅捕获了 149 条路径（超过 3000 条路径）：

#Open SVG file
svg=open(shp_dir+'USA_Counties_with_FIPS_and_names.svg','r').read()

#Parse SVG
soup = BeautifulSoup(svg, selfClosingTags=['defs','sodipodi:namedview'])

#Identify counties
paths = soup.findAll('path')

len(paths)

然而，从物理检查和事实来看，我知道还存在更多的问题元素树 https://docs.python.org/2/library/xml.etree.elementtree.html方法使用以下例程捕获 3,143 个路径：

#Parse SVG
tree = ET.parse(shp_dir+'USA_Counties_with_FIPS_and_names.svg')

#Capture element
root = tree.getroot()

#Compile list of IDs from file
ids=[]
for child in root:
    if 'path' in child.tag:
        ids.append(child.attrib['id'])

len(ids)

我还没想好如何写ElementTree以一种不完全混乱的方式对象。

#Define style template string
style='font-size:12px;fill-rule:nonzero;stroke:#FFFFFF;stroke-opacity:1;'+\
        'stroke-width:0.1;stroke-miterlimit:4;stroke-dasharray:none;'+\
        'stroke-linecap:butt;marker-start:none;stroke-linejoin:bevel;fill:'

#For each path...
for child in root:
    #...if it is a path....
    if 'path' in child.tag:
        try:
            #...update the style to the new string with a county-specific color...
            child.attrib['style']=style+col_map[child.attrib['id']]
        except:
            #...if it's not a county we have in the ACS, leave it alone
            child.attrib['style']=style+'#d0d0d0'+'\n'

#Write modified SVG to disk
tree.write(shp_dir+'mhv_by_cty.svg')

上面的修改/写入例程会产生这个怪物：

我的主要问题是：为什么 BeautifulSoup 未能捕获所有path标签？其次，为什么要使用ElementTree对象有所有这些课外活动正在进行吗？任何建议将不胜感激。

您需要执行以下操作：

升级到beautifulsoup4 http://www.crummy.com/software/BeautifulSoup/bs4/doc/:
```
pip install beautifulsoup4 -U
```
将其导入为：
```
from bs4 import BeautifulSoup
```
安装最新的lxml module:
```
pip install lxml -U
```
明确指定lxml作为解析器：
```
soup = BeautifulSoup(svg, 'lxml')
```

Demo:

>>> from bs4 import BeautifulSoup
>>> 
>>> svg = open('USA_Counties_with_FIPS_and_names.svg','r').read()
>>> soup = BeautifulSoup(svg, 'lxml')
>>> paths = soup.findAll('path')
>>> len(paths)
3143

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Beautiful Soup - `findAll` 没有捕获 SVG 中的所有标签（`ElementTree` 可以）的相关文章

元组有什么用？

我现在正在学习 Python 课程我们刚刚介绍了元组作为数据类型之一我阅读了它的维基百科页面但是我无法弄清楚这种数据类型在实践中会有什么用处我可以提供一些需要一组不可变数字的示例吗也许是在 Python 中这与列表有何不同每
如何用python脚本控制TP LINK路由器

我想知道是否有一个工具可以让我连接到路由器并关闭它然后从 python 脚本重新启动它我知道如果我写 import os os system ssh l root 192 168 2 1 我可以通过 python 连接到我的路由器但是
将 python2.7 与 Emacs 24.3 和 python-mode.el 一起使用

我是 Emacs 新手我正在尝试设置我的 python 环境到目前为止我已经了解到在 python 缓冲区中使用 python mode el C c C c将当前缓冲区的内容加载到交互式 python shell 中显然使用了什么
如何将张量流模型部署到azure ml工作台

我在用Azure ML Workbench执行二元分类到目前为止一切正常我有很好的准确性我想将模型部署为用于推理的 Web 服务我真的不知道从哪里开始 azure 提供了这个doc https learn microsoft co
如何在 Python 中解析和比较 ISO 8601 持续时间？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我正在寻找一个 Python v2 库它允许我解析和比较 ISO 8601 持续时间may处于不同单
Python beautifulsoup 仅限 1 级文本

我看过其他 beautifulsoup 得到相同级别类型的问题看来我的有点不同这是网站我正试图拿到右边那张桌子请注意表的第一行如何展开为该数据的详细细分我不想要那个数据我只想要最顶层的数据您还可以看到其他行也可以展开但在本例
从Python中的字典列表中查找特定值

我的字典列表中有以下数据 data I versicolor 0 Sepal Length 7 9 I setosa 0 I virginica 1 I versicolor 0 I setosa 1 I virginica 0 Sepal
如何在不丢失注释和格式的情况下更新 YAML 文件 / Python 中的 YAML 自动重构

我想在 Python 中更新 YAML 文件值而不丢失 Python 中的格式和注释例如我想改造 YAML 文件 value 456 nice value to value 6 nice value 界面类似于 y yaml load
“隐藏”内置类对象、函数、代码等的名称和性质[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我很好奇模块中存在的类builtins无法直接访问的例如 type lambda 0 name function of module
如何使用python在一个文件中写入多行

如果我知道要写多少行我就知道如何将多行写入一个文件但是当我想写多行时问题就出现了但是我不知道它们会是多少我正在开发一个应用程序它从网站上抓取并将结果的链接存储在文本文件中但是我们不知道它会回复多少行我的代码现在如下 r
Numpy - 根据表示一维的坐标向量的条件替换数组中的值

我有一个data多维数组最后一个是距离另一方面我有距离向量r 例如 Data np ones 20 30 100 r np linspace 10 50 100 最后我还有一个临界距离值列表称为r0 使得 r0 shape Dat
如何在 Windows 命令行中使用参数运行 Python 脚本

这是我的蟒蛇hello py script def hello a b print hello and that s your sum sum a b print sum import sys if name main hello sys
根据列 value_counts 过滤数据框（pandas）

我是第一次尝试熊猫我有一个包含两列的数据框 user id and string 每个 user id 可能有多个字符串因此会多次出现在数据帧中我想从中导出另一个数据框一个只有那些user ids列出至少有 2 个或更多string
Python：XML 内所有标签名称中的字符串替换（将连字符替换为下划线）

我有一个格式不太好的 XML 标签名称内有连字符我想用下划线替换它以便能够与 lxml objectify 一起使用我想替换所有标签名称包括嵌套的子标签示例 XML
Python ImportError：无法导入名称 __init__.py

我收到此错误 ImportError cannot import name life table from cdc life tables C Users tony OneDrive Documents Retirement retirem
实现 XGboost 自定义目标函数

我正在尝试使用 XGboost 实现自定义目标函数在 R 中但我也使用 python 所以有关 python 的任何反馈也很好我创建了一个返回梯度和粗麻布的函数它工作正常但是当我尝试运行 xgb train 时它不起作用然后我
将 Python 中的日期与日期时间进行比较

所以我有一个日期列表 datetime date 2013 7 9 datetime date 2013 7 12 datetime date 2013 7 15 datetime date 2013 7 18 datetime date
模拟pytest中的异常终止

我的多线程应用程序遇到了一个错误主线程的任何异常终止例如未捕获的异常或某些信号都会导致其他线程之一死锁并阻止进程干净退出我解决了这个问题但我想添加一个测试来防止回归但是我不知道如何在 pytest 中模拟异常终止如果我只
Django-tables2 列总计

我正在尝试使用此总结列中的所有值文档 https github com bradleyayers django tables2 blob master docs pages column headers and footers rst 但页
在 JavaScript 函数的 Django 模板中转义字符串参数

我有一个 JavaScript 函数它返回一组对象 return Func id name 例如我在传递包含引号的字符串时遇到问题 Dr Seuss ABC BOOk 是无效语法 I tried name safe 但无济于事有什么解

随机推荐

Google App Engine - 删除 JPQL 查询和级联

我注意到使用下面的 JPQL 查询时 PersistentUser 的子项不会被删除但是如果我执行以下操作子项将被删除entityManager remove object 这是预期的吗为什么下面的 JPQL 查询不执行级联删除
如何在 Teradata 14 中对子字符串进行分组？

我有下表天睿14 我不允许自己编写过程和函数但我可以使用strtok strtok split to table etc id property 1 1234X Yel 2225Y Red 1234X Gre 2 3 1222Y Pin
匹配来自两个不同数据帧的键

我有两个数据框 df1 Name Stage Description key 0 Sri 1 Sri is one of the good singer in this two one 1 NaN 2 Thanks for reading
SSL 握手调试不再适用于 Apache Tomcat/9.0.0.M22

我必须在 Tomcat 操作系统 MS Windows 上调试 SSL 握手因此我按照网上找到的说明进行操作并在 setenv bat 中使用以下行启用了它设置 JAVA OPTS JAVA OPTS Djavax net debug
为什么跨域 JSONP 安全，而跨域 JSON 不安全？

我在连接最近了解 JSONP 的一些点时遇到了困难这是我的理解由于同源政策禁止任何内容包括 JSON 的跨域 XmlHttpRequest 这可以防止 XSRF 您可以使用带有返回 JSONP 的 src 的脚本标记在对 Java
滚动日志文件并删除旧日志文件

我正在开发一个基于 Java SOAP 的 Web 服务应用程序其中我将 stdout 作为日志写入文本文件以供参考该文件正在巨大地增长因此我需要检查文件的大小例如如果文件大小超过 10 Mb 我必须创建另一个文件像这样我必须
如何在嵌套函数中传递对象？

我正在尝试覆盖save 在 R 中以便在保存对象之前创建任何丢失的目录我在使用省略号方法将对象通过一个函数传递到另一个函数时遇到问题我的例子 save lt function file Overridden save target d
尝试获取类方法指针时出现 E_NOINTERFACE

我从 C 非托管代码调用 C 方法我在从数组中返回的类实例获取值时遇到问题我稍微简化了代码这是有问题的方法 return MarshalAs UnmanagedType SafeArray SafeArraySubType VarEn
在表单中的 tabcontrol 中与用户控件进行通信

我认为 C 很难尝试在 stackoverflow 中发布问题我在用户控件中有一个列表框和一个按钮其本身位于选项卡控件的选项卡页中其本身位于表单上单击按钮时我需要从表单填充列表框表单 gt 选项卡控件 gt 标签页 gt 用户
提供静态资源的路径（如 .jpg 等？）

我已经解决了许多有趣的路由问题将请求 URL 转换为哈希值等但出于好奇有没有办法告诉路由系统您想要某个 url 下的任何内容子路径按字面意思提供服务不通过控制器例如如果我有 home me public html rails p
java.io.IOException：无法读取 zip 条目源

FileInputStream file new FileInputStream file path report xlsx XSSFWorkbook wb new XSSFWorkbook file ERROR LINE 我在第二行收到错
在结构数组 (AoS) 和数组结构 (SoA) 之间来回切换

在许多面向数据设计的著作中扮演着重要角色的一个特征是在许多情况下而不是 AoS 结构数组 struct C AoS int foo double bar std vector
使用本机 Javascript 实现 jQuery 的“实时”绑定器

我试图弄清楚如何将事件绑定到动态创建的元素即使在元素被销毁和重新生成之后我也需要事件持续存在于元素上显然使用 jQuery 的 live 函数很容易但是用本机 Javascript 实现它们会是什么样子呢这是一个简单的例子 fu
Symfony 安全组件 - 无法在令牌有效负载中找到密钥“用户名”

使用下面列出的配置我遇到了一些奇怪的问题我无法单独解决因为我对 Symfony 太陌生了 security encoders App Api User Entity User algorithm bcrypt cost 12 http
UITextView：链接检测在模拟器中工作，而不是在设备上

我有两个 UITextView 其中包含应该由数据检测识别的数据但是虽然其中一个在设备和模拟器上都可以正常工作但有一个只能在模拟器下工作我尝试从我的设备中删除构建清理产品删除派生数据但似乎没有什么可以解决不一致的问题在 In
Laravel，管理控制器 - 403 禁止

我正在尝试在默认控制器文件夹中创建管理控制器我在 controller 文件夹中创建了 admin 文件夹在路由文件中 Route get admin admin AdminController showAdminIndex Admin
vscode eslint 不忽略目录？

尽管在 esignore 中明确指出我想忽略 lib 目录中的所有内容但 vscode 说在该最小化文件中发现了 9 个问题如果我在命令行中的文件夹内运行 eslint 一切都很好使用这个扩大 https marketplace vi
如何在 Ionic 2 中使用离子卡文本换行？

情况我需要使用text wrap对于离子卡但似乎不起作用 THE CODE
如何在 UWP 中添加 dataGrid

我是 UWP 的新手不太清楚事情是如何运作的我想知道我该如何使用DataGrid就像 UWP 中的 WPF 一样我怎样才能显示整个数据库DataGrid 使用 Microsoft Toolkit Uwp UI Controls Dat
Beautiful Soup - `findAll` 没有捕获 SVG 中的所有标签（`ElementTree` 可以）

我试图通过修改来生成分区统计图SVG map http upload wikimedia org wikipedia commons 5 5f USA Counties with FIPS and names svg描绘了美国的所有县基本

Beautiful Soup - `findAll` 没有捕获 SVG 中的所有标签（`ElementTree` 可以）

Beautiful Soup - `findAll` 没有捕获 SVG 中的所有标签（`ElementTree` 可以） 的相关文章

随机推荐

热门标签

Beautiful Soup - `findAll` 没有捕获 SVG 中的所有标签（`ElementTree` 可以）的相关文章