使用beautifulsoup和python提取标签信息

2024-03-11

假设我有一些像

<item name=bread weight="5" edible="yes">
<body> some blah </body>
<item>

<item name=eggs weight="5" edible="yes">
<body> some blah </body>
<item>

<item name=meat weight="5" edible="yes">
<body> some blah </body>
<item>

我想使用 beautiful soup 将每个项目的名称存储在列表中

这是迄今为止的尝试：

names =list()

for c in soup.findAll("item"):
    #get name from the tag
        names.append(name i got from tag)

此方法非常适合提取标签之间的文本。

我尝试复制用于提取链接的方法<a href="www.blah.com">但它似乎不起作用。

如何将名称信息存储在列表中？（其他列表包含正文，因此出于关联性原因，索引必须一致）。

非常感谢

Use dict(item.attrs).get('name')得到名字。

从那时起您就遇到了问题<item>应该是结束标记，但它是开始标记，因此您会得到 6 个匹配项，而不是 3 个。如果您对文本有任何控制权，请使用结束标记来避免这种情况。

这是按预期工作的完整片段：

names = list()

for item in soup.findAll('item'):
    name = dict(item.attrs).get('name')
    if name is not None:
        names.append(name)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

xml

Parsing

beautifulsoup

使用beautifulsoup和python提取标签信息的相关文章

在 Django 中使用 prefetch_lated 连接 ManyToMany 字段

我可能遗漏了一些明显的东西但我在连接 ManyToMany 字段以在 Django 应用程序中工作时遇到问题我有两个模型 class Area models Model name CharField class Role models
如何将人物传奇带到前台？

我有一系列子图其中每个子图都有一个图例我想在每个子图之外与相邻子图重叠问题在于图例位于其自己的图的顶部但位于相邻图的下方 Legend 不将 zorder 作为参数所以我不知道如何解决这个问题这是我使用过的代码 import
Tensorflow 训练期间 GPU 使用率非常低

我正在尝试为 10 类图像分类任务训练一个简单的多层感知器这是 Udacity 深度学习课程作业的一部分更准确地说任务是对各种字体呈现的字母进行分类数据集称为 notMNIST 我最终得到的代码看起来相当简单但无论如何我在训练期间
self.__dict__.update(**kwargs) 的风格是好是坏？

在 Python 中假设我有一些类 Circle 它继承自 Shape Shape 需要 x 和 y 坐标此外 Circle 需要半径我希望能够通过执行类似的操作来初始化 Circle c Circle x 1 y 5 r 3 Cir
手动安装开放多语言世界网 (NLTK)

我正在使用一台只能访问专用网络并且无法从命令行发送指令的计算机因此每当我必须安装 Python 包时我都必须手动安装我什至不能使用 Pypi 幸运的是 NLTK 允许我手动下载语料库从here https www nltk org
Pygooglevoice登录错误

另一个人问了这个问题但没有回复所以我再问一遍我正在尝试使用 pygooglevoice API 但是当我运行 SMS py 示例脚本时它给了我一个登录错误我已经安装了 Enthought python 我想也许我还需要安装其他东西
如何从 Python 3.5 降级到 3.4

我想安装 kivy 链接在这里 https kivy org docs installation installation windows html install win dist 用于项目但是当尝试使用 pip 安装它所依赖的包时
将 Isotope 与通过 XML 和 jQuery 加载的对象一起使用。这可能吗？

我正在使用 XML 和 jQuery 加载对象并尝试连接到同位素但似乎这是不行的这可能吗我尝试了许多不同的解决方案但似乎找不到有效的解决方案这就是我所拥有的我已经尝试过同位素中的回调函数但仍然没有运气我用 XML 调用我的
使用 matplotlib 设置或固定二元分布值

I ve animated a bivariate gaussian distribution using matplotlib 我已经计算过这个distribution通过调整COV matrix来考虑特定的变量我可以提供有关此过程的更
如何打印和显示子进程 stdout 和 stderr 输出而不失真？

也许有人可以帮助我解决这个问题我在 SO 上看到了许多与此类似的问题但没有一个问题同时处理标准输出和标准错误也没有处理像我这样的情况因此出现了这个新问题我有一个 python 函数它打开一个子进程等待它完成然后输出返回代码以
如何使用 selenium 获取 javascript 结果？

我有以下代码 from selenium import selenium selenium selenium localhost 4444 chrome http some site com selenium start sel selen
尝试将 cuda 与 pytorch 一起使用时出现运行时错误 999

我为我的 Geforce 2080 ti 安装了 Cuda 10 1 和最新的 Nvidia 驱动程序我尝试运行一个基本脚本来测试 pytorch 是否正常工作但出现以下错误 RuntimeError cuda runtime erro
执行许多插入重复键更新错误：未使用所有参数

所以我一直在尝试使用 python 2 7 15 使用 mysql connector 执行此查询但由于某种原因它似乎不起作用并且总是返回错误并非所有参数都被使用表更新有一个主键即 ID 这是我尝试运行此 SQL 的查询 sql
如何使用资源模块来衡量函数的运行时间？

我想使用Python代码测量函数的CPU运行时间和挂钟运行时间此处建议资源模块如何以 Python 代码不是从终端的形式分别测量函数的 CPU 运行时间和挂钟运行时间 https stackoverflow com q 192046
Python 包安装：pip 与 yum，还是两者一起安装？

我刚刚开始管理 Hadoop 集群我们使用 Bright Cluster Manager 直至操作系统级别 CentOS 7 1 然后使用 Ambari 以及适用于 Hadoop 的 Hortonworks HDP 2 3 我不断收到安装
对 Python 列表元素进行分组

我有一个 python 列表如下所示 my list 25 1 0 65 25 3 0 63 25 2 0 62 50 3 0 65 50 2 0 63 50 1 0 62 我想根据以下规则对它们进行排序 1 gt 0 65 0 62 l
从数据库生成 XML 时出现 PHP 编码错误 [关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 我正在尝试获取一个简单的 PHP 服
在 Python 中伪造一个对象是否是类的实例

假设我有一堂课FakePerson它模仿基类的所有属性和功能RealPerson 不扩展它在Python 3中是否可以伪造isinstance 为了认识到FakePerson as a RealPerson只通过修改对象FakePers
将同一 numpy 数组的两个视图组合成单个视图而不复制数组？

我有一个大型 2d numpy 数组我想删除它的子集并处理函数剩下的内容我需要对许多子集执行此操作因此理想情况下我不想每次都创建数组的副本该函数不会更改数组中的任何值 mat np load filename mat 1 mat i
将 .parquet 编码为 io.Bytes

目标将 Parquet 文件上传到 MinIO 这需要将文件转换为字节我已经能够做到这一点了 csv json and txt bytes data to csv encode utf 8 bytes json dumps self d

随机推荐

scanf() 在操作系统中如何工作？

我一直想知道 scanf printf 在硬件和操作系统级别实际上是如何工作的数据在哪里流动以及操作系统在这些时间里到底在做什么操作系统进行哪些调用等等 scanf 和 printf 是 libc C 标准库中的函数它们分别调用
Vue.js 如何设置 :id 前缀字符串？

class tab title v on click tab v for tabTitle index in tabTitleList id index 我在 vue 社区中找到了这个示例但在我的情况下我希望我的 id 有一个前缀而不
如何让 css3 border-image 在 IE9 中工作？

我正在使用 border image 它适用于除 IE 之外的所有浏览器对于 IE 版本 7 和 8 我有 css3pie 它可以正常工作但我一直没能找到任何插件让它在 IE9 中工作有没有办法可以破解它使其在 IE9 中也能工作
自定义后退指示图像和 iOS 11

我在我的应用程序中使用自定义后退按钮这个自定义后退按钮是全局设置的如下所示 UINavigationBar appearance backIndicatorImage UIImage named Back withRenderingMo
Flutter - 如何更改 AppBar 高度并对齐标题垂直中心？

我需要更改我的 flutter 应用程序中的应用栏高度我使用这段代码 Widget build BuildContext context return Scaffold appBar PreferredSize preferredSize
了解 scipy.optimize.basinhopping 的输出

我正在使用 scipy optimize basinhopping 来最小化函数这是我得到的 Out 96 nfev 162178 minimization failures 2501 fun 4 4702905615653705 x a
当我尝试通过“http://localhost/xampp/htdocs/index.html”打开 HTML 文件时，它说无法连接到 localhost

我已经安装了 XAMPP 有一个htdocs文件夹及其内部index html文件当我尝试通过浏览器打开它时http localhost xampp htdocs index html它说无法连接到本地主机怎么了代替 http lo
将Java游戏转换为Applet；无法加载图片

所以我用 Java 做了一个相当大的游戏我打算把它放在我的网站上所以我把它搞乱了把它变成了一个小程序它启动并运行得很好唯一的问题是它不会加载任何图片这是我目前正在做的方式请记住这是一个 JPanel 扩展类我在小程序类中创
Ruby 中的 class << self 习惯用法

什么是class lt lt self do in Ruby 首先 class lt lt foo语法打开foo的单例类 eigenclass 这允许您专门化在该特定对象上调用的方法的行为 a foo class lt lt a def i
Python Gtk.Entry 占位符文本

我有一个登录窗口有两个 gtk Entry 对象一个用于用户名一个用于密码我如何向条目添加一些幽灵文本因此条目中写有用户名但如果您单击内部文本就会消失从 Gtk 3 2 开始可以设置占位符文本 http develope
IPython shell 的换行问题

如果我在 IPython 中运行了很长的一行并尝试调用它使用向上箭头或在当前行的开头处退格则它显示不正确全部挤成一行例如在下面的会话中我写了很长的一行 1 输入了一个有点空白的行 2 然后向上箭头两次以获得print网上声明
如何隐藏system()输出

我正在 Windows XP 上工作我可以通过调用自动执行 ssh 会话的 TCL 脚本通过浏览器成功运行 system 命令我还从脚本返回一个值但是我的问题是脚本将整个 ssh 会话转储到浏览器中我的 php 脚本如下所示 la
下拉列表问题

我遇到一个问题 IE 6 7 中的下拉列表的行为如下可以看到下拉的width宽度不够无法在不扩展整个下拉列表的情况下显示整个文本但是在 Firefox 中没有问题因为它expands the width因此这是我们在 IE 6
使用 NetworkStream.BeginRead 和 NetworkStream.EndRead 实现超时

我编写了以下函数来实现超时功能NetworkStream的异步读取函数 BeginRead and EndRead 在我注释掉该行之前它工作正常Trace WriteLine bytesRead bytesRead Why private
Chartjs：如何删除特定标签

我有一个包含这些数据和选项的条形图 var data labels periodnames datasets yAxisID bar stacked data rcash backgroundColor FFCE56 label yAxis
如何将 JTextPane 中的文本和 JComponent 垂直居中？

目前看起来是这样该怎么做才能看起来如此下面是我的代码 JFrame f new JFrame JTextPane textPane new JTextPane JTextField component new JTextField co
将会话 ID 作为 url 参数传递的危害

所以我刚刚注意到互联网银行网站之一正在将会话 ID 作为 url 参数传递见下图我以前没有在任何地方看到在 url 中在本例中它位于 private 之后 1 这个有什么用 2 为什么互联网银行需要成为互联网上最安全的地方将会
如何使用 Watir-WebDriver 将文本发送到 CKEditor WYSIWYG 编辑器框

我有一个 watir webdriver 脚本它使用下面的代码设置 CKEditor 框但这仅适用于 Mac OSX 上的 Firefox 当我专注于屏幕时例如如果我集中注意力并让此脚本在后台运行则不会输入文本但不会引发异常或错
onAnimationEnd() 被调用两次

从 23 更新构建 sdk 27 后在调用下面的代码时遇到了 onAnimationEnd 触发两次的问题 onAnimationStart 仅调用一次并且 onAnimationRepeat 未按预期调用现在在应用程序中当用户按
使用beautifulsoup和python提取标签信息

假设我有一些像

使用beautifulsoup和python提取标签信息

使用beautifulsoup和python提取标签信息 的相关文章

随机推荐

热门标签

使用beautifulsoup和python提取标签信息的相关文章