使用beautifulsoup和python提取标签信息

2024-03-11

假设我有一些像

<item name=bread weight="5" edible="yes">
<body> some blah </body>
<item>

<item name=eggs weight="5" edible="yes">
<body> some blah </body>
<item>

<item name=meat weight="5" edible="yes">
<body> some blah </body>
<item>

我想使用 beautiful soup 将每个项目的名称存储在列表中

这是迄今为止的尝试:

names =list()

for c in soup.findAll("item"):
    #get name from the tag
        names.append(name i got from tag)

此方法非常适合提取标签之间的文本。

我尝试复制用于提取链接的方法<a href="www.blah.com">但它似乎不起作用。

如何将名称信息存储在列表中? (其他列表包含正文,因此出于关联性原因,索引必须一致)。

非常感谢


Use dict(item.attrs).get('name')得到名字。

从那时起您就遇到了问题<item>应该是结束标记,但它是开始标记,因此您会得到 6 个匹配项,而不是 3 个。如果您对文本有任何控制权,请使用结束标记来避免这种情况。

这是按预期工作的完整片段:

names = list()

for item in soup.findAll('item'):
    name = dict(item.attrs).get('name')
    if name is not None:
        names.append(name)
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

使用beautifulsoup和python提取标签信息 的相关文章

  • 在 Django 中使用 prefetch_lated 连接 ManyToMany 字段

    我可能遗漏了一些明显的东西 但我在连接 ManyToMany 字段以在 Django 应用程序中工作时遇到问题 我有两个模型 class Area models Model name CharField class Role models
  • 如何将人物传奇带到前台?

    我有一系列子图 其中每个子图都有一个图例 我想在每个子图之外与相邻子图重叠 问题在于图例位于其自己的图的 顶部 但位于相邻图的下方 Legend 不将 zorder 作为参数 所以我不知道如何解决这个问题 这是我使用过的代码 import
  • Tensorflow 训练期间 GPU 使用率非常低

    我正在尝试为 10 类图像分类任务训练一个简单的多层感知器 这是 Udacity 深度学习课程作业的一部分 更准确地说 任务是对各种字体呈现的字母进行分类 数据集称为 notMNIST 我最终得到的代码看起来相当简单 但无论如何我在训练期间
  • self.__dict__.update(**kwargs) 的风格是好是坏?

    在 Python 中 假设我有一些类 Circle 它继承自 Shape Shape 需要 x 和 y 坐标 此外 Circle 需要半径 我希望能够通过执行类似的操作来初始化 Circle c Circle x 1 y 5 r 3 Cir
  • 手动安装开放多语言世界网 (NLTK)

    我正在使用一台只能访问专用网络并且无法从命令行发送指令的计算机 因此 每当我必须安装 Python 包时 我都必须手动安装 我什至不能使用 Pypi 幸运的是 NLTK 允许我手动下载语料库 从here https www nltk org
  • Pygooglevoice登录错误

    另一个人问了这个问题 但没有回复 所以我再问一遍 我正在尝试使用 pygooglevoice API 但是当我运行 SMS py 示例脚本时 它给了我一个登录错误 我已经安装了 Enthought python 我想也许我还需要安装其他东西
  • 如何从 Python 3.5 降级到 3.4

    我想安装 kivy 链接在这里 https kivy org docs installation installation windows html install win dist 用于项目 但是 当尝试使用 pip 安装它所依赖的包时
  • 将 Isotope 与通过 XML 和 jQuery 加载的对象一起使用。这可能吗?

    我正在使用 XML 和 jQuery 加载对象 并尝试连接到同位素 但似乎这是不行的 这可能吗 我尝试了许多不同的解决方案 但似乎找不到有效的解决方案 这就是我所拥有的 我已经尝试过同位素中的回调函数 但仍然没有运气 我用 XML 调用我的
  • 使用 matplotlib 设置或固定二元分布值

    I ve animated a bivariate gaussian distribution using matplotlib 我已经计算过这个distribution通过调整COV matrix来考虑特定的变量 我可以提供有关此过程的更
  • 如何打印和显示子进程 stdout 和 stderr 输出而不失真?

    也许有人可以帮助我解决这个问题 我在 SO 上看到了许多与此类似的问题 但没有一个问题同时处理标准输出和标准错误 也没有处理像我这样的情况 因此出现了这个新问题 我有一个 python 函数 它打开一个子进程 等待它完成 然后输出返回代码以
  • 如何使用 selenium 获取 javascript 结果?

    我有以下代码 from selenium import selenium selenium selenium localhost 4444 chrome http some site com selenium start sel selen
  • 尝试将 cuda 与 pytorch 一起使用时出现运行时错误 999

    我为我的 Geforce 2080 ti 安装了 Cuda 10 1 和最新的 Nvidia 驱动程序 我尝试运行一个基本脚本来测试 pytorch 是否正常工作 但出现以下错误 RuntimeError cuda runtime erro
  • 执行许多插入重复键更新错误:未使用所有参数

    所以我一直在尝试使用 python 2 7 15 使用 mysql connector 执行此查询 但由于某种原因 它似乎不起作用并且总是返回错误 并非所有参数都被使用 表更新有一个主键 即 ID 这是我尝试运行此 SQL 的查询 sql
  • 如何使用资源模块来衡量函数的运行时间?

    我想使用Python代码测量函数的CPU运行时间和挂钟运行时间 此处建议资源模块 如何以 Python 代码 不是从终端 的形式分别测量函数的 CPU 运行时间和挂钟运行时间 https stackoverflow com q 192046
  • Python 包安装:pip 与 yum,还是两者一起安装?

    我刚刚开始管理 Hadoop 集群 我们使用 Bright Cluster Manager 直至操作系统级别 CentOS 7 1 然后使用 Ambari 以及适用于 Hadoop 的 Hortonworks HDP 2 3 我不断收到安装
  • 对 Python 列表元素进行分组

    我有一个 python 列表 如下所示 my list 25 1 0 65 25 3 0 63 25 2 0 62 50 3 0 65 50 2 0 63 50 1 0 62 我想根据以下规则对它们进行排序 1 gt 0 65 0 62 l
  • 从数据库生成 XML 时出现 PHP 编码错误 [关闭]

    很难说出这里问的是什么 这个问题是含糊的 模糊的 不完整的 过于宽泛的或修辞性的 无法以目前的形式得到合理的回答 如需帮助澄清此问题以便重新打开 访问帮助中心 help reopen questions 我正在尝试获取一个简单的 PHP 服
  • 在 Python 中伪造一个对象是否是类的实例

    假设我有一堂课FakePerson它模仿基类的所有属性和功能RealPerson 不扩展它 在Python 3中 是否可以伪造isinstance 为了认识到FakePerson as a RealPerson只通过修改对象FakePers
  • 将同一 numpy 数组的两个视图组合成单个视图而不复制数组?

    我有一个大型 2d numpy 数组 我想删除它的子集并处理函数剩下的内容 我需要对许多子集执行此操作 因此理想情况下我不想每次都创建数组的副本 该函数不会更改数组中的任何值 mat np load filename mat 1 mat i
  • 将 .parquet 编码为 io.Bytes

    目标 将 Parquet 文件上传到 MinIO 这需要将文件转换为字节 我已经能够做到这一点了 csv json and txt bytes data to csv encode utf 8 bytes json dumps self d

随机推荐

  • scanf() 在操作系统中如何工作?

    我一直想知道 scanf printf 在硬件和操作系统级别实际上是如何工作的 数据在哪里流动以及操作系统在这些时间里到底在做什么 操作系统进行哪些调用 等等 scanf 和 printf 是 libc C 标准库 中的函数 它们分别调用
  • Vue.js 如何设置 :id 前缀字符串?

    class tab title v on click tab v for tabTitle index in tabTitleList id index 我在 vue 社区中找到了这个示例 但在我的情况下 我希望我的 id 有一个前缀 而不
  • 如何让 css3 border-image 在 IE9 中工作?

    我正在使用 border image 它适用于除 IE 之外的所有浏览器 对于 IE 版本 7 和 8 我有 css3pie 它可以正常工作 但我一直没能找到任何插件让它在 IE9 中工作 有没有办法可以破解它 使其在 IE9 中也能工作
  • 自定义后退指示图像和 iOS 11

    我在我的应用程序中使用自定义后退按钮 这个自定义后退按钮是全局设置的 如下所示 UINavigationBar appearance backIndicatorImage UIImage named Back withRenderingMo
  • Flutter - 如何更改 AppBar 高度并对齐标题垂直中心?

    我需要更改我的 flutter 应用程序中的应用栏高度 我使用这段代码 Widget build BuildContext context return Scaffold appBar PreferredSize preferredSize
  • 了解 scipy.optimize.basinhopping 的输出

    我正在使用 scipy optimize basinhopping 来最小化函数 这是我得到的 Out 96 nfev 162178 minimization failures 2501 fun 4 4702905615653705 x a
  • 当我尝试通过“http://localhost/xampp/htdocs/index.html”打开 HTML 文件时,它说无法连接到 localhost

    我已经安装了 XAMPP 有一个htdocs文件夹及其内部index html文件 当我尝试通过浏览器打开它时http localhost xampp htdocs index html它说 无法连接到本地主机 怎么了 代替 http lo
  • 将Java游戏转换为Applet;无法加载图片

    所以我用 Java 做了一个相当大的游戏 我打算把它放在我的网站上 所以我把它搞乱了 把它变成了一个小程序 它启动并运行得很好 唯一的问题是它不会加载任何图片 这是我目前正在做的方式 请记住 这是一个 JPanel 扩展类 我在小程序类中创
  • Ruby 中的 class << self 习惯用法

    什么是class lt lt self do in Ruby 首先 class lt lt foo语法打开foo的单例类 eigenclass 这允许您专门化在该特定对象上调用的方法的行为 a foo class lt lt a def i
  • Python Gtk.Entry 占位符文本

    我有一个登录窗口 有两个 gtk Entry 对象 一个用于用户名 一个用于密码 我如何向条目添加一些幽灵文本 因此条目中写有 用户名 但如果您单击内部 文本就会消失 从 Gtk 3 2 开始 可以设置占位符文本 http develope
  • IPython shell 的换行问题

    如果我在 IPython 中运行了很长的一行 并尝试调用它 使用向上箭头 或在当前行的开头处退格 则它显示不正确 全部挤成一行 例如 在下面的会话中我写了很长的一行 1 输入了一个有点空白的行 2 然后向上箭头两次以获得print网上声明
  • 如何隐藏system()输出

    我正在 Windows XP 上工作 我可以通过调用自动执行 ssh 会话的 TCL 脚本 通过浏览器成功运行 system 命令 我还从脚本返回一个值 但是我的问题是脚本将整个 ssh 会话转储到浏览器中 我的 php 脚本如下所示 la
  • 下拉列表问题

    我遇到一个问题 IE 6 7 中的下拉列表的行为如下 可以看到下拉的width宽度不够 无法在不扩展整个下拉列表的情况下显示整个文本 但是在 Firefox 中 没有问题 因为它expands the width因此 这是我们在 IE 6
  • 使用 NetworkStream.BeginRead 和 NetworkStream.EndRead 实现超时

    我编写了以下函数来实现超时功能NetworkStream的异步读取函数 BeginRead and EndRead 在我注释掉该行之前它工作正常Trace WriteLine bytesRead bytesRead Why private
  • Chartjs:如何删除特定标签

    我有一个包含这些数据和选项的条形图 var data labels periodnames datasets yAxisID bar stacked data rcash backgroundColor FFCE56 label yAxis
  • 如何将 JTextPane 中的文本和 JComponent 垂直居中?

    目前看起来是这样 该怎么做才能看起来如此 下面是我的代码 JFrame f new JFrame JTextPane textPane new JTextPane JTextField component new JTextField co
  • 将会话 ID 作为 url 参数传递的危害

    所以我刚刚注意到互联网银行网站之一正在将会话 ID 作为 url 参数传递 见下图 我以前没有在任何地方看到 在 url 中 在本例中它位于 private 之后 1 这个 有什么用 2 为什么互联网银行 需要成为互联网上最安全的地方 将会
  • 如何使用 Watir-WebDriver 将文本发送到 CKEditor WYSIWYG 编辑器框

    我有一个 watir webdriver 脚本 它使用下面的代码设置 CKEditor 框 但这仅适用于 Mac OSX 上的 Firefox 当我专注于屏幕时 例如 如果我集中注意力并让此脚本在后台运行 则不会输入文本 但不会引发异常或错
  • onAnimationEnd() 被调用两次

    从 23 更新构建 sdk 27 后 在调用下面的代码时遇到了 onAnimationEnd 触发两次的问题 onAnimationStart 仅调用一次 并且 onAnimationRepeat 未按预期调用 现在 在应用程序中 当用户按
  • 使用beautifulsoup和python提取标签信息

    假设我有一些像