Beautiful Soup：从
访问没有 id 的
元素

2023-12-06

我正试图从中剔除过生日的人维基百科页面

这是现有的代码：

hdr = {'User-Agent': 'Mozilla/5.0'}
site = "http://en.wikipedia.org/wiki/"+"january"+"_"+"1"
req = urllib2.Request(site,headers=hdr)    
page = urllib2.urlopen(req)
soup = BeautifulSoup(page)

print soup

这一切都工作正常，我得到了整个 HTML 页面，但我想要特定的数据，并且我不知道如何在没有 id 的情况下使用 Beautiful Soup 访问该数据。这<ul>标签没有 id，也没有<li>标签。另外，我不能只要求每一个<li>标记，因为页面上还有其他列表。有没有特定的方法来调用给定的列表？（我不能只对这一页使用修复程序，因为我计划迭代所有日期并获取每一页的生日，并且我不能保证每一页的布局都与这一页完全相同）。

我们的想法是得到span with Birthsid，找到父母的下一个兄弟姐妹（即ul）并迭代它li元素。这是一个完整的示例，使用requests（虽然这不相关）：

from bs4 import BeautifulSoup as Soup, Tag

import requests


response = requests.get("http://en.wikipedia.org/wiki/January_1")
soup = Soup(response.content)

births_span = soup.find("span", {"id": "Births"})
births_ul = births_span.parent.find_next_sibling()

for item in births_ul.findAll('li'):
    if isinstance(item, Tag):
        print item.text

prints:

871 – Zwentibold, Frankish son of Arnulf of Carinthia (d. 900)
1431 – Pope Alexander VI (d. 1503)
1449 – Lorenzo de' Medici, Italian politician (d. 1492)
1467 – Sigismund I the Old, Polish king (d. 1548)
1484 – Huldrych Zwingli, Swiss pastor and theologian (d. 1531)
1511 – Henry, Duke of Cornwall (d. 1511)
1516 – Margaret Leijonhufvud, Swedish wife of Gustav I of Sweden (d. 1551)
...

希望有帮助。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Beautiful Soup：从
访问没有 id 的
元素的相关文章

保存为 HDF5 的图像未着色

我目前正在开发一个将文本文件和 jpg 图像转换为 HDF5 格式的程序用HDFView 3 0打开似乎图像仅以灰度保存 hdf h5py File Sample h5 img Image open Image jpg data np
中断 Select 以添加另一个要在 Python 中监视的套接字

我正在 Windows XP 应用程序中使用 TCP 实现点对点 IPC 我正在使用select and socketPython 2 6 6 中的模块我有三个 TCP 线程一个读取线程通常会阻塞select 一个通常等待事件的写入线程
元组有什么用？

我现在正在学习 Python 课程我们刚刚介绍了元组作为数据类型之一我阅读了它的维基百科页面但是我无法弄清楚这种数据类型在实践中会有什么用处我可以提供一些需要一组不可变数字的示例吗也许是在 Python 中这与列表有何不同每
将html数据解析成python列表进行操作

我正在尝试读取 html 网站并提取其数据例如我想查看公司过去 5 年的 EPS 每股收益基本上我可以读入它并且可以使用 BeautifulSoup 或 html2text 创建一个巨大的文本块然后我想搜索该文件我一直在使用
Python getstatusoutput 替换不返回完整输出

我发现了这个很棒的替代品getstatusoutput Python 2 中的函数在 Unix 和 Windows 上同样有效不过我觉得这个方法有问题output被构建它只返回输出的最后一行但我不明白为什么任何帮助都是极好的 def
需要在python中找到print或printf的源代码[关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 我正在做一些我不能完全谈论的事情我
独立滚动矩阵的行

我有一个矩阵准确地说是 2d numpy ndarray A np array 4 0 0 1 2 3 0 0 5 我想滚动每一行A根据另一个数组中的滚动值独立地 r np array 2 0 1 也就是说我想这样做 print np
您可以格式化 pandas 整数以进行显示，例如浮点数的“pd.options.display.float_format”？

我见过this https stackoverflow com questions 18404946 py pandas formatdataframe and this https stackoverflow com questions
如何在 Python 中解析和比较 ISO 8601 持续时间？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我正在寻找一个 Python v2 库它允许我解析和比较 ISO 8601 持续时间may处于不同单
为什么 PyYAML 花费这么多时间来解析 YAML 文件？

我正在解析一个大约 6500 行的 YAML 文件格式如下 foo1 bar1 blah name john age 123 metadata whatever1 whatever whatever2 whatever stuff thi
从Python中的字典列表中查找特定值

我的字典列表中有以下数据 data I versicolor 0 Sepal Length 7 9 I setosa 0 I virginica 1 I versicolor 0 I setosa 1 I virginica 0 Sepal
Cython 和类的构造函数

我对 Cython 使用默认构造函数有疑问我的 C 类 Node 如下 Node h class Node public Node std cerr lt lt calling no arg constructor lt lt std e
Python3 在 DirectX 游戏中移动鼠标

我正在尝试构建一个在 DirectX 游戏中执行一些操作的脚本除了移动鼠标之外我一切都正常是否有任何可用的模块可以移动鼠标适用于 Windows python 3 Thanks I used pynput https pypi or
如何使用原始 SQL 查询实现搜索功能

我正在创建一个由 CS50 的网络系列指导的应用程序这要求我仅使用原始 SQL 查询而不是 ORM 我正在尝试创建一个搜索功能用户可以在其中查找存储在数据库中的书籍列表我希望他们能够查询书籍表中的 ISBN 标题作者列目前它
Pandas 将多行列数据帧转换为单行多列数据帧

我的数据框如下 code df Car measurements Before After amb temp 30 268212 26 627491 engine temp 41 812730 39 254255 engine eff 15
python import inside函数隐藏现有变量

我在我正在处理的多子模块项目中遇到了一个奇怪的 UnboundLocalError 分配之前引用的局部变量问题并将其精简为这个片段使用标准库中的日志记录模块 import logging def foo logging info fo
Python ImportError：无法导入名称 __init__.py

我收到此错误 ImportError cannot import name life table from cdc life tables C Users tony OneDrive Documents Retirement retirem
使用for循环时如何获取前一个元素？ [复制]

这个问题在这里已经有答案了可能的重复 Python 循环内的上一个和下一个值 https stackoverflow com questions 1011938 python previous and next values inside
Scipy Sparse：SciPy/NumPy 更新后出现奇异矩阵警告

我的问题是由大型电阻器系统的节点分析产生的我基本上是在设置一个大的稀疏矩阵A 我的解向量b 我正在尝试求解线性方程A x b 为了做到这一点我正在使用scipy sparse linalg spsolve method 直到最近一切都
如何应用一个函数 n 次？ [关闭]

Closed 这个问题需要细节或清晰度 help closed questions 目前不接受答案假设我有一个函数它接受一个参数并返回相同类型的结果 def increment x return x 1 如何制作高阶函数repeat可以

随机推荐

具有自定义列渲染器排序的 Rally 网格

背景当我尝试按使用自定义渲染器的列进行排序时没有任何反应它将排序从 ASC 更改为 DESC 来回更改但数据的顺序从未改变我假设这是因为没有定义如何对我使用自定义渲染器操作的数据进行排序但我似乎找不到向列添加排序器或排序函数的方
Chrome 放弃了 Java 支持

我在我的应用程序中使用 Java 小程序今天我惊讶地看到了redirect来自我的页面和来自 java 的下一条消息 In details我读过有关 Chrome 放弃 NPAPI 支持的报道最近谷歌修改了他们的计划现在声明他们计划
有没有可以将数字拼音转换为带有声调标记的拼音的库？

只是想知道是否有人知道可以将汉语拼音转换为声调的类库例如 nin2 hao3 ma 到 n n h o ma 它会类似于这个答案但希望使用 NET 框架这是我对 Greg Hewgill 的移植蟒蛇算法到 C 到目前为止我还没有遇到任
刚开始学习Java。为什么 main() 位于类内部？

我正在学习 Java 我注意到main 被放在一个类中为什么我不考虑我的main 成为任何对象的成员所以请告诉我如何解决这个问题我不考虑我的main 成为任何对象的成员这不是因为它是一个static方法它不属于任何对象而是属于
在法国机器上执行时出现 java.lang.NumberFormatException

在下面的代码中在解析值时有时我会在法国机器上遇到 NumberFormat 异常 double txPower DecimalFormat df new DecimalFormat txPower txPower getDeltaP l
在 Windows 主机上调试 VMWare 中的 Linux 内核

我正在开发我的第一个内核模块所以我对此有点陌生我的模块偶尔会产生恐慌并且我无法使用 printk 深入了解它据我所知我的调试选项是 1 找到生成的OOPS消息并使用ksymoops or 2 尝试使用 kgdb 进行远程调试我正
JOptionPane 每行有多个按钮？

我将如何展示JOptionPane showinputDialog 与多个JButtons每行我不是在谈论Yes No Cancel按钮但有多个自定义标签JButtons显示在内容区域JOptionPane showinputDialog
UWP：如何获取任务栏高度

我正在制作一个 UWP 应用程序我的要求是以编程方式获取任务栏的大小该应用程序将在不同分辨率的平板电脑上运行在遵循 stackoverflow 上的许多答案实际上与隐藏显示任务栏更相关之后我得到了这个如何获取任务栏的位置和大
unordered_map::iterator 从哪里来？

当我使用std unordered map
获取保存在挂钩函数中的订单项元中的自定义字段值

我可以在产品页面上添加验证显示在购物车和结帐页面上的自定义字段请有人告诉我如何使用以下命令检索自定义字段值woocommerce order status completed 已完成 hook 我想在确认电子邮件发送给用户后再发送一封
使用 Weblogic 10.3 记录 JPA SQL

通过查看 Open JPA 网站我发现我可以使用以下命令记录生成的 SQL
什么是“Microsoft C++ 异常”？

这主要是出于好奇但在调试时我经常看到这样的一行 MyApp exe 中 0x7583812f 处的第一次机会异常 Microsoft C 异常内存位置 0x039be09c 处的 CTBadSupportFileException 我
将包含毫秒的 CIM_DateTime 解析为 Java 日期

我正在尝试将从 Windows 管理界面检索到的 DateTime 值转换为 Java 1 7 日期最终到纪元以来的毫秒数这格式在这里指定我试图解析的一个例子是20160513072950 782000 420这是 2016 年 5
WPF实时渲染

我正在设计一款游戏并考虑使用 WPF 制作基本游戏玩法的简单原型是否可以在 WPF 中实时渲染基本的 2d 图形我所说的基本图形是指简单的形状如直线圆形等我所说的实时是指根据速度加速度等参数进行渲染这些参数根据玩家输入而
zip 函数还需要第二个列表，它如何仅使用一个参数列表

我开始学习 Haskell 并发现了一个很好的练习如下 grouping Int gt Student gt Team Student grouping teamNumber zip ys where 所以练习要我尽量把剩下的填满该函
友好网址中西里尔字符的问题

事情是这样的我有友好的网址例如 http site com blog read http site com blog read green apple 最后一段实际上是博客文章的友好标题问题是当我尝试将该段传递到数据库时西里尔字体变
获取 JEditorPane 中的可见文本

我在 JScrollPane 中有一个 JeditorPane 在应用程序中的某些点我想检索滚动窗格中可见的文本当前显示的文本并且仅检索此文本有没有办法做到这一点谢谢你 Elliott 您可以使用视口来获取视图位置和大小 JVie
我可以从 MySQL sql 文件生成 ruby on Rails 数据库迁移文件吗

我有一个 sql 脚本文件导入后会在 MySQL 数据库中创建一个表并用 2800 条记录填充它这些是比利时国家的所有邮政编码现在我想由此制作一个 Ruby on Rails 数据库迁移文件知道我该怎么做吗也许有办法解决告诉数据
在 SQL 中获取 iso 周和年的日期

从iso周和一年开始我想得到一个约会该日期应该是一周的第一天一周的第一天是星期一例如 iso 第 10 周和 iso 年应转换为 2019 03 04 我正在使用雪花执行此操作的日期表达式有点复杂但并非不可能 SELECT DA
Beautiful Soup：从
- 元素
我正试图从中剔除过生日的人维基百科页面这是现有的代码 hdr User Agent Mozilla 5 0 site http en wikipedia org wiki january 1 req urllib2 Request sit

Beautiful Soup：从 访问没有 id 的 元素

Beautiful Soup：从 访问没有 id 的 元素 的相关文章

随机推荐

热门标签

Beautiful Soup：从
访问没有 id 的
元素

Beautiful Soup：从
访问没有 id 的
元素的相关文章