美丽的汤找不到标签

2024-01-11

我目前正在尝试使用 Python 3.6 中的请求和 BeautifulSoup 模块进行练习,并且遇到了一个问题,我似乎无法在其他问题和答案中找到任何信息。

似乎在页面中的某个时刻,Beautifulsoup 停止识别标签和 ID。我正在尝试从这样的页面中提取逐个播放数据:

http://www.pro-football-reference.com/boxscores/201609080den.htm http://www.pro-football-reference.com/boxscores/201609080den.htm

import requests, bs4

source_url = 'http://www.pro-football-reference.com/boxscores/201609080den.htm'
res = requests.get(source_url)
if '404' in res.url:
    raise Exception('No data found for this link: '+source_url)

soup = bs4.BeautifulSoup(res.text,'html.parser')

#this works
all_pbp = soup.findAll('div', {'id' : 'all_pbp'})
print(len(all_pbp))

#this doesn't
table = soup.findAll('table', {'id' : 'pbp'})
print(len(table))

使用 Chrome 中的检查器,我可以看到该表确实存在。我还尝试在 HTML 后半部分的“div”和“tr”上使用它,但似乎不起作用。我已经尝试过标准的“html.parser”以及lxml和html5lib,但似乎没有任何效果。

我在这里做错了什么,或者 HTML 或其格式中是否有某些内容阻止 BeautifulSoup 正确找到后面的标签?我在该公司(hockey-reference.com、basketball-reference.com)运行的类似页面上遇到了问题,但能够在其他网站上正确使用这些工具。

如果是 HTML 的内容,是否有更好的工具/库可以帮助提取此信息?

感谢您的帮助, BF


在对 URL 执行 GET 请求后,BS4 将无法执行网页的 javascript。我认为关注的表是从客户端 JavaScript 异步加载的。

因此,在抓取 HTML 之前,需要先运行客户端 JavaScript。这post https://stackoverflow.com/questions/8049520/web-scraping-javascript-page-with-python描述了如何做到这一点!

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

美丽的汤找不到标签 的相关文章

随机推荐

  • “不知道该怎么办”nvcc 致命错误

    我在 Ubuntu 终端中使用命令行 我正在尝试编译 CUDA Compiler Driver NVCC pdf 中提供的三个文件 当我使用这 3 个文件的文档给出的命令行时 我确实收到以下错误 nvcc fatal 不知道如何处理 dc
  • 如何知道站点查询字符串的所有可能参数是什么?

    我想检查任何现有网站网址的所有可能参数是什么 假设该站点正在使用参数类型查询字符串 architecture 例如不是 MVC 如下所示 http www foobar com p1 itemsPerPage 50 size 500 假设还
  • 实模式 BIOS 例程和保护模式

    我正在做一些操作系统实验 到目前为止 我的所有代码都利用实模式 BIOS 中断来操作硬盘和软盘 但是一旦我的代码启用了CPU的保护模式 所有实模式BIOS中断服务程序将不可用 如何读写硬盘和软盘 我现在需要做一些硬件驱动程序吗 我该如何开始
  • 按重叠范围对行进行分组

    我有一个数据框 其中left列是对象最左边的位置 并且right列是最右边的位置 如果对象重叠 或者它们重叠重叠的对象 递归地 我需要对它们进行分组 因此 例如 如果这是我的数据框 left right 0 0 4 1 5 8 2 10 1
  • 如何在postgres中获取该月的最后一天?

    如何在postgres中找到该月的最后一天 我有一个日期列 存储为数字 18 格式为 YYYYMMDD 我正在尝试使用它来使其约会 to date act dt YYYYMMDD AS act date 然后找到该日期的最后一天 像这样 s
  • phonegap 相机 API 在捕获图像的攻击时不会触发 SuccessCallBack 方法

    我正在使用 Phonegap API 来捕获图像 一旦我拍照并附加它 我的成功回调方法就不会被调用 这是我的实现方式 我已将 Phonegap jar 文件添加到库中 并将其添加到构建路径中 在我的主活动中 它扩展了我指定的 DroidGa
  • 让员工全力进出? [关闭]

    Closed 这个问题需要细节或清晰度 help closed questions 目前不接受答案 我的表如下 id time stamp evenid 1001 2017 09 05 09 35 00 1 in 1002 2017 09
  • AttributeError:使用与后端无关的 GUID 类型时,“UUID”对象没有属性“替换”

    我想使用 SQLAlchemy 1 1 5 在 Postgresql 数据库中拥有一个 uuid 类型的主键 id 并使用 pg8000 适配器连接到数据库 我用的是与后端无关的 GUID 类型 recipe http docs sqlal
  • 开始使用云计算

    我对云计算非常陌生 我想知道我可以在云上使用 LAMP 堆栈开发一个网站吗 以及使用哪种云 有没有开源云可以使用它 有点 您可以使用桉树 http open eucalyptus com downloads使用 LAMP 堆栈开发可在 Am
  • 无论有没有管道,如何在 k 折交叉验证后提取重要特征?

    我想构建一个使用交叉验证的分类器 然后从每个折叠中提取重要的特征 系数 以便我可以查看它们的稳定性 目前我正在使用 cross validate 和管道 我想使用管道 以便我可以在每个折叠内进行功能选择和标准化 我被困在如何从每个折叠中提取
  • 托管 COM 聚合

    据我了解 构建一个聚合现有 COM 对象的 COM 对象意味着在外部对象的 IUnknown QueryInterface 方法中实现重定向逻辑 我的问题是 如果您正在构建的对象是托管的 该怎么做 在托管对象上 IUnknown 没有显式实
  • 使用 ConstructorInfo 调用构造函数的反射

    在如下所示的非常简单的课程中 class Program public Program int a int b int c Console WriteLine a Console WriteLine b Console WriteLine
  • 如何在Python中读取cookie

    我是 python cgi 脚本的新手 我想用Python读取cookie 我尝试了以下代码 from urllib2 import Request build opener HTTPCookieProcessor HTTPHandler
  • Silverlight 中的最大图像 Uri 长度

    有谁知道 Silverlight 中的最大 URL 长度是多少 如果重要的话 版本 4 我知道它是 2048 并且对于 Firefox 来说基本上是无限的 我测试过的两个环境 但是对于长 Uri 来说 图像请求会失败 任何人都知道这个神奇数
  • 有没有办法监控并记录最近启动了哪些应用程序?

    我想知道用户在过去 例如 24 小时内 启动了哪些应用程序 这可能吗 不 不可能 至少在没有大量低级工作的情况下不可能 Android 不会按原样保留应用程序的使用历史记录
  • 将 NSDate 与 [NSDate 日期] 进行比较

    我试图强制用户使用日期选择器选择将来的日期 我显然使用了compare 方法 但是 当我执行以下代码时 即使它与 NSDate date 相同的日期 它也会告诉执行if语句 这是我的代码 if datePicker date compare
  • Google App Engine 版本号?

    App Engine 版本号如何运作 它们只是整数吗 我可以使用浮标吗 我可以重复使用旧版本号吗 从手册中 http code google com appengine docs python config appconfig html R
  • Excel VBA 调试器停止,没有错误或警告

    在尝试测试一些代码时 我遇到了一个我不记得以前遇到过的问题 当我单步执行代码时 它在 ClearContents 行之后停止 没有错误 没有警告 什么也没有 Public Sub CreateCurMth wsCur As Workshee
  • 如何在 jQuery 数组中查找 indexOf 元素?

    我有两个选择器 var allNodes a historyEntry var errorNodes a historyEntry error 我想找到第一个错误节点之前的节点 所以我需要找到第一个错误节点的索引 该怎么做 我尝试使用 in
  • 美丽的汤找不到标签

    我目前正在尝试使用 Python 3 6 中的请求和 BeautifulSoup 模块进行练习 并且遇到了一个问题 我似乎无法在其他问题和答案中找到任何信息 似乎在页面中的某个时刻 Beautifulsoup 停止识别标签和 ID 我正在尝