美丽的汤找不到标签

2024-01-11

我目前正在尝试使用 Python 3.6 中的请求和 BeautifulSoup 模块进行练习，并且遇到了一个问题，我似乎无法在其他问题和答案中找到任何信息。

似乎在页面中的某个时刻，Beautifulsoup 停止识别标签和 ID。我正在尝试从这样的页面中提取逐个播放数据：

http://www.pro-football-reference.com/boxscores/201609080den.htm http://www.pro-football-reference.com/boxscores/201609080den.htm

import requests, bs4

source_url = 'http://www.pro-football-reference.com/boxscores/201609080den.htm'
res = requests.get(source_url)
if '404' in res.url:
    raise Exception('No data found for this link: '+source_url)

soup = bs4.BeautifulSoup(res.text,'html.parser')

#this works
all_pbp = soup.findAll('div', {'id' : 'all_pbp'})
print(len(all_pbp))

#this doesn't
table = soup.findAll('table', {'id' : 'pbp'})
print(len(table))

使用 Chrome 中的检查器，我可以看到该表确实存在。我还尝试在 HTML 后半部分的“div”和“tr”上使用它，但似乎不起作用。我已经尝试过标准的“html.parser”以及lxml和html5lib，但似乎没有任何效果。

我在这里做错了什么，或者 HTML 或其格式中是否有某些内容阻止 BeautifulSoup 正确找到后面的标签？我在该公司（hockey-reference.com、basketball-reference.com）运行的类似页面上遇到了问题，但能够在其他网站上正确使用这些工具。

如果是 HTML 的内容，是否有更好的工具/库可以帮助提取此信息？

感谢您的帮助， BF

在对 URL 执行 GET 请求后，BS4 将无法执行网页的 javascript。我认为关注的表是从客户端 JavaScript 异步加载的。

因此，在抓取 HTML 之前，需要先运行客户端 JavaScript。这post https://stackoverflow.com/questions/8049520/web-scraping-javascript-page-with-python描述了如何做到这一点！

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

beautifulsoup

美丽的汤找不到标签的相关文章

在 Pandas 中按日期获取有效合约

我在检测 pandas DataFrame 中的活动合约方面遇到了一些困难假设每一行都是一个协商对于每一行我有两列 initial date 和 end date 我想知道的是按日期划分的活跃合约数量到目前为止我做了一个非常低效的方
在 Python 中使用 Selenium 处理“接受 Cookie”弹出窗口

我一直在尝试用硒抓取这个房地产网站的一些信息但是当我访问该网站时我需要接受 cookie 才能继续这仅在机器人访问网站时发生而不是在我手动执行时发生当我尝试通过 xpath 或 id 查找相应的元素时正如我在手动检查页面时找到
为什么 .setGeometry() 不改变 QWidget 实例的大小？

我想使用 QWidget 更改 QPushButton 的大小 setGeometry https doc qt io qtforpython 5 PySide2 QtWidgets QWidget html PySide2 QtWidge
如何从 PyCharm 项目中获取我的“exe”[重复]

这个问题在这里已经有答案了通过 PyCharm 在 Python 上编写一些项目我想从中获取一个exe文件我尝试过另存为 gt XXX exe 但是当我尝试执行它时出现错误此类操作系统不支持该文件附注我有win7 x64 它
PIL Image.size 返回相反的宽度/高度

使用PIL确定图像的宽度和高度在特定图像上幸运的是只有这一个但这很麻烦从 image size 返回的宽度高度是相反的图片 http storage googleapis com cookila 533ebf752b9d1f7c
错误：permission_manager_qt.cpp(82) 不支持的权限类型：13

我正在开发具有内置浏览器功能的 python 代码 PyQt 5 13 import sys from PyQt5 QtCore import from PyQt5 QtGui import from PyQt5 QtWidgets imp
如何限制Django CreateView中ForeignKey字段的选择？

我有一个沿着这些思路的模型结构 models py class Foo models Model class Bar models Model foo models ForeignKey Foo class Baz models Model
如何使用 python urllib 在 HTTP/1.1 中保持活力

现在我正在这样做 Python3 urllib url someurl headers HOST somehost Connection keep alive Accept Encoding gzip deflate opener urll
Python Kivy - 在本机网络浏览器中打开 url 的应用程序

我尝试制作一个简单的应用程序在单击 Screen One 上的按钮后在 Kivy 中打开一个网页我使用了这个主题 Python 在应用程序中直接显示网络浏览器 iframe https stackoverflow com questi
创建一个类似于 Tkinter 的表

我希望创建类似于 Tkinter 中的表格的东西但它不一定是这样的例如我想创建标题 Name1 Name2 Value 并在每个标题下面有几个空白行然后我希望稍后用我计算的值或名称的字符串值填充这些行因此是标签对于 Name2
matplotlib matshow 标签

我一个月前开始使用 matplotlib 所以我仍在学习我正在尝试用 matshow 制作热图我的代码如下 data numpy array a reshape 4 4 cax ax matshow data interpolation
如何有效地从 loadmat 函数生成的嵌套 numpy 数组中提取值？

python中是否有更有效的方法从嵌套的python列表中提取数据例如A array array 12000000 dtype object 我一直在使用A 0 0 0 0 当你有很多像 A 这样的数据时这似乎不是一个有效的方法我也用
导入错误：没有名为 google.auth 的模块

当我尝试导入时firebase admin in python 2 7我收到错误导入错误没有名为 google auth 的模块这是Docker文件 https github com ammaratef45 Attendance bl
查找给定节点的最高权重边

我在 NetworkX 中有一个有向图边缘的权重从 0 到 1 表示它们发生的概率网络连通性非常高所以我想修剪每个节点的边缘只保留最高概率的节点我不确定如何迭代每个节点并仅保留最高权重in edges在图中有没有一个networ
为什么实现 __iter__ 的对象不被识别为可迭代的？

假设您使用包装对象 class IterOrNotIter def init self self f open tmp toto txt def getattr self item try return self getattribute
Python - 如何查询定义方法的类？

我的问题有点类似于this one https stackoverflow com questions 5520580 how do you get all classes defined in a module but not impor
Python组合目录中的所有csv文件并按日期时间排序

我有 2 年的每日数据分成每月文件我想将所有这些数据合并到一个按日期和时间排序的文件中我正在使用的代码组合了所有文件但不按顺序我正在使用的代码 import pandas as pd import glob os import cs
全局变量是 None 而不是实例 - Python

我正在处理Python 中的全局变量代码应该可以正常工作但是有一个问题我必须使用全局变量作为类的实例Back 当我运行应用程序时它说 back is None 这应该不是真的因为第二行setup 功能 back Back Back
在 Python 模块中使用 InstaLoader

我正在尝试使用 Instaloader 下载与主题标签相关的照片以进行图像分析我在GitHub存储库中找到了一个全面的方法如何在终端中执行它但是我需要将脚本集成到Python笔记本中这是脚本 instaloader no vide
Django South - 将 null=True 字段转换为 null=False 字段

我的问题是转变的最佳做法是什么null True场变成null False使用 Django South 的字段具体来说我正在与ForeignKey 你应该先写一个数据迁移 http south aeracode org docs t

随机推荐

“不知道该怎么办”nvcc 致命错误

我在 Ubuntu 终端中使用命令行我正在尝试编译 CUDA Compiler Driver NVCC pdf 中提供的三个文件当我使用这 3 个文件的文档给出的命令行时我确实收到以下错误 nvcc fatal 不知道如何处理 dc
如何知道站点查询字符串的所有可能参数是什么？

我想检查任何现有网站网址的所有可能参数是什么假设该站点正在使用参数类型查询字符串 architecture 例如不是 MVC 如下所示 http www foobar com p1 itemsPerPage 50 size 500 假设还
实模式 BIOS 例程和保护模式

我正在做一些操作系统实验到目前为止我的所有代码都利用实模式 BIOS 中断来操作硬盘和软盘但是一旦我的代码启用了CPU的保护模式所有实模式BIOS中断服务程序将不可用如何读写硬盘和软盘我现在需要做一些硬件驱动程序吗我该如何开始
按重叠范围对行进行分组

我有一个数据框其中left列是对象最左边的位置并且right列是最右边的位置如果对象重叠或者它们重叠重叠的对象递归地我需要对它们进行分组因此例如如果这是我的数据框 left right 0 0 4 1 5 8 2 10 1
如何在postgres中获取该月的最后一天？

如何在postgres中找到该月的最后一天我有一个日期列存储为数字 18 格式为 YYYYMMDD 我正在尝试使用它来使其约会 to date act dt YYYYMMDD AS act date 然后找到该日期的最后一天像这样 s
phonegap 相机 API 在捕获图像的攻击时不会触发 SuccessCallBack 方法

我正在使用 Phonegap API 来捕获图像一旦我拍照并附加它我的成功回调方法就不会被调用这是我的实现方式我已将 Phonegap jar 文件添加到库中并将其添加到构建路径中在我的主活动中它扩展了我指定的 DroidGa
让员工全力进出？ [关闭]

Closed 这个问题需要细节或清晰度 help closed questions 目前不接受答案我的表如下 id time stamp evenid 1001 2017 09 05 09 35 00 1 in 1002 2017 09
AttributeError：使用与后端无关的 GUID 类型时，“UUID”对象没有属性“替换”

我想使用 SQLAlchemy 1 1 5 在 Postgresql 数据库中拥有一个 uuid 类型的主键 id 并使用 pg8000 适配器连接到数据库我用的是与后端无关的 GUID 类型 recipe http docs sqlal
开始使用云计算

我对云计算非常陌生我想知道我可以在云上使用 LAMP 堆栈开发一个网站吗以及使用哪种云有没有开源云可以使用它有点您可以使用桉树 http open eucalyptus com downloads使用 LAMP 堆栈开发可在 Am
无论有没有管道，如何在 k 折交叉验证后提取重要特征？

我想构建一个使用交叉验证的分类器然后从每个折叠中提取重要的特征系数以便我可以查看它们的稳定性目前我正在使用 cross validate 和管道我想使用管道以便我可以在每个折叠内进行功能选择和标准化我被困在如何从每个折叠中提取
托管 COM 聚合

据我了解构建一个聚合现有 COM 对象的 COM 对象意味着在外部对象的 IUnknown QueryInterface 方法中实现重定向逻辑我的问题是如果您正在构建的对象是托管的该怎么做在托管对象上 IUnknown 没有显式实
使用 ConstructorInfo 调用构造函数的反射

在如下所示的非常简单的课程中 class Program public Program int a int b int c Console WriteLine a Console WriteLine b Console WriteLine
如何在Python中读取cookie

我是 python cgi 脚本的新手我想用Python读取cookie 我尝试了以下代码 from urllib2 import Request build opener HTTPCookieProcessor HTTPHandler
Silverlight 中的最大图像 Uri 长度

有谁知道 Silverlight 中的最大 URL 长度是多少如果重要的话版本 4 我知道它是 2048 并且对于 Firefox 来说基本上是无限的我测试过的两个环境但是对于长 Uri 来说图像请求会失败任何人都知道这个神奇数
有没有办法监控并记录最近启动了哪些应用程序？

我想知道用户在过去例如 24 小时内启动了哪些应用程序这可能吗不不可能至少在没有大量低级工作的情况下不可能 Android 不会按原样保留应用程序的使用历史记录
将 NSDate 与 [NSDate 日期] 进行比较

我试图强制用户使用日期选择器选择将来的日期我显然使用了compare 方法但是当我执行以下代码时即使它与 NSDate date 相同的日期它也会告诉执行if语句这是我的代码 if datePicker date compare
Google App Engine 版本号？

App Engine 版本号如何运作它们只是整数吗我可以使用浮标吗我可以重复使用旧版本号吗从手册中 http code google com appengine docs python config appconfig html R
Excel VBA 调试器停止，没有错误或警告

在尝试测试一些代码时我遇到了一个我不记得以前遇到过的问题当我单步执行代码时它在 ClearContents 行之后停止没有错误没有警告什么也没有 Public Sub CreateCurMth wsCur As Workshee
如何在 jQuery 数组中查找 indexOf 元素？

我有两个选择器 var allNodes a historyEntry var errorNodes a historyEntry error 我想找到第一个错误节点之前的节点所以我需要找到第一个错误节点的索引该怎么做我尝试使用 in
美丽的汤找不到标签

我目前正在尝试使用 Python 3 6 中的请求和 BeautifulSoup 模块进行练习并且遇到了一个问题我似乎无法在其他问题和答案中找到任何信息似乎在页面中的某个时刻 Beautifulsoup 停止识别标签和 ID 我正在尝

美丽的汤找不到标签

美丽的汤找不到标签 的相关文章

随机推荐

热门标签

美丽的汤找不到标签的相关文章