使用 BeautifulSoup 抓取评论标签内的表格

2024-05-11

我正在尝试使用 BeautifulSoup 从以下网页中抓取表格：https://www.pro-football-reference.com/boxscores/201702050atl.htm https://www.pro-football-reference.com/boxscores/201702050atl.htm

import requests
from bs4 import BeautifulSoup

url = 'https://www.pro-football-
reference.com/boxscores/201702050atl.htm'
page = requests.get(url)
html = page.text

页面上的大多数表格都位于注释标签内，因此无法以直接的方式访问。

print(soup.table.text)

returns:

1
2
3
4
OT
Final







via Sports Logos.net
About logos


New England Patriots
0
3
6
19 
6
34





via Sports Logos.net
About logos


Atlanta Falcons
0
21
7
0
0
28

即包含玩家统计数据的主表丢失了。我尝试简单地使用删除评论标签

html = html.replace('<!--',"")
html = html.replace('-->',"")

但无济于事。我如何访问这些注释掉的表？

干得好。您只需更改索引号即可从该页面获取任何表格。

import requests
from bs4 import BeautifulSoup

page = requests.get('https://www.pro-football-reference.com/boxscores/201702050atl.htm').text

soup = BeautifulSoup(page,'lxml')
table = soup.find_all('table')[1]  #This is the index of any table of that page. If you change it you can get different tables.
tab_data = [[celldata.text for celldata in rowdata.find_all(["th","td"])]
                        for rowdata in table.find_all("tr")]
for data in tab_data:
    print(' '.join(data))

由于除了前两个表之外的其他表都在 javascript 中，这就是为什么您需要使用 selenium 来进行 gatewaycrash 并解析它们。您现在肯定可以从该页面访问任何表。这是修改后的。

from selenium import webdriver
from bs4 import BeautifulSoup

driver = webdriver.Chrome()
driver.get('https://www.pro-football-reference.com/boxscores/201702050atl.htm')
soup = BeautifulSoup(driver.page_source,'lxml')
driver.quit()
table = soup.find_all('table')[7]  #This is the index of any table of that page. If you change it you can get different tables.
tab_data = [[celldata.text for celldata in rowdata.find_all(["th","td"])]
                        for rowdata in table.find_all("tr")]
for data in tab_data:
    print(' '.join(data))

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

webscraping

beautifulsoup

使用 BeautifulSoup 抓取评论标签内的表格的相关文章

蟒蛇 | MySQL | AttributeError：模块“mysql.connector”没有属性“connect”

我正在学习 python 中的一个新库 mysql 我尝试执行以下命令 import mysql connector mydb mysql connector connect host localhost user root passwd
如何避免使用 python 处理空的标准输入？

The sys stdin readline 返回之前等待 EOF 或新行所以如果我有控制台输入 readline 等待用户输入相反我想打印帮助并在没有需要处理的情况下退出并显示错误而不是等待用户输入原因我正在寻找一个Pytho
在python中将数据库表写入文件的最快方法

我正在尝试从数据库中提取大量数据并将其写入 csv 文件我正在尝试找出最快的方法来做到这一点我发现在 fetchall 的结果上运行 writerows 比下面的代码慢 40 with open filename a as f writ
从 Azure ML 实验中访问 Azure Blob 存储

Azure ML 实验提供了通过以下方式读取 CSV 文件并将其写入 Azure Blob 存储的方法 Reader and Writer模块但是我需要将 JSON 文件写入 blob 存储由于没有模块可以执行此操作因此我尝试在Ex
使用 Django 将文件异步上传到 Amazon S3

我使用此文件存储引擎在上传文件时将文件存储到 Amazon S3 http code welldev org django storages wiki Home http code welldev org django storages w
使用python从gst管道抓取帧到opencv

我在用着OpenCV http opencv org 和GStreamer0 10 我使用此管道通过自定义套接字通过 UDP 接收 MPEG ts 数据包sockfd由 python 提供并显示它xvimagesink 而且效果很好以下命
类型错误：需要二进制或 unicode 字符串，得到 618.0

I ve been trying to implement this ML Linear Model into my dataset https www tensorflow org tutorials estimator linear L
Arcpy 模数在 Pycharm 中不显示

如何将 Arcpy 集成到 Pycharm 中我尝试通过导入模块但它没有显示我确实知道该模块仅适用于 2 x python arcpy 在 PyPi Python 包索引上不可用因此无法通过 pip 安装要使用 arcpy 您需要
Python HMAC：类型错误：字符映射必须返回整数、None 或 unicode

我在使用 HMAC 时遇到了一个小问题运行这段代码时 signature hmac new key secret key msg string to sign digestmod sha1 我收到一个奇怪的错误 File usr loca
Python将文本文件解析为嵌套字典

考虑以下数据结构 HEADER1 key value key value HEADER2 key value key value HEADER3 key value HEADER4 key value key value 原始数据中没有缩进
Plotly：如何检查基本图形结构（版本 4）

对于旧版本的plotly 例如在 Jupyterlab 中您可以简单地运行figure像这样检查你的图形的基础知识 Ouput data marker color red size 10 symbol 104 mode markers l
python中basestring和types.StringType之间的区别？

有什么区别 isinstance foo types StringType and isinstance foo basestring 对于Python2 basestring是两者的基类str and unicode while type
使用 Python 将连续日期分组在一起

Given dates datetime 2014 10 11 datetime 2014 10 1 datetime 2014 10 2 datetime 2014 10 3 datetime 2014 10 5 datetime 201
在Raspberry pi上升级skimage版本

我已经使用 Raspberry Pi 2 上的 synaptic 包管理器安装了 python 包然而 skimage 模块版本 0 6 是 synaptic 中最新的可用版本有人可以指导我如何将其升级到0 11 因为旧版本中缺少某些功
如何指示 urwid 列表框的项目数多于当前显示的项目数？

有没有办法向用户显示 urwid 列表框在显示部分上方下方有其他项目我正在考虑类似滚动条的东西它可以显示条目的数量或者列表框顶部底部的单独栏如果这个行为无法实现有哪些方法可以实现这个通知在我的研究过程中我发现这个问题 ht
Python bug - 或者我的愚蠢 - 扫描字符串文字时 EOL

我看不出以下两行之间有显着差异然而第一个解析而后者则不解析 In 5 n Axis of Awesome In 6 n Axis of Awesome File
如何在亚马逊 EC2 上调试 python 网站？

我是网络开发新手这可能是一个愚蠢的问题但我找不到可以帮助我的确切答案或教程我工作的公司的网站用 python django 构建托管在亚马逊 EC2 上我想知道从哪里开始调试这个生产站点并检查存储在那里的日志和数据库我有帐户信
如何给URL添加变量？

我正在尝试从网站收集数据我有一个 Excel 文件其中包含该网站的所有不同扩展名 F i www example com example2 我有一个脚本可以成功从网站中提取 HTML 但现在我想为所有扩展自动执行此操作然而当我说 s
如何获取pandas中groupby对象中的组数？

我想知道有多少个独特的组需要执行计算给定一个名为 groupby 的对象dfgroup 我们如何找到组的数量简单快速 Pandaic ngroups 较新版本的 groupby API pandas gt 0 23 提供了此未记录的
如何（安全）将 Python 对象发送到我的 Flask API？

我目前正在尝试构建一个 Flask Web API 它能够在 POST 请求中接收 python 对象我使用 Python 3 7 1 创建请求使用 Python 2 7 运行 API 该 API 设置为在我的本地计算机上运行我试图发

随机推荐

Next JS - 源代码中缺少元标签

我安装了多个元标记例如标题描述关键字等但是它没有在查看源代码中显示这些标签因此 Facebook 共享卡无法正常工作我已经安装了og标签但在 Facebook 上似乎找不到它们Scraper或我的查看来源然而它填充在客户
Scala 中奇怪的类型不匹配

我希望这个问题还没有在其他地方得到解答在这里没有找到答案在我的本地化系统中我有一个名为 Language 的类 class Language val name String dict HashMap String String def
在 D3 中在外部加载的 svg 图形上绘图

我已经从 svg 文件加载了外部图形我想尝试在其上绘图但不知道如何操作我的简单 d3 代码在这里
使用 oledb 在同一个 Excel 工作表上写入多个表

我正在创建 excel 文件XML编写器 https msdn microsoft com en us library system xml xmlwriter v vs 110 aspx由于 xml 属性和文件类型电子表格它的文件太大
如何正则表达式字符串

是否可以使用正则表达式检查完整的字符串是数字AND 第一个字符是 7 或 8 那么字符串的完整长度必须是 11OR 第一个字符是 1 那么字符串的完整长度必须是 10 OR第一个字符是 0 然后是字符串的完整长度必须是 18 AND 字
MongoDB C# 驱动程序“找不到光标”

我有一个相当密集的操作MongoCursor循环运行几个小时在通过 c 驱动程序运行的 vb net 应用程序上我不太确定是什么导致了它但一段时间后我遇到了异常 Cursor not found 这可能是由于游标超时造成的有什么办法
选择早于的时间戳

我如何从数据库中选择超过 12 小时的项目我使用时间戳列来存储时间但我认为我不需要年月日只需要小时我有类似的东西但它不起作用没有错误只是从表中返回所有数据 sql SELECT FROM Y WHERE X and tim
如何在没有清单的情况下启用视觉样式

根据docs http msdn microsoft com en us library bb773187 aspx 如果您希望应用程序使用 ComCtl32 dll 版本 6 则必须添加应用程序清单或编译器指令指定应使用版本 6 如果可用
我是否需要关心异步 Javascript 的竞争条件？

假设我加载了一些我知道在将来某个时候会调用的 Flash 影片window flashReady并将设置window flashReadyTriggered true 现在我有一个代码块我想在闪存准备好时执行它我希望它立即执行如果wi
入口和 SSL 直通

我最近一直在使用 nginxdemo nginx ingress 控制器据我了解该控制器无法执行 SSL 直通我的意思是将客户端证书一直传递到后端服务进行身份验证因此我一直通过标头传递客户端主题 DN 最终我更喜欢 SSL 直通
Angular2、ZoneJS 和外部更改的 DOM

我需要一些有关 Angular2 RC1 Web 应用程序中外部更改的 DOM 的帮助场景很简单我确实有一个带有相应模板的组件其中包含一个具有如下 ID 的空 div div div typescripted 组件有一个 ngOnIn
Python给出语法错误但没有错误？ [关闭]

Closed 这个问题是无法重现或由拼写错误引起 help closed questions 目前不接受答案有人能说为什么 python 不允许这样做吗 coding utf 8 import win32api win32con os t
SpinnerAdapter 中 getView 和 getDropDownView 的区别

当你实现 SpinnerAdapter 时你会得到获取下拉视图 http developer android com reference android widget SpinnerAdapter html getDropDownView
Ionic 3 更新后 WebpackJsonp 丢失

我最近从 2 升级到 ionic 3 我可以为 iOS 构建应用程序但 ionic 服务现在失败并出现以下错误在为 iOS 构建之前我必须手动将 main prod ts 和 main dev ts 替换为 main ts 您需要更多
是否可以从数据库转储生成 knex 种子文件？

就我而言我使用的是 mysql 但是我正在寻找一种通用解决方案用于从当前运行的数据库或数据库转储生成 knex 种子文件我可以就像是 https github com tgriesser knex issues 944 issuec
如何以 JavaScript 编程方式获取旋转的 svg 文本边界

我正在动态渲染 SVG 图像并创建旋转文本如果旋转的文本与其他文本重叠我需要删除该文本但我无法测量旋转的文本来创建边界并检查下一个标签文本区域我创建了 3 个 SVG 元素来解释 SVG 1 显示重叠的文本 SVG 2 显示重叠的旋
为什么尝试使用 Hamcrest 的 hasItems 的代码无法编译？

为什么这个不能编译哦怎么办 import static org junit Assert assertThat import static org junit matchers JUnitMatchers hasItems ArrayL
Excel如何获取一个时间间隔内的小时数？

我有两列 Night shift start 19 00 Night end 04 00 我每天都有一些日期列 Work started 07 30 Worked ended 22 00 我想获取夜班开始和夜班结束之间的小数小时数我需要计
用Java将图像添加到数据库

我正在尝试将图像添加到 mysql 数据库中的 BLOB 字段图像大小将小于 100kb 但是我遇到了问题想知道将这些数据添加到数据库的更好方法是什么 com mysql jdbc MysqlDataTruncation 数据截断第
使用 BeautifulSoup 抓取评论标签内的表格

我正在尝试使用 BeautifulSoup 从以下网页中抓取表格 https www pro football reference com boxscores 201702050atl htm https www pro football

使用 BeautifulSoup 抓取评论标签内的表格

使用 BeautifulSoup 抓取评论标签内的表格 的相关文章

随机推荐

热门标签

使用 BeautifulSoup 抓取评论标签内的表格的相关文章