当表无法返回值时，如何抓取表？（美汤）

2024-03-11

以下是我的代码：

import numpy as np
import pandas as pd
import requests
from bs4 import BeautifulSoup

stats_page = requests.get('https://www.sports-reference.com/cbb/schools/loyola-il/2020.html')
content = stats_page.content
soup = BeautifulSoup(content, 'html.parser')
table = soup.find(name='table', attrs={'id':'per_poss'})

html_str = str(table)
df = pd.read_html(html_str)[0]
df.head()

我收到错误：ValueError: No tables found.

然而，当我交换attrs={'id':'per_poss'}使用不同的表 id，例如attrs={'id':'per_game'}我得到一个输出。

我不熟悉 html 和抓取，但我注意到在工作表中，这是 html：<table class="sortable stats_table now_sortable is_sorted" id="per_game" data-cols-to-freeze="2">

在不起作用的表中，这是 html：<table class="sortable stats_table now_sortable sticky_table re2 le1" id="totals" data-cols-to-freeze="2">

似乎表类不同，我不确定这是否导致此问题以及如何修复它。

谢谢你！

发生这种情况是因为该表位于 HTML 注释内.

您可以提取表检查标签是否属于该类型Comment https://www.crummy.com/software/BeautifulSoup/bs4/doc/#comments-and-other-special-strings:

import pandas as pd
import requests
from bs4 import BeautifulSoup, Comment

URL = "https://www.sports-reference.com/cbb/schools/loyola-il/2020.html"
soup = BeautifulSoup(requests.get(URL).content, "html.parser")

comments = soup.find_all(text=lambda t: isinstance(t, Comment))
comment_soup = BeautifulSoup(str(comments), "html.parser")

table = comment_soup.select("#div_per_poss")[0]
df = pd.read_html(str(comment_soup))
print(df)

Output:

[      Rk             Player   G    GS    MP   FG  ...  AST  STL  BLK  TOV   PF   PTS
0    1.0    Cameron Krutwig  32  32.0  1001  201  ...  133   39   20   81   45   482
1    2.0          Tate Hall  32  32.0  1052  141  ...   70   47    3   57   56   406
2    3.0   Marquise Kennedy  32   6.0   671  110  ...   43   38    9   37   72   294
3    4.0   Lucas Williamson  32  32.0   967   99  ...   53   49    9   57   64   287
4    5.0      Keith Clemons  24  24.0   758   78  ...   47   29    1   32   50   249
5    6.0         Aher Uguak  32  31.0   768   62  ...   61   15    3   59   56   181
6    7.0      Jalon Pipkins  30   1.0   392   34  ...   12   10    1   17   15   101
7    8.0      Paxson Wojcik  30   1.0   327   25  ...   18   14    0   14   23    61
...
...

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

html

pandas

webscraping

beautifulsoup

当表无法返回值时，如何抓取表？（美汤）的相关文章

使用 Pandas 读取带有额外逗号且没有 quotechar 的 CSV？

Data from io import StringIO import pandas as pd s ID Level QID Text ResponseID responseText date key 375280046 S D3M Wh
如何在Python中使用getopt/OPTARG？如果给出太多参数 (9)，如何转移参数？

如何在Python中使用getopt optarg 这是我如何做到这一点的示例我通常使用相同的基本模板 import sys import getopt try opts args getopt getopt sys argv 1 m p
Shared Web Workers 是否会在单页重新加载、链接导航中持续存在

共享网络工作者 http www whatwg org specs web apps current work shared workers introduction旨在允许来自同一站点来源的多个页面共享单个 Web Worker 但是
为什么 Chrome 中存在 Document.prototype.getElementsByName？

我所知 getElementsByName是一个定义在中的函数HTMLDocument and HTMLDocument继承自Document and Document继承自Node 那为什么我能看到Document prototype g
python subprocess proc.stderr.read() 引入额外的行？

我想运行一些命令并抓取输出到 stderr 的任何内容我有两个版本的函数可以执行此操作版本 1 def Getstatusoutput cmd Return status output of executing cmd in a she
如何将字符串列表转换为正确的 Python 类型？

给定一个 python 字符串列表如何自动将它们转换为正确的类型意思是如果我有 hello 3 3 64 1 我希望将其转换为列表 hello 3 3 64 1 其中第一个元素是字符串第二个元素是 int 第三个元素是 float
QFileDialog 作为 TableView 的编辑器：如何获取结果？

我正在使用一个QFileDialog作为某些专栏的编辑QTableView 这基本上有效对一些焦点问题取模请参阅here https stackoverflow com questions 22854242 qfiledialog as
如何在 *ngFor 中停止属性绑定到 Angular 中的每个元素

在我的 html 中我想将属性绑定应用于每个元素我有一个点击和悬停事件每当用户将鼠标悬停或单击单个元素但现在悬停或单击发生在其中的每个元素上 ngFor 我想要它只发生在他们选择悬停的元素上我需要什么改变我看到了另一个
按共同日期对数组数据进行排序

我有一个包含许多行和 3 列的 csv 文件日期代表和销售额我想使用 Python 生成一个新数组该数组按日期对数据进行分组并且对于给定日期按销售额对代表进行排序例如我的输入数据如下所示 salesData 201703 B
如何从包含许多表的 Excel 工作表中解析数据帧（使用 Python，可能使用 Pandas）

我正在处理布局糟糕的 Excel 工作表我正在尝试解析这些工作表并将其写入数据库每个工作表可以有多个表尽管这些可能的表格的标题是已知的但哪些表格将位于任何给定的工作表上它们在工作表上的确切位置也不是已知的表格不以一致的方式对齐
在地图类型中创建 DataFrame 分组列

My 数据框具有以下结构 df spark createDataFrame B a 10 B b 20 C c 30 Brand Type Amount df show Brand Type Amount B a 10 B b 20 C c
使用 pywin32com 进行 opc 的内存泄漏

我很难弄清楚如何解决内存泄漏问题我认为这可能是 pywin32 的问题但我不完全确定我用于读取写入单个项目的代码似乎工作得很好但是当使用组函数时它会慢慢泄漏内存我怀疑这是来自必须在 server handles 中传递的基于
在Python中寻找坐标系中某些点之间的最短路径

我编写了一个代码可以在坐标系中的特定宽度和长度范围内生成所需数量的点它计算并列出我使用欧几里德方法生成的这些点的距离矩阵我的代码在这里 import pandas as pd from scipy spatial import dis
Python - 函数无法在新线程中运行

我正试图杀死notepad exe使用此函数在 Windows 上进行处理 import thread wmi os print CMD Kill command called def kill c wmi WMI Commands not
Python记录多个模块记录器在主程序之外不起作用

我的目标是从多个模块进行日志记录同时仅在一个位置主程序中配置记录器如图所示这个答案 https stackoverflow com questions 15727420 using python logging in multipl
HTML5 - Canvas - 大图像优化

我需要建立一个HTML5 canvas其中包含非常大的图像可能高达 10 15MB 我的第一个想法是将图像分成几个块这些块将在画布上水平移动时加载对这个想法有什么想法吗这是一件好事吗也许我错过了一些已经实现的优化功能你说得对这
如何使用 google.oauth2 python 库？

我试图对谷歌机器学习项目的安全预测端点进行简单的休息调用但它找不到 google oauth2 模块这是我的代码 import urllib2 from google oauth2 import service account Cons
在python中读取证书（.crt）和密钥（.key）文件

因此我使用 JIRA Python 模块连接到我公司的 JIRA 实例它要求我为此传递证书和密钥但是使用 OpenSSL 模块我无法读取本地证书和密钥来将其传递给请求阅读代码如下 import OpenSSL crypto c
Python FFmpeg查询rtsp太慢

目前我正在尝试使用 python 和 FFmpeg 来查询原始格式为 h264 的 rtsp 数据直播流视频的信息为 fps 29 分辨率 1280 720 我希望我可以以相同的格式 h264 查询数据并将其放入python队列中以便将
Jquery 脚本可以在 JSfiddle 中运行，但不能在 html 页面上运行

我创建了一个JSFiddle http jsfiddle net defjam64 w4sGZ 4 其按预期工作 Jquery script function icon hover gcp icon hover function gcp i

随机推荐

可以在没有 Visual Studio 的情况下安装 Roslyn 最终用户预览版吗？

Roslyn 最终用户预览是 VSIX Visual Studio 扩展但它取代了系统 NET Framework 安装中的编译器这样从命令行涉及 csc exe 将开始使用 Roslyn 是否可以在未安装 Visual Studio
为什么 C# 不需要显式转换来将 Long 转换为 Double？

首先抱歉我的英语不好我有代码片段 long x 9223372036854775807L double f x Console WriteLine x Console WriteLine f 输出是 922337203685477580
如何使用 xmlrpclib Python 库向 WordPress 帖子添加缩略图？

我正在尝试开发一个Python脚本它需要将内容发布到wordpress博客问题是我需要将图像设置为帖子的缩略图但我不知道如何做到这一点这是将某些内容没有缩略图发布到 WP 的代码示例 import xmlrpclib user
如何将带有 mtl 和纹理的 obj 上传到存储桶？

正如标题所示如何上传 obj 模型的材质文件和纹理因为它们是硬编码在 obj 文件中的我可以上传压缩的目录结构或多个关系正确的文件因为 obj 的硬编码性质吗这是 dotty 试用网站上的带有材质和纹理的 OBJ 模型 http
保持 OAuth 访问令牌的秘密有多重要？

一旦我收到使用 OAuth 的网站例如 facebook 的访问令牌保守这个秘密有多重要如果有人掌握了它会发生什么恶意的事情吗我想知道将令牌保存在 cookie 或会话中是否是一个坏主意是的访问令牌相当于您的用户名密码大多
SYMPY：特征向量计算后如何细化整个矩阵？

我想使用 sympy 来计算特征向量我用 jupyter 笔记本做了一些试验 from sympy import a b symbols a b real True M Matrix a b b a T D M diagonalize n
使用没有会话或 cookie 数据的 iFrame（隐身）

如果您使用iFrameHTML 文档中的元素子页面将加载来自浏览器的所有会话和 cookie 数据例如 h1 Stack Overflow in an iFrame h1 暂时忽略 SO 实际上不允许自己加载到 iFrame 中如果是
将 csv 文件添加到 HTTP POST

我想发送一个邮递员 HTTP POST 在此请求中对于关键 fisier 我想附加一个 csv 文件如何做到这一点 https i stack imgur com Pnkii png https i stack imgur com Pn
通过 websockets 发送 popen 的输出

我使用 popen 和 fgets 异步读取 tcpdump 的输出下面的代码应该在命令行中运行而不是使用 apache 并在浏览器中查看它 handle popen tcpdump nnX r while true output fg
CSS：在绝对定位的div之后有一个div

我想知道如何做到这一点我当前的标记如下 div div class widget style width 313px height 269px Hello div div class widget style width 80px hei
Kotlin 用于基于 Cordova/Ionic 的插件

是否可以使用 Kotlin 作为框架语言作为 Cordova 插件第一个问题是它没有复制 kt 文件因为它查找 java 或 xml 如果是这样有人知道如何设置的参考吗最近我一直在 Cordova 插件中使用 Kotlin 但是当
可以使用webpack分别生成CSS和JS吗？

I have 我想要捆绑的 JS 文件我想要编译为 CSS 的 LESS 文件将 imports 解析为单个包我希望将它们指定为两个单独的输入并具有两个单独的输出可能通过 extract text webpack plugin We
如何在netbeans中运行php文件

我创建了一个扩展名为 php 的文件那么我应该如何使用 netbeans 运行这个文件我已经下载了带有所有捆绑功能的 netbeans 6 8 我已经看到 php 文件可以与 netbeans 一起运行所以我想问一下请解释一下运行
SQL 中的多个 LIKE 语句

我有一个包含有关零售商店信息的表我有一个零售连锁店名称列表沃尔玛塔吉特伊顿等当用户选择一个时我基本上会运行一个查询来查找与该连锁店有关的任何信息 SELECT FROM stores WHERE store name LIKE
如何使用 dotnet test 命令发布结果

我有一个用 dotnet core 编写的测试项目这需要以 XML 或 HTML 格式发布结果有没有办法使用相同的命令将结果发布到特定目录 result directory不适合我你可以看到所有dotnet test通过执行选项dot
在嵌入式 vimeo 播放器上添加覆盖层

这是我嵌入到我的网站中的视频 Fiddle https jsfiddle net hgtvqatm 问题是它很小并且播放和其他按钮覆盖了半个屏幕那么有什么方法可以在播放器上添加图层图像当您单击该图像时视频应该开始播放 http c
Jvectormap突出显示多个国家

我目前正在使用J向量图 http jvectormap com 并试图在将鼠标悬停在文本上时突出显示多个国家我已经达到了这样的程度如果我将鼠标悬停在非洲一词上它将突出显示整个地图当我将鼠标悬停在内容上时我将如何过滤它以仅突出显
我应该如何从json字符串中读取数据？ iPhone

我有一个NSString van 1 312 vuan 12 123 为了获得每个键的值我这样做 NSData data1 jsonResponse1 dataUsingEncoding NSUTF8StringEncoding json
如何修复“[08S01]通信链路故障最后一个数据包成功发送到服务器是在 0 毫秒前。”

我正在使用 PhpStorm DataGrip MySQL WAMP 开发一个 PHP 项目从那时起我就可以使用这些配置正常使用远程数据库参见图片但突然我收到这个错误 08S01 通信链路故障最后一次成功发送到服务器的数据包是在
当表无法返回值时，如何抓取表？（美汤）

以下是我的代码 import numpy as np import pandas as pd import requests from bs4 import BeautifulSoup stats page requests get htt

当表无法返回值时，如何抓取表？ （美汤）

当表无法返回值时，如何抓取表？ （美汤） 的相关文章

随机推荐

热门标签

当表无法返回值时，如何抓取表？（美汤）

当表无法返回值时，如何抓取表？（美汤）的相关文章