删除评论标签但不满足于 BeautifulSoup

2023-12-08

我正在使用 BeautifulSoup 练习一些网页抓取，特别是我正在查看 NFL 比赛数据，更具体地说是本页上的“球队统计”表（https://www.pro-football-reference.com/boxscores/201809060phi.htm).

当查看表格的 HTML 时，我看到如下内容：

<div class="section_heading">...</div>
<div class="placeholder"></div>
<!--
    <div class="table_outer_container">
        <div class="overthrow table_container" id="div_team_stats">
            <table class="stats_table" id="team_stats" data-cols-to-freeze=1>
                ....
            </table>
        </div>
    </div>
-->

本质上，渲染到页面的 HTML 作为注释存储在 HTML 中，因此我可以找到表的 div，但 BeautifulSoup 无法解析表本身，因为它都在注释中。

有没有一个好的方法来解决这个问题，以便我可以使用 BeautifulSoup 解析表 HTML？我想出了如何提取注释文本，但我不知道是否有好的方法将生成的字符串转换为可用的 HTML。或者，可以简单地删除注释标签，我认为这会使其被解析为 HTML，但我也没有找到一个好的方法来做到这一点。

from bs4 import BeautifulSoup, Comment
for comments in soup.findAll(text=lambda text:isinstance(text, Comment)):
    comments.extract()

由此，您将能够取出所有评论并获取评论之间的文本并将其放入 BS4 中以提取其中的数据。希望这有效。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

删除评论标签但不满足于 BeautifulSoup 的相关文章

为什么在连接两个字符串时 Python 比 C 更快？

目前我想比较 Python 和 C 用来处理字符串的速度我认为 C 应该比 Python 提供更好的性能然而我得到了完全相反的结果这是 C 程序 include
App Engine NDB：如何访问属性的 verbose_name

假设我有这个代码 class A ndb Model prop ndb StringProperty verbose name Something m A m prop a string value 当然现在如果我打印 m prop 它会
使用pathlib获取主目录

翻看新的pathlib在 Python 3 4 中我注意到没有任何简单的方法来获取用户的主目录我能想到的获取用户主目录的唯一方法是使用旧的os path像这样的库 import pathlib from os import path p
在linux上安装python ssl模块，无需重新编译

是否可以在已经安装了 OpenSSL 的 Linux 机器上安装 python 的 SSL 模块而无需重新编译 python 我希望它就像复制几个文件并将它们包含在库路径中一样简单 Python版本是2 4 3 谢谢是否可以在已经安装了
为什么 re.findall 在查找字符串中的三元组项时不具体。 Python

所以我有四行代码 seq ATGGAAGTTGGATGAAAGTGGAGGTAAAGAGAAGACGTTTGA OR 0 re findall r ATG 9 TAA TAG TGA seq 首先让我解释一下我正在尝试做什么如果这令人困惑
查找与另一列 Pandas 中的唯一值关联的列中的值的交集

如果我有一个像这样的数据框非常小的例子 col1 col2 0 a 1 1 a 2 2 b 1 3 b 2 4 b 4 5 c 1 6 c 2 7 c 3 我想要所有的交集col2当价值观与其独特性相关时col1值因此在这种情况下交集
在 Linux 上使用多处理时，TKinter 窗口不会出现

我想生成另一个进程来异步显示错误消息同时应用程序的其余部分继续我正在使用multiprocessingPython 2 6 中的模块来创建进程我试图用以下命令显示窗口TKinter 这段代码在Windows上运行良好但在Linux上
Py2exe - Pmw WindowsError：[错误 3]

我正在尝试使用 Py2exe 构建独立的可执行文件我已经导入了 Pmw 类当我运行独立可执行文件时出现以下错误 Traceback most recent call last File py line 9 in
高级描述熊猫

有没有像 pandas 那样更高级的功能通常我会继续这样 r pd DataFrame np random randn 1000 columns A r describe 我会得到一份很好的总结就像这样 A count 1000 000
从迭代器外部将 StopIteration 发送到 for 循环

有几种方法可以打破一些嵌套循环他们是 1 使用中断继续 for x in xrange 10 for y in xrange 10 print x y if x y gt 50 break else continue only exec
Python 2.7 缩进错误[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案这个问题是由拼写错误或无法再重现的问题引起的虽然类似的问题可能是on topic help on topic在这里这个问题的解决方式不
不使用控件时，视频元素在 Chrome 中消失

So I think这是一个浏览器错误它出现在一个更复杂的设计网站中但我已经进行了很好的尝试简化了我的代码和设计等并发现了以下内容嵌入时
如何创建用于霍夫曼编码和解码的树？

对于我的作业我将对霍夫曼树进行编码和解码我在创建树时遇到问题并且陷入困境不要介意打印语句它们只是让我测试并查看函数运行时的输出是什么对于第一个 for 循环我从主块中用于测试的文本文件中获取了所有值和索引在第二个 for 循
水平对齐输入字段

我正在尝试获取一个输入字段并且它与同一水平线上的关联提交按钮相关但事实证明这是一个挑战这是我的代码
UnicodeDecodeError：部署到 Heroku 时，“utf-8”编解码器无法解码位置 0 中的字节 0xff

我尝试在heroku上部署我的简单django项目但我不明白如何解决这个问题这是git push heroku master remote Traceback most recent call last remote File tmp
如何使用 enumerate 来倒数？

letters a b c 假设这是我的清单在哪里for i letter in enumerate letters 将会 0 a 1 b 2 c 我怎样才能让它向后枚举如 2 a 1 b 0 c 这是一个很好的解决方案并且工作完美 i
使用 pandas 单元格中列表的长度选择行[重复]

这个问题在这里已经有答案了我有一张表 df a b c 1 x y x 2 x z c d 3 x t e f g 只是想知道如何使用 c 列的长度选择行 such as df loc len df c gt 1 我知道这是不对的正确的
MoviePY 无法在 Windows 上检测 ImageMagick 二进制文件

我刚买了一台新笔记本电脑想要设置MoviePY在那新的Windows 64x Python3 7 0 机器我对所有内容都进行了三次检查但是当涉及到我的代码的文本部分时它向我抛出了这个错误 OSError MoviePy Error
如何同时接受int和float类型的输入？

我正在制作一个货币转换器如何让 python 同时接受整数和浮点数我就是这样做的 def aud brl amount From to ER 0 42108 if amount int if From strip aud and to
基于值的 matplotlib 条形图颜色

有没有一种方法可以根据条形图的值对条形图的条形进行着色例如 values below 0 5 red values between 0 5 to 0 green values between 0 to 08 blue etc 我找到了一些

随机推荐

在多页中获取 Activecontrol

我正在尝试获取该名称Listbox我刚刚选择的 ListBox1 Caveat ListBox1位于Multipage1 在第一个选项卡上 Private Sub ListBox1 Click Dim m As String m Me Ac
在 Ubuntu 14.04 上的 Python 2.6 上安装 M2Crypto 0.20.1

我需要在 Ubuntu 14 04 上从 Python 2 6 的源代码编译并安装 M2Crypto 0 20 1 我现在无法迁移到 Python2 7 但我们正在计划这样做我安装了Python2 6https launchpad net
使用 Sass 定制引导程序；我到底应该在我的 scss 文件中导入 bootstrap 吗？

在尝试使用 Sass 自定义引导程序时我注意到覆盖默认引导程序变量似乎以一种不连贯的方式工作并且希望有人可以解释到底发生了什么导致这种行为某些变量似乎只有在导入 bootstrap 之前声明时才会被覆盖其他变量似乎只有在导入 boo
当密钥未翻译时使用默认语言后备

我可以使用默认语言例如英语作为其他语言的 Localized strings 文件中的未翻译键吗为此您可以使用英文单词作为 Localized strings 文件中的键另一种方法是检查 NSLocalizedString 的结果
如何在悬停子元素时更改父元素的颜色

我有一个带有社交链接的 div 当悬停任何具有不同颜色的锚点时我想使背景颜色填充整个 div 具体取决于悬停的链接目前背景仅在锚文本下方发生变化我正在研究使用纯 CSS 为整个父级填充子级背景颜色的方法 social width 4
JPA：如何在静态 JPA 元模型中对 NUMBER 列执行 LIKE？

我确实有一个带有 NUMBER 实际上是 BigDecimal 不要问为什么列的静态元模型现在我想对该数字列进行 LIKE 查询 CriteriaBuilder cb cb like entity get Entity numberco
如何链接多个 Promise？

我不太确定也许我错过了一些明显的东西但我不知道如何链接两个承诺我的基于回调的代码看起来像这样 async series function cb Create the directory if the nodir switch isn
为什么 Erlang 中阶乘不会溢出堆栈？

module demo export factorial 1 factorial 0 gt 1 factorial N gt N factorial N 1 阶乘不是尾递归但为什么它不会溢出堆栈我能够在没有堆栈溢出的情况下获得 100
将未定义的类设为友元，然后再定义它

交一个不认识的朋友 template
一次性更改多个文件的 EOL

Notepad 或者甚至使用其他工具有什么方法可以自动更改行结尾一次性处理多个文件即转换 Windows EOL 的混合 CRLF 和 UNIX EOL LF 文件全部为 Windows EOL CRLF The Replace对话框可
将 printf 重定向到两个流

我正在扩展一个现有的 C 项目将所有信息打印到stdout with printf 我希望将此信息打印到标准输出和日志文件如果我是原始项目的贡献者我会替换所有printf使用我的自定义日志函数进行调用唉我不是所以这是我的问题是
SQL 包含问题

谁可以给我解释一下这个我有两个查询及其结果如下 query select from tbl where contains name he AND ca 结果集赫兹租车海明威的小酒馆 query select from tbl wher
Unity 3D/球体中的翻转法线

我已经为我的游戏编写了这段代码我想要的是统一翻转纹理上的法线我有一个模型和一个纹理希望纹理位于球体模型内部而不是外部我想通过在翻转纹理顶部的球体内部的图像周围移动相机来创建 360 度全景效果现在当我第一次按下播放按钮时它运行
PHP domDocument 删除子节点的子节点

如何删除子节点的父节点但保留所有子节点 XML 文件是这样的
插入一行并避免竞争条件 (PHP/MySQL)

我正在开发一款多人游戏该游戏有一个类似大厅的区域玩家可以选择要进入的区域大厅网关由 PHP 提供支持而实际的游戏玩法则由一台或多台 Java 服务器处理数据存储是MySQL 幸福之路玩家选择一个区域并告诉大厅他想进入大厅检查
如何使用 PowerShell 导出特定的 Excel 列？

我有一个包含多列的 Excel 我想将一些特定列导出到 xlsx文件但它导出 Excel 的前 3 列而不是具有特定标题的列 Host CPU usage Memory usage SourceFileDirectory C TEMP
使用方法为案例类生成伴随对象（字段 = 方法）

使用 scala macros 为案例类生成伴随对象我尝试过的一些代码示例它有效我可以获取元组列表名称 gt 类型但如何在同一范围内生成对象 import c universe val tpe weakTypeOf T val f
从 R 中的函数写入全局环境

我是 R 新手在理解如何处理本地和全局环境方面遇到一些困难我检查了Post关于局部和全局变量但无法弄清楚例如如果我想使用一个函数绘制几张图并像这样保存它们 PlottingFunction lt function type typ
嵌套 CSS 网格布局在 Chrome 和 Firefox 中的不同行为

我正在尝试使用 CSS 网格布局来模拟一些响应行为特别是 grid template columns repeat auto fill minmax 250px 1fr 我的例子https codepen io elgs pen goNx
删除评论标签但不满足于 BeautifulSoup

我正在使用 BeautifulSoup 练习一些网页抓取特别是我正在查看 NFL 比赛数据更具体地说是本页上的球队统计表 https www pro football reference com boxscores 20180906

删除评论标签但不满足于 BeautifulSoup

删除评论标签但不满足于 BeautifulSoup 的相关文章

随机推荐

热门标签