BeautifulSoup从评论html中提取文本[重复]

2023-12-05

抱歉，如果这个问题与其他问题相似，我无法使任何其他解决方案发挥作用。我正在使用 beautifulsoup 抓取一个网站，并尝试从评论的表字段中获取信息：

<td>
    <span class="release" data-release="1518739200"></span>
    <!--<p class="statistics">

                      <span class="views" clicks="1564058">1.56M Clicks</span>

                        <span class="interaction" likes="0"></span>

    </p>-->
</td>

如何获得“观看次数”和“互动次数”部分？

您需要从评论中提取 HTML 并使用 BeautifulSoup 再次解析它，如下所示：

from bs4 import BeautifulSoup, Comment
html = """<td>
    <span class="release" data-release="1518739200"></span>
    <!--<p class="statistics">

                      <span class="views" clicks="1564058">1.56M Clicks</span>

                        <span class="interaction" likes="0"></span>

    </p>-->
</td>"""
soup = BeautifulSoup(html , 'lxml')
comment = soup.find(text=lambda text:isinstance(text, Comment))
commentsoup = BeautifulSoup(comment , 'lxml')
views = commentsoup.find('span', {'class': 'views'})
interaction= commentsoup.find('span', {'class': 'interaction'})
print (views.get_text(), interaction['likes'])

Outputs:

156 万次点击 0

如果评论不是页面上的第一个评论，您需要像这样索引它：

comment = soup.find_all(text=lambda text:isinstance(text, Comment))[1]

或者从父元素中找到它。

更新回应评论：

为此，您可以使用父“tr”元素。您提供的页面有“共享”而不是“交互”，所以我希望您得到一个 NoneType 对象，它给您带来了您看到的错误。如果需要，您可以在代码中添加 NoneType 对象的测试。

from bs4 import BeautifulSoup, Comment
import requests
url = "https://imvdb.com/calendar/2018?page=1"
html = requests.get(url).text
soup = BeautifulSoup(html , 'lxml')

for tr in soup.find_all('tr'):
    comment = tr.find(text=lambda text:isinstance(text, Comment))
    commentsoup = BeautifulSoup(comment , 'lxml')
    views = commentsoup.find('span', {'class': 'views'})
    shares= commentsoup.find('span', {'class': 'shares'})
    print (views.get_text(), shares['data-shares'])

Outputs:

3.60K Views 0
1.56M Views 0
220.28K Views 0
6.09M Views 0
133.04K Views 0
163.62M Views 0
30.44K Views 0
2.95M Views 0
2.10M Views 0
83.21K Views 0
5.27K Views 0
...

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

webscraping

beautifulsoup

comments

BeautifulSoup从评论html中提取文本[重复] 的相关文章

如何将本机 popcount 与 numba 一起使用

我正在使用 numba 0 57 1 我想在我的代码中利用本机 CPU popcount 我现有的代码太慢因为我需要运行它数亿次这是一个 MWE import numba as nb nb njit nb uint64 nb uint6
如何修复 Apache mod_wsgi 的 Python 版本不匹配问题？

我收到此错误 Thu Jul 12 14 31 36 2012 error python init Python version mismatch expected 2 6 7 found 2 6 8 当尝试启动 Apache 服务器时在
使用 Python 在 Google Cloud Storage 存储桶中创建/上传新文件

如何使用 Python 和可用的客户端库在 Google Cloud Storage 中创建新的空文件或者如何使用 blob 函数 upload from filename 将新文件上传到选定的存储桶要初始化 blob 对象我们应该在
如何使用 lxml 解析包含前缀但没有名称空间声明的 XML？

我有一堆使用前缀但没有相应名称空间声明的 XML 文件像这样的东西
Python grpc protobuf 存根生成问题：--grpc_out: protoc-gen-grpc: 插件失败，状态代码 1

正如问题所说我从源代码编译了 grpc 并且也做了sudo pip install grpcio 但是那which grpc python plugin不返回任何内容这是一个问题因为route guide的grpc python示例
蜘蛛内的Scrapyd jobid值

Scrapy 框架 Scrapyd 服务器我在获取蜘蛛内部的 jobid 值时遇到一些问题将数据发布到后http localhost 6800 schedule json http localhost 6800 schedule jso
turtle.Screen().screensize() 未输出正确的屏幕尺寸[重复]

这个问题在这里已经有答案了我编写了一些代码来在屏幕周围随机放置点但是它并没有覆盖整个屏幕 import turtle import random t turtle Turtle color red green blue pink ye
如何为 C 分配的 numpy 数组注册析构函数？

我想在 C C 中为 numpy 数组分配数字并将它们作为 numpy 数组传递给 python 我可以做的PyArray SimpleNewFromData http docs scipy org doc numpy reference
从主机名中提取域名

是否有一种编程方式可以从给定的主机名查找域名给出 gt www yahoo co jp 返回 gt yahoo co jp 有效但非常慢的方法是拆分为并从左侧删除 1 个组使用 dnspython 加入并查询 SOA 记录当返回有
类型错误：需要 Future 或协程

我尝试在 asyncssh 上自动重新连接 ssh 客户端 SshConnectManager 必须留在后台并在需要时进行 ssh 会话 class SshConnectManager object def init self host u
哈米尔评论结束

我是哈米尔新手这让我很困惑我不喜欢删除可以注释掉的代码但我不知道如何在 haml 中正确结束注释这是一个代码片段 field f label member id br f text field member id field f l
如何在Python中求和

我想知道如何在 python 中表示总和而不需要像这样的循环here http docs scipy org doc scipy reference tutorial optimize html 我们有 def rosen x The Ro
如何使用 xlrd 将新列和行添加到 .xls 文件

如何向 xlrd 中的工作表添加新列和或行我有一个使用 open workbook 读取的 xls 文件我需要在第一张表中添加一个新列 bouncebacks 然后在该表中添加新行但我在 xlrd 文档中找不到任何显示如何添加新行和
是否有更矢量化的方法来沿轴执行 numpy.outer ？

gt gt gt x np array a0 a1 b0 b1 gt gt gt y np array x0 x1 y0 y1 gt gt gt iterable np outer x i y i for i in xrange x sha
如何删除 pandas 数据框中的唯一行？

我遇到了一个看似简单的问题在 pandas 数据框中删除唯一的行基本上相反drop duplicates https pandas pydata org pandas docs stable generated pandas Data
使 np.loadtxt 使用多个可能的分隔符

我有一个程序可以读取数据文件用户可以选择他们想要使用的列我希望它对于输入文件更加通用有时列可能如下所示 10 34 24 58 8 284 6 121 有时它们可能看起来像这样 10 34 24 58 8 284 6 121 我希
如何绘制多类分类器的精度和召回率？

我正在使用 scikit learn 我想绘制精度和召回曲线我正在使用的分类器是RandomForestClassifier scikit learn 文档中的所有资源都使用二元分类另外我可以绘制多类的 ROC 曲线吗另外我只找到
检查多个 pd.DataFrame 是否相等

是否有一种 Pythonic 方式无循环或递归来检查是否超过两个pd DataFrames 例如 pd DataFrames 列表彼此相等吗就像是 all x equals dfs 0 for x in dfs with dfs数据
Flask 扩展未在 app.extensions 中注册

我想访问在我的 Flask 应用程序上注册的一些扩展我尝试使用app extensions 但我初始化的一些扩展不在字典中 from flask import current app current app extensions get
部署 Flask 应用程序时如何检测额外文件的更改并重新加载应用程序？ [关闭]

Closed 这个问题需要调试细节 help minimal reproducible example 目前不接受答案我在 Flask 中构建了一个小型 Web 应用程序并尝试将其部署在 Pythonanywhere 上在开发过程中

随机推荐

为什么A类采用协议不能满足ProtocolliB要求

我创建了下面的游乐场代码以说明我在当前项目中遇到的困难谁能帮助我理解最后一行的编译器错误 import Foundation This Compiles protocol Protocol1 AnyObject var related
如何强制使用 SVG 元素显示的图像覆盖整个宽度和高度

我使用生成了模糊图像svg元素我希望它覆盖屏幕的整个宽度和高度现在为了更好地理解我在下面提供两个小提琴以及最后我想要实现的结果 Fiddle 1 图像模糊但没有覆盖整个屏幕 Fiddle 2 图像不模糊但覆盖了整个屏幕我想要的结果
评估字符串作为条件 PHP

我有一个自定义验证规则模块本质上允许用户设置 CSV 验证我的问题是我把它放到这个数组中 Array field name gt is int 324230435 some other field gt strlen some str
访问视图模型类中的统一容器

我有一个看起来像工具栏的外壳它定义了我的主要区域包裹面板我需要做的是能够将小部件添加到外壳中并且当单击小部件时会打开一个新窗口视图以下是我到目前为止所拥有的我创建了一个模块类它将视图添加到主区域 public class
Pandaic 方法检查数据帧是否有任何行[重复]

这个问题在这里已经有答案了给定一个数据框df 我会应用一些条件df condition 并检索一个子集我只想检查子集中是否有任何行这会告诉我条件是有效的 In 551 df Out 551 Col1 0 1 1 2 2 3 3 4 4
Uploadive动态发布输入变量

下面的问题是当函数启动的时候当然 MyInputVariable是空的 function file upload uploadifive auto false dnd true checkScript check exists php
如何序列化属性内具有闭包的对象？

if I do serialize obj I get 不允许序列化 Closure 序列化时有什么方法可以忽略这些闭包吗无论如何当我反序列化字符串时我不需要它们这些属性的值可以为空或其他我的班级看起来像这样 Class Node
扩展方法语法与查询语法[重复]

这个问题在这里已经有答案了我正在尝试了解是否有合适的时机使用标准 linq 关键字或带有 lambda 表达式的 linq 扩展方法他们似乎做同样的事情只是写法不同这纯粹是风格问题吗 var query from p in Prod
带过滤器的 Spring Security 允许所有功能都不起作用

我有这个安全配置 Override public void configure HttpSecurity http throws Exception http addFilterBefore new JwtLoginFilter login
使用 Python C API 版本 2 和 3 的二进制文件

在一个开源项目中1我们使用 Python C API 将 Python Cython 和 C C 模块与一个 C 库混合在一起 API 仅将几个函数的名称从 2 更改为 3 假设该库是在没有这些函数的情况下编写的如果用Python2编译它
GitHub：权限被拒绝（公钥）。 fatal：远端意外挂断

我已按照以下说明上传项目全局设置 Download and install Git git config global user name Your Name git config global user email email prot
快速打印变量内存地址

有没有办法模拟 NSString stringWithFormat p myVar 来自 Objective C 用新的 Swift 语言例如 let str A String println str value str has addr
当 BottomAppBar 从隐藏状态返回时，BottomAppBar FabCradleMargin 变得更小，几乎持平

当 hideonScroll 设置为 true 时在我的应用程序中导航并向上向下滚动时我的底部应用程序栏中的 FabCradleMargin 变得越来越小几乎平坦我遇到了一个问题当 BottomAppBar 从屏幕上隐藏时它会
如何根据另一列的 NaN 值设置 pandas 数据框中的值？

我有名为df具有原始形状 4361 15 一些agefm列的值为 NaN 只是看看 gt df df agefm isnull True agefm shape 2282 然后我创建新列并将其所有值设置为 0 df nevermarr 0
如何在 C# 中登录网页并检索其内容？

如何在 C 中登录网页并检索其内容这取决于登录所需的内容您可以使用 Web 客户端将登录凭据发送到服务器的登录页面通过所需的任何方法 GET 或 POST 但这不会保留 cookie 有一个way让 Web 客户端处理 Cookie
我应该在哪里放置实现相同接口的多个类所需的通用逻辑？

给出以下接口 public interface IFoo bool Foo Person a Person b 以及上述的以下两个实现 public class KungFoo IFoo public bool Foo Person a P
使用 SQLite 的 Django 中的日期时间差异

我正在创建一个需要执行日期差异的 Django 应用程序给定一个模型start date and end date both DateFields 在 Postgres 上它的工作原理如下 model objects annotate
javascript数字精度而不转换为字符串

我正在开发 REST API 并返回 JSON 其中一个字段称为submissionPercent 我需要它是一个数字但精确到小数点后两位如果submissionPercent是20 我需要返回20 00 如果submissionPer
程序hadoop启动错误：PriviledgedActionException

我写了以下程序 using namespace std include hadoop Pipes hh include hadoop TemplateFactory hh include hadoop StringUtils hh incl
BeautifulSoup从评论html中提取文本[重复]

这个问题在这里已经有答案了抱歉如果这个问题与其他问题相似我无法使任何其他解决方案发挥作用我正在使用 beautifulsoup 抓取一个网站并尝试从评论的表字段中获取信息 td span class release span td

BeautifulSoup从评论html中提取文本[重复]

BeautifulSoup从评论html中提取文本[重复] 的相关文章

随机推荐

热门标签