如何从通过 Javascript 加载的页面上 scrape 数据

2023-12-28

我想使用 beautifulsoup 刮掉此页面上的评论 - https://www.x....s.com/video_id/the-suburl

评论通过 JavaScript 在点击时加载。评论是分页的，每个页面也会在点击时加载评论。我希望获取所有评论，对于每条评论，我想获取海报个人资料网址、评论、编号。喜欢的数量、不喜欢的数量以及发布的时间（如页面上所述）。

注释可以是字典列表。

我该怎么办？

该脚本将打印页面上找到的所有评论：

import json
import requests
from bs4 import BeautifulSoup


url = 'https://www.x......com/video_id/gggjggjj/'
video_id = url.rsplit('/', maxsplit=2)[-2].replace('video', '')

u = 'https://www.x......com/threads/video/ggggjggl/{video_id}/0/0'.format(video_id=video_id)
comments = requests.post(u, data={'load_all':1}).json()

for id_ in comments['posts']['ids']:
    print(comments['posts']['posts'][id_]['date'])
    print(comments['posts']['posts'][id_]['name'])
    print(comments['posts']['posts'][id_]['url'])
    print(BeautifulSoup(comments['posts']['posts'][id_]['message'], 'html.parser').get_text())
    # ...etc.
    print('-'*80)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python3x

beautifulsoup

如何从通过 Javascript 加载的页面上 scrape 数据的相关文章

如何更改充当按钮的范围的文本

我正在为自定义 Web 应用程序编写自动化测试我遇到了无法更改跨度文本的问题我尝试过使用 driver execute script 但没有运气如果我更好地了解 javascript 这确实会有帮助据我所知您无法单击跨度并且列表
使用 python 将文本发送到带有逗号分隔符的列

如何使用分隔符在 Excel 中将一列分成两列并使用 python 命名标题这是我的代码 import openpyxl w openpyxl load workbook DDdata xlsx active w active a a
大收件箱上的 imaplib.select：命令参数太多

我正在尝试从 python 脚本访问 Gmail 中的电子邮件我使用的代码如下 import imaplib m imaplib IMAP4 SSL imap gmail com m login username password m s
Yocto 如何停止 cmake 在本机 sysroot 路径中查找链接？

到目前为止我正在尝试将 dlib python 模块添加到我的图像中这是我正在研究的食谱 python3 dlib 19 21 1 bb SUMMARY A toolkit for making real world machine l
Pipenv-Error：ModuleNotFoundError：没有名为“pip._internal”的模块[重复]

这个问题在这里已经有答案了今天我通过安装了 Pipenv pip install pipenv 正如文档中提到的我进入测试目录并使用创建了一个新的虚拟环境 pipenv shell 并尝试通过安装包 pipenv install nu
Python 3.4.3 tkinter - 程序在声明 IntVar 或任何其他 tkinter 数据类型时冻结

上一主题 Python 3 4 tkinter checkbutton变量处理不起作用响应 https stackoverflow com questions 33711472 python 3 4 tkinter checkbutton
地图与星图的性能？

我试图对两个序列进行纯Python 没有外部依赖逐元素比较我的第一个解决方案是 list map operator eq seq1 seq2 然后我发现starmap函数来自itertools 这看起来和我很相似但事实证明在最坏的情
Python3.1中的视图？

Python3 1中的视图到底是什么它们的行为方式似乎与迭代器类似并且它们也可以具体化为列表迭代器和视图有何不同据我所知视图仍然附加到创建它的对象上对原始对象的修改会影响视图来自docs http docs python or
如何将时间间隔划分为不同长度的部分？

我有一个从 0 到t 我想把这个区间分成一个以2 25 2 25 1 5为周期的累积序列方法如下 input start 0 stop 19 output sequence 0 2 25 4 5 6 8 25 10 5 12 14 25
如何在discord.py中循环任务

我正在尝试制作自己的小不和谐机器人它可以从 Twitch 获取信息但我对如何使机器人循环并检查条件感到困惑我希望机器人每隔几秒循环一段代码检查指定的抽搐频道是否处于活动状态 Code import discord from disc
urllib.error.URLError:

Python 3 4 2 当我在脚本中运行 urllib request urlopen url 时出现了一个奇怪的错误如果我直接在 Python 解释器中运行它它可以正常工作但当我通过 bash shell Linux 在脚本内运
如何在 Visual Studio 代码中的奇点/docker 图像中使用 python 解释器

我希望能够在 Visual Studio 代码的奇点图像中使用 python 解释器似乎将 VSCODE 指向 python 解释器的所有选项都涉及直接路径但在图像中使用 python 需要一个命令 singularity exec p
在 Mac OS 10.14.2 上的 Python 3.7 中安装 JPype1 时出错

我在系统中安装 JPype1 时遇到错误我正在使用Python 3 7 JPype1 是 Jaydebeapi 的依赖项 pip install Jpype1 以下是错误消息 Collecting jpype1 Using cached
在 SQLAlchemy 中，过滤器是在连接之前还是之后应用？

使用 SQLAlchemy 我执行如下查询 import models as m import sqlalchemy as sa s session maker q s query m ShareCount m Article join m
“KMeans”对象没有属性“k”

我使用 Yellowbrick 包绘制数据集的肘部曲线以使用 KMeans 作为模型找到数据集的最佳簇数我正在使用 Scikit learn KMeans 和 Yellowbrick kelbowvisualizer 函数生成了肘部曲
Python 3 - 如何告诉 pipelinev 使用 python 3 而不是 python 2？

我正在尝试使用 requests 模块这是我的安装方式 ec2 user ip xxx xx xx xxx newslookup pipenv install requests Creating a virtualenv for this
使用 Selenium 从 twitter 抓取动态推文

这可能看起来像一个重复的问题但相信我我在 Twitter 上观察到了一些新东西我之前制作了一个 Twitter 抓取工具它使用滚动和等待动态元素来获取给定数量的推文但现在好像不行了它不会抓取超过 10 条推文此外它抓取的推文
ModuleNotFoundError：没有名为：crispy_forms的模块[关闭]

Closed 这个问题是无法重现或由拼写错误引起 help closed questions 目前不接受答案我可以导入 Cripy forms 但是当我运行时python3 manage py runserver 它说没有名为 Cripy
通过子类化 `io.TextIOWrapper` 来子类化文件 - 但它的构造函数有什么签名？

我正在尝试子类化io TextIOWrapper下列的这个帖子 https stackoverflow com a 23796737 974555 虽然我的目标不同以此开始注意动机 https stackoverflow com a
在python中将列表转换为字符串

我对 python 语言相当陌生我一直在寻找这个问题的答案我需要一个如下所示的列表 Kevin went to his computer He sat down He fell asleep 转换为如下字符串 Kevin went to

随机推荐

JavaScript 有没有办法定期调用函数？

JavaScript 有没有办法定期调用函数 The setInterval 方法重复调用函数或执行代码片段每次调用之间有固定的时间延迟它返回一个唯一标识该间隔的间隔 ID 因此您可以稍后通过调用clearInterval 将其删除
Android - 将多种字体样式组合成一种字体（Typeface）

我有几种不同风格的字体可以说 MyFont default otf MyFont italic otf MyFont bold otf 通常我会像这样设置 TextView 的字体 Typeface tf Typeface create
R 按选定行号动态分割数据帧/子集 - 解析文本网格 praat

我正在尝试处理一个名为的分段文件 TextGrid 由 Praat 程序生成原始格式如下所示 File type ooTextFile Object class TextGrid xmin 0 xmax 243 761375 tiers
Django - 迁移外键字段类型与当前类型不匹配

我正在使用 MSSQL 数据库并且在 Django 进入演出之前我已经创建了一些表因此检查数据库我得到了模型managed False元选项然后我创建了其他与 Django 迁移相关的内容这些模型是这样的 class ModelAl
Windows UAC 对话框

我有一个没有资源的应用程序根本没有资源所以也没有 UAC 清单该应用程序使用 CopyFile 将自身安装到 appdata roaming 文件夹中它还设置自动启动以便每次启动时自动启动现在每次启动电脑时都会弹出 UAC
is_assignable<> 的结果不一致[重复]

这个问题在这里已经有答案了可能的重复 is convertible is assignable 和有什么区别 https stackoverflow com questions 13952404 what is the differen
Rails 3 邮件发送问题

我正在使用 Rails 3 并实现电子邮件发送功能我不确定我的配置是否正确但这是我的代码邮件程序 user mailer rb class UserMailer lt ActionMailer Base default from gt
组件测试中的角度单击选择选项

我已尝试以下操作来尝试单击选择下拉列表中的选项但没有任何效果 selectEl fixture debugElement query By css dropdown selectEl nativeElement options 3 nat
如何使用博主视频作为 iframe（错误 400）

我有一个网站我使用博客中托管的视频作为 iframe 代码如下所示多年来它运行得很好但目前它显示一条错误消息 Bad Request Error 400 但现在博主需要令牌才能观看博主上托管的视频链接现在如下所示 https www
如何使用执行选择器在特定时间段后将函数与参数联系起来

我是这个 iPhone 应用程序编程的新手我有一个函数其参数类型作为结构指针如下所示 void responce structurePtr someData 我想使用调用这个函数performselector method5秒的时间间
ES6 模块如何作为 Node 中的脚本运行？

ES6 模块如何作为 Node 中的脚本运行当我尝试这个 shebang 时我收到一个错误 usr bin env node experimental modules usr bin env node experimental modu
暂停线程的执行而不休眠？

我正在使用 Skype API 它每次收到一条消息都会发回一条消息我不确定这是否真的is是什么原因造成的但这是我能得到的最接近的结果当我发送太多消息时 COM 控件无法处理所有回复这会导致整个应用程序崩溃当我使用时会发生这种情况f
为什么 Silverlight 不处理我的自定义浮点属性的转换

在 Silverlight 4 项目中我有一个扩展 Canvas 的类 public class AppendageCanvas Canvas public float Friction get set public float Rest
如何计算 pandas 中事件之间的时间

原始问题我陷入了以下问题我试图找出车辆在工厂存放的具体时间和时间我有一个 Excel 工作表其中存储了所有事件这些事件要么是交付路线要么是维护事件最终目标是获得一个数据帧其中给出了车辆登记号以及相应的到达工厂和在那里花费的时
GWT - DialogBox.center() 无法正常工作

我的页面上有一个带有按钮的表格按钮太多了我有一个滚动条可以向下滚动表格按钮 onClick 生成一个对话框其中包含滚动面板内容和用于关闭该对话框的按钮我使用 DialogBox center 将其居中当我按下表格中的第一个按钮
如何将模拟器连接到 laravel 服务器 localhost:8000

当我的 Android 应用程序使用 10 0 0 2 8080 连接到 wampserver 中的项目时我可以连接到 localhost 8080 但我使用 laravel 并且我的 Web 服务位于 localhost 8000 我想
Bootstrap 响应式附加菜单

我想要一个固定菜单如引导文档 http twitter github com bootstrap base css html 与引导文档上一样它没有贴在手机上我有以下代码 div class container div class r
为什么我应该将实现的接口方法声明为“公共”？

interface Rideable String getGait public class Camel implements Rideable int weight 2 String getGait return mph lope voi
如何在 Windows 10 Powershell 上使用 npm 脚本递归复制整个目录？

如何在 Windows 10 Powershell 上使用 npm 脚本递归复制整个目录现在我有以下树 test 1 package json 2 src asd txt asd asd Copy 2 txt asd Copy txt a
如何从通过 Javascript 加载的页面上 __scrape__ 数据

我想使用 beautifulsoup 刮掉此页面上的评论 https www x s com video id the suburl 评论通过 JavaScript 在点击时加载评论是分页的每个页面也会在点击时加载评论我希望获取所有评

如何从通过 Javascript 加载的页面上 __scrape__ 数据

如何从通过 Javascript 加载的页面上 __scrape__ 数据 的相关文章

随机推荐

热门标签

如何从通过 Javascript 加载的页面上 scrape 数据

如何从通过 Javascript 加载的页面上 scrape 数据的相关文章