无限滚动抓取网站

2024-04-04

我写了很多抓取工具，但我不太确定如何处理无限滚动条。如今，大多数网站（例如 Facebook、Pinterest）都有无限滚动条。

您可以使用 selenium 废弃 twitter 或 facebook 等无限滚动网站。

步骤 1：使用 pip 安装 Selenium

pip install selenium

步骤2：使用下面的代码自动无限滚动并提取源代码

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support.ui import Select
from selenium.webdriver.support.ui import WebDriverWait
from selenium.common.exceptions import TimeoutException
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import NoSuchElementException
from selenium.common.exceptions import NoAlertPresentException
import sys

import unittest, time, re

class Sel(unittest.TestCase):
    def setUp(self):
        self.driver = webdriver.Firefox()
        self.driver.implicitly_wait(30)
        self.base_url = "https://twitter.com"
        self.verificationErrors = []
        self.accept_next_alert = True
    def test_sel(self):
        driver = self.driver
        delay = 3
        driver.get(self.base_url + "/search?q=stckoverflow&src=typd")
        driver.find_element_by_link_text("All").click()
        for i in range(1,100):
            self.driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
            time.sleep(4)
        html_source = driver.page_source
        data = html_source.encode('utf-8')


if __name__ == "__main__":
    unittest.main()

步骤 3：如果需要，打印数据。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

screenscraping

scraper

无限滚动抓取网站的相关文章

pip/easy_install 失败：创建进程失败

关注这篇文章后如何在 Windows 上安装 pip https stackoverflow com questions 4750806 how to install pip on windows在我使用 Enthought Canopy
如何使用 python 在 Windows 中禁用/启用特定 USB 端口？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我想在图形窗口中创建一个切换开关可以使用 python 禁用启用 Windows 中的特定 USB 端口我可以使用哪个外部命令或
Twitter API - 获取关注者的关注者数量

我试图获取特定帐户的每个关注者的关注者数量目标是找到最有影响力的关注者我在 Python 中使用 Tweepy 但遇到了 API 速率限制在被切断之前我只能获取 5 个关注者的关注者数量我正在查看的帐户大约有 2000 名关注者有
Python 和 Numpy 是 nan 和 set

我在使用 Python 的 Numpy set 和 NaN 非数字时遇到了不可预测的行为 gt gt gt set np float64 nan np float64 nan set nan nan gt gt gt set np flo
Tkinter：消息小部件中锚点选项的正确值是多少？

我一直在学习 tkinterTkinter 中的消息小部件 https python course eu tkinter message widget in tkinter php at Python 课程和教程 https python
McNemar 在 Python 中的测试以及分类机器学习模型的比较 [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案有没有用 Python 实现的好的 McNemar 测试我在 Scipy stats 或 Scikit
如何获取numpy.random.choice的索引？ - Python

是否可以修改 numpy random choice 函数以使其返回所选元素的索引基本上我想创建一个列表并随机选择元素而不进行替换 import numpy as np gt gt gt a 1 4 1 3 3 2 1 4 gt gt
以类型化内存视图作为成员的结构定义

目前我正在尝试让一个具有类型化内存视图的结构能够工作例如 ctypedef struct node unsigned int inds 如果 inds 不是内存视图据我所知它可以完美地工作然而通过内存视图并使用类似的东西 def
将 pandas 剪切操作转换为常规字符串

我明白了 pandas cut 操作的输出 0 0 20 1 0 20 2 0 20 3 0 20 4 0 20 5 0 20 6 0 20 7 0 20 8 0 20 9 0 20 如何将 0 20 转换为 0 20 我正在这样做 str
在 Mac OSX 上从 Python 3.6 运行 wine 命令

我正在尝试用 Python 编写一个打开的脚本wine然后发送代码到wine终端打开一个 exe程序这 exe程序也是命令驱动的我可以打开wine 但我无法进一步 import shlex subprocess line usr bin
仅当某些值相等时，如何才能将一个文本文件中的值替换为另一个文本文件中的其他值？

我有一个名为finalscores txt我想创建一个 python 脚本它将打开它并从两个单独的列中读取值这是我的finalscores txt file Atom nVa predppm avgppm stdev delta QPr
更改QLineEdit的ClearButton图标

我想在Windows 10 1909 64位上的Python 3 8和PyQt5 5 15 0 上更改我的QLineEdit的ClearButton图标稍后我想在Linux上运行代码我尝试应用此处找到的代码如何在 QLineEdit
Python 2 的 `exceptions` 模块在 Python3 中丢失了，它的内容到哪里去了？

一位朋友提到对于 Python 2 假设您在命令行上的路径环境变量中有它 pydoc exceptions 非常有用知道它应该可以为他每周节省几分钟的网络查找时间我自己每周都会用谷歌搜索一次例外层次结构所以这对我来说也是一个有用的提
使用seaborn绘制简单线图

我正在尝试使用seaborn python 绘制ROC曲线对于 matplotlib 我只需使用该函数plot plt plot one minus specificity sensitivity bs where one minus s
Discord.py 嵌入中禁用按钮/冻结按钮

I m trying to make a replica of this bot in which when I press any of the buttons below it shows a dropdown menu and you
确定分割形状几何体的“左”侧和“右”侧

我的问题是我怎样才能确定哪一个Aside and Bside的侧面已经分割的旋转矩形几何体 http nbviewer jupyter org urls dl dropbox com s ll3mchnx0jwzjnf determine
PyInstaller“ValueError：源代码字符串不能包含空字节”

我得到了一个ValueError source code string cannot contain null bytes执行命令时pyinstaller main py在具有和不具有管理员权限的cmd中 Traceback most re
如何通过函数注释指示函数需要函数作为参数，或返回函数？

您可以使用函数注释 http www python org dev peps pep 3107 在python 3中指示参数和返回值的类型如下所示 def myfunction name str age int gt str return
将时间添加到日期时间

我有一个像这样的日期字符串然后使用strptime 所以就像这样 my time datetime datetime strptime 07 05 15 m d Y 现在我想添加 23 小时 59 分钟my time 我努力了 timed
django jet 中的自定义徽标

我目前正在尝试对 django 管理面板的皮肤进行一些定制以使其更符合我们的品牌目前我们使用 django jet 来美化管理面板 django jet 可以自定义 css html 吗所有评论都说我应该更改一些 html 文件但我

随机推荐

无法从命令行运行 swing

我使用Windows中的命令行来编译然后执行我的java程序我去了http java sun com docs books tutorial uiswing start compile html http java sun com doc
对所有当前播放的视频执行一个 AVPlayer 的 AVPlayerItemDidPlayToEndTime 操作

问题在有播放器的集合视图单元格中如果我同时播放两个视频并寻找第一个视频结束然后AVPlayerItemDidPlayToEndTime发射了两次并且两个视频都重新启动在集合视图单元格中我有 override func awakeFro
SQL 到 outfile - 文件存储在哪里？（MySQL、Windows）

我正在使用 MySQL 并希望将以下查询的结果存储在我的计算机本地的 csv 文件中 SELECT INTO OUTFILE mysqlresults csv FIELDS TERMINATED BY OPTIONALLY ENCLOSED
当给定这个模式与整数值匹配时，为什么 scala 会抱怨？

Goal 编写一个函数生成一个排除指定字符由索引标识的新字符串 Example takeAllExcept 0 abc 回报bc takeAllExcept 1 abc 回报ac takeAllExcept 2 abc 回报ab 我最
Visual Studio 2010 - 推荐的扩展[关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
启动时加载 FastAPI 项目中的模型

所以我目前正在开发一个为多种 NLP 服务提供服务的 FastAPI 项目为此我想提供来自 spacy 和 Huggingface 的不同模型自从那些模型相当大的推理时间为每个发布请求加载模型相当长我的想法是在 FastAPI 启动
如何更改handleError？

我有 jquery 脚本它应该向我的文件发送响应如果一切顺利我会成功但如果错误我应该得到错误函数但我得到jQuery handleError is not a function jQuery handleError s xml
为 Python 3 安装 ipdb？ [复制]

这个问题在这里已经有答案了我安装了ipdb https pypi python org pypi ipdb using pip 但我仍然得到 ImportError No module named ipdb 我还需要做其他事情才能引入这个
module.exports 返回未定义

我目前是新来的Node JS 今天我试图read文件中的数据data json 这是 JSON 文件 username rahul v7 password 9673 username 7vik password 3248 username
phpmyadmin - Mysql 没有权限

我在 Windows 7 上安装了 wamp 2 1 但是当我打开 phpMyAdmin 时出现错误 Mysql No Provileges 我卸载了wamp并重新安装了几次但没有帮助有谁知道如何解决这个问题另外当我尝试从 my
使用 JavaScript 打开和关闭 CKEditor 4 内联编辑

我需要能够使用按钮打开关闭内联编辑请参阅此处的内联编辑示例 http nightly v4 ckeditor com 3559 samples inlineall html http nightly v4 ckeditor com 35
在 C 系列中，在循环中为什么“小于或等于”比“小于”符号更受青睐？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案为什么在 C 系列语言中当我们对任何循环使用计数器时最优选的比较是Greater Equal To lt 或者它的倒数请看一下这三段代码
使用 css 绘制图像内的曲线

是否可能以及如何在图像顶部和底部内制作一条曲线请参见图像我怎样才能用CSS实现这一点将您的图像设置为 div 上的背景图像并使用此技术我在示例中使用了纯红色这里我使用伪元素来创建顶部和底部的曲线请注意顶部和底部偏移量是每个伪元
Mockito：验证来自内部匿名类的方法调用

我有一个正在测试的类其中包含一个具有内部匿名类的方法匿名类中的方法之一调用被测类中的方法但 Mockito 似乎没有意识到这一点 public class ClassUnderTest Dependency dependency pu
C# 中的 SplitContainer 拆分器？

i am using a split container For some reason the splitter looks like this 很难看到就是两条黑线中间那条微弱的两条线我该如何解决这个问题并在两条线之间添加填充我使
Log4Net 可用于 adoappender 的数据库字段 - 似乎还有更多，即 method_name？

我最近创建了简单的 log4net 数据库表用于通过 adonet 附加程序进行日志记录并且它有效但后来我注意到另一个网站使用额外的字段看哇我很想知道在哪里可以获得可用字段名称的列表例如 Method name 真的让我思考
使用相对导入路径时 Aurelia 捆绑失败

我将 aurelia 与 typescript 一起使用我想避免使用相对导入路径例如 import DialogBox from resources elements dialog box 反而 import DialogBox fro
具有unpivot自动抓取列列表（oracle 11g）

这是一个后续问题将一行转置为多行 Oracle https stackoverflow com questions 2344403 transpose one row into many rows oracle 我希望能够反转任意查询结果
ubuntu 12.04 中 android-ndk-r9d-linux-x86 的 ndk-gdb 出现错误

我在ubuntu 12 04中使用android ndk r9d linux x86的ndk gdb来调试android本机应用程序 hello jni 但它收到此错误 WARNING The shell running this scri
无限滚动抓取网站

我写了很多抓取工具但我不太确定如何处理无限滚动条如今大多数网站例如 Facebook Pinterest 都有无限滚动条您可以使用 selenium 废弃 twitter 或 facebook 等无限滚动网站步骤 1 使用 pi

无限滚动抓取网站

无限滚动抓取网站 的相关文章

随机推荐

热门标签

无限滚动抓取网站的相关文章