使用 phatomJS 和 selenium 滚动浏览网站

2024-01-02

我需要滚动网页（例如 Twitter），并对网站上出现的新元素进行网络抓取。我尝试使用python 3.x, selenium and PhantomJS。这是我的代码

import time
from selenium import webdriver
from bs4 import BeautifulSoup

user = 'ciroylospersas'
# Start web browser
#browser = webdriver.Firefox()
browser = webdriver.PhantomJS()
browser.set_window_size(1024, 768)
browser.get("https://twitter.com/")

# Fill username in login
element = browser.find_element_by_id("signin-email")
element.clear()
element.send_keys('your twitter user')
# Fill password in login
element = browser.find_element_by_id("signin-password")
element.clear()
element.send_keys('your twitter pass')

browser.save_screenshot('screen.png') # save a screenshot to disk

# Summit the login
element.submit()
time.sleep(5

browser.save_screenshot('screen1.png') # save a screenshot to disk
# Move to the following url
browser.get("https://twitter.com/" + user + "/following")
browser.save_screenshot('screen2.png') # save a screenshot to disk

scroll_script = "var h = document.body.scrollHeight; window.scrollTo(0, h); return h;"
newHeight = browser.execute_script(scroll_script)
print(newHeight)
browser.save_screenshot('screen3.png') # save a screenshot to disk

问题是我无法滚动到底部。这screen2.png and screen3.png是相同的。但如果我改变webdriver from PhantomJS to Firefox相同的代码工作正常。为什么？

当我试图解决类似的问题时，我能够让它在 phantomJS 中工作：

check_height = driver.execute_script("return document.body.scrollHeight;")
while True:
    browser.execute_script("window.scrollTo(0, document.body.scrollHeight);")
    time.sleep(5)
    height = driver.execute_script("return document.body.scrollHeight;")
    if height == check_height:
        break
    check_height = height

它将滚动到当前的“底部”，等待，查看页面是否加载更多，如果没有加载则放弃（假设如果高度匹配则所有内容都已加载。）

在我的原始代码中，我在匹配高度旁边检查了一个“最大”值，因为我只对前 10 个左右的“页面”感兴趣。如果还有更多，我希望它停止加载并跳过它们。

另外，这是我用作的答案example https://stackoverflow.com/questions/28928068/scroll-down-to-bottom-of-infinite-page-with-phantomjs-in-python

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

selenium

PhantomJS

使用 phatomJS 和 selenium 滚动浏览网站的相关文章

(Python) 我应该使用参数还是将其设为全局参数？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案我有许多共享相同参数的函数他们将多次输入和输出该参数例如 a foo a fun a a bar a def fun a return a
Python 中的空填字游戏求解器

我得到了一个包含填字游戏蓝图的矩阵当然它是空的我们的目标是填补整个难题这是 Checkio 的一项任务我已经为此奋斗了相当长一段时间根据我对复杂性的理解这个问题没有完美的算法不过必须有最好的方法来做到这一点对吧我尝试了
Pandas groupby：根据另一列中的值更改一列中的值

我会尽力解释我的问题但我是 Pandas 新手所以请耐心等待我有一个 Pandas 数据框df Random ID Seq ID Type Seq Token 0 8 1 User First 1 8 2 Agent Second 2
为什么tcl/tkinter只支持BMP字符？

我正在尝试在基于 tkinter 和 tcl 构建的 gui 中查询和显示 utf 8 编码字符但是我发现 tkinter 无法显示 4 字节字符即大于 U FFFF 的 unicode 代码点为什么会这样呢实现非 BMP 字符对
到底什么是序列？

蟒蛇docs https docs python org 3 glossary html term sequence有点模棱两可 sequence 一个可迭代对象支持通过以下方式使用整数索引进行有效的元素访问 getitem 特殊方法并定
如何缩放图像的一部分并插入到 matplotlib 中的同一图中

我想缩放数据图像的一部分并将其绘制在同一个图中看起来有点像这个图是否可以在同一图中插入缩放图像的一部分我认为可以用子图绘制另一个图形但它绘制了两个不同的图形我还阅读了添加补丁以插入矩形圆形但不确定将图像的一部分插入到图中是否
将 *.appspot.com 重定向到自定义域：Google 应用引擎 (Django)

我直接将我的一些示例代码放在这里以获得更好的了解 url py r robots txt myapp views robots r myapp views home views py def home request my code ret
测试 python 列表的所有元素是否为 False

如何返回False如果所有元素都在列表中False 给定的列表是 data False False False Using any https docs python org 2 library functions html any gt
查找提供的 Sum 值的组合

我有一系列这样的数字 myvar 57 71 87 97 99 101 103 113 114 115 128 129 131 137 147 156 163 186 现在我想计算所有这些可能的组合长度为1到20 其总和等于给定的数字m
动态组装 Python 模块，动态导入

我正在努力让自己熟悉importlib钩子我想实现直接导入用其他语言编写的非Python文件并维护源映射的能力因此提高SyntaxError带有行号的 s 仍然会给出有意义的堆栈跟踪我加载外部文件的方法是组装 Pythonic 源代码
访问具有动态名称的变量的值

我发现了几个主题其中讨论了在循环中动态创建单个变量是不好的做法最好使用字典就我而言我不需要动态创建它们我想要access他们在循环中我不想用字典对于他们来说因为这些变量在代码中的很多地方使用并且只有一个地方我需要这种动态访问
SyntaxError：创建类实例时语法无效[关闭]

Closed 这个问题是无法重现或由拼写错误引起 help closed questions 目前不接受答案我在 Python shell 3 3 2 中运行这段代码但它给了我SyntaxError invalid syntax cla
合法 .xlsx 文件上的 openpyxl load_workbook() 会导致 zipfile.BadZipFile 错误

我试图做的是将数据帧数据附加到现有的合法 Excel 文件中我使用了 openpyxl 中的 load workbook 函数但它系统地返回错误这是一些在我的机器上崩溃的代码 from openpyxl import load wor
从 Keras 检查点加载

我正在 Keras 中训练一个模型我使用以下代码保存了所有内容 filepath project model hdh5 checkpoint ModelCheckpoint project model hdf5 monitor loss
python 格式日期时间，带有“st”、“nd”、“rd”、“th”（英文序数后缀），如 PHP 的“S”

我想要一个 python datetime 对象来输出并在 django 中使用结果如下所示 Thu the 2nd at 4 30 但我在python中找不到输出的方法st nd rd or th就像我可以使用 PHP 日期时间格式一
python - 从完整地址获取邮政编码

我有一个数据框其中一列中有完整地址我需要创建一个仅包含邮政编码的单独列有些地址只有五位数字的邮政编码而其他地址则有额外的四位数字如何拆分列以获取邮政编码示例数据 d name bob john address 123 6th S
dump() 缺少 1 个必需的位置参数：python json 中的“fp”

我正在尝试美化 json 格式但收到此错误 import requests as tt from bs4 import BeautifulSoup import json get url tt get https in pinterest
打开 PDF 到书签/指定目标？

我正在尝试使用 python 打开特定书签的 PDF 到目前为止我可以在命令提示符中运行以下命令并得到我想要的 last是 PDF test pdf 中指定目的地的名称 C Program Files x86 Adobe Reader 1
需要FTP文件而不存储解释器文件通过Python保存在本地

我正在尝试做一些图像解释器并尝试将它们直接存储到 FTP 服务器但我的步骤是从本地文件夹上传图像然后将其转换为蒙版图像然后它将获得最终输出但是在我的蒙版和最终输出场景中临时图像被保存在本地这是我不想要的但如果不将图像存储在本地
Django ALLOWED_HOSTS 与 CORS(django-cors-headers)

ALLOWED HOSTS 和 CORS 之间有什么区别如果我定义了 ALLOWED HOSTS 我还需要定义 CORS 吗我没有使用 django 模板我也有可能动态定义这两个吗我认为没有我使用 django 作为后端并在不同

随机推荐

在 C++11 中使用 future、异步和线程实现搜索

我想以多线程方式实现分支定界搜索特别是我想使用async包装每个分支的搜索调用然后等待某个线程给出答案然后退出理想情况下我想取消其他线程但线程取消不在标准中这是一些简化的代码 include
测验游戏的线程计时器

我必须在大学里用 Python 做一些练习所以我需要构建一个问答游戏要求是正确答案得 1分错误答案得 1分玩家必须在 20 秒内回答每个问题如果玩家回答的时间超过 20 秒即使他的回答正确他也会得到 1 分我刚刚尝试过th
SurfaceView示例代码

我需要 Android 的示例教程SurfaceView 或者使用它的可以共享的示例代码 API 演示对我来说很难理解有人有替代方案吗这次提交 https github com johnnylambada WorldMap commit
如何在 Spring Boot 集成测试中自动装配存储库？

我正在尝试编写集成测试但在测试中自动装配存储库时遇到问题我收到这个异常 org springframework beans BeanInstantiationException 无法实例化 org observer media repo
如何告诉 VS Code 格式文档在一定长度后换行？ [复制]

这个问题在这里已经有答案了 In Visual Studio Code when you press ALT SHIFT F to format HTML document VS Code would wrap a line that is
MailChimp 合并变量除了 FNAME 和 LNAME 之外还接受什么？

我已经使用电子邮件地址姓名实现了非常基本的注册尽管我现在想添加额外的数据例如电话号码网站等我的问题是在哪里API doc http apidocs mailchimp com api 1 3 我能找到除了 FNAME 和 LNAM
Android 中的 SQLite 查询来计算行数

我正在尝试创建一个简单的登录表单将在登录屏幕上输入的登录 ID 和密码与存储在数据库中的登录 ID 和密码进行比较我正在使用以下查询 final String DATABASE COMPARE select count from use
如何在django多表继承中将现有父级与子级关联

我有一个现有的父实体其中包含许多现有记录 class Entity models Model name models CharField Name max length 64 db index True 我还有使用 django 多表继承
React-bootstrap 选项卡 - 内容未显示

选项卡不显示内容并且选项卡上没有样式选项卡不显示内容这是代码我该如何解决这个问题我究竟做错了什么这段代码与react bootstrap页面上的代码几乎相似 simple tabs js import React Componen
如何在javascript中获取div和完整的内部内容？

我想在 javascript 中获取 div 内部内容 Ex div style height 20px content br content br content br div 这是我的 html 代码我只知道div id 内容但我想
获取 Python 系统调用作为字符串结果

我想用os system md5sum myFile 并从 os system 返回结果而不是仅仅在回显的子 shell 中运行简而言之我想这样做 resultMD5 os system md5sum myFile 并且 result
有没有像“cvHoughCircles()”这样的opencv函数用于方形检测？

有没有像 cvHoughCircles 这样的opencv函数可以用于方形检测编程对于圆检测程序来说CvSeq 圆 cvHoughCircles 但我找不到方形检测您不需要任何单独的功能 OpenCV 附带了正方形检测示例它实际上检测
Web 应用程序中的单例模式

我在 Web 应用程序中对数据上下文使用单例模式这样我就不必每次都实例化它但是我不确定 Web 应用程序如何工作 IIS 是否为每个连接的用户打开一个线程如果是这样如果我的单例不是线程安全的会发生什么另外对数据上下文使用单例模
为什么 dlopen 函数内传递的 std::any 的 std::any_cast 会引发错误

我正在摆弄 c 17 和插件并且遇到了一个无法解决的错误在下面的 MWE 中我可以调用一个本地函数该函数接受std any 当我尝试阅读内容时一切都按预期进行当我通过插件 dlopen 加载这个完全相同的函数时它正确地看到了a
ELPA/Marmalade 报告 ~/.emacs.d/elpa/archives/-pkg “无法打开加载文件”

我已经安装了 Marmalade 并下载了一些有趣的软件包但现在当我启动 Emacs 时出现以下错误 Cannot open load file c Documents and Settings Carlos Datos de pro
为什么 VS2010 “丢失”我的构建参考？

我开发了一个可以做一些事情的类库并通过单元测试对其进行了测试库和测试构建并运行良好然后我将 Windows 服务项目添加到解决方案中以将库包装在其中我添加了对类项目的引用添加了 using 语句并从类库中添加了一个对象它的颜色
Microsoft Graph 支持 Skype 吗？

我想从网页开始协作会话我想要附上一份文件 excel word 是最常见的并邀请几个人参加会议使用 Microsoft Graph 当前或不久的将来可以实现这一点吗这适用于所有计算机都运行 Skype for Business 以
无法启动新会话。响应代码 500。消息：会话未创建：此版本的 ChromeDriver 仅支持 Chrome 版本 114

操作系统 Windows服务器语言 Java Chrome版本 116 0 5845 97 Chrome 驱动程序版本 116 0 5845 96 OUTPUT SLF4J No SLF4J providers were found SL
如何在 Alamofire Post 请求之后有一个完成处理程序/块？

我有一个方法可以处理Apple Push Notification Service远程通知当执行此方法时我希望它调用我的服务器并执行HTTP POST请求使用Alamofire图书馆我想执行另一个方法来处理 POST 请求的响应对我
使用 phatomJS 和 selenium 滚动浏览网站

我需要滚动网页例如 Twitter 并对网站上出现的新元素进行网络抓取我尝试使用python 3 x selenium and PhantomJS 这是我的代码 import time from selenium import webd

使用 phatomJS 和 selenium 滚动浏览网站

使用 phatomJS 和 selenium 滚动浏览网站 的相关文章

随机推荐

热门标签

使用 phatomJS 和 selenium 滚动浏览网站的相关文章