[Python爬虫] Selenium自动访问Firefox和Chrome并实现搜索截图

2023-11-04

前两篇文章介绍了安装，此篇文章算是一个简单的进阶应用吧！它是在Windows下通过Selenium+Python实现自动访问Firefox和Chrome并实现搜索截图的功能。
[Python爬虫] 在Windows下安装PhantomJS和CasperJS及入门介绍(上)
[Python爬虫] 在Windows下安装PIP+Phantomjs+Selenium

自动访问Firefox

可以参照前文安装Selenium环境，目前Selenium这个用于Web应用程序测试的工具支持的浏览器包括IE、Mozilla Firefox、Mozilla Suite、Chrome等。但是由于Firefox是默认安装路径，webdriver可以正常访问它，而Chrome和IE需要设置driver路径。

from selenium import webdriver
from selenium.webdriver.common.keys import Keys
import sys 

reload(sys) 
sys.setdefaultencoding('gb18030') 
driver = webdriver.Firefox()
driver.get("http://www.baidu.com")
assert "百度" in driver.title
elem = driver.find_element_by_name("wd")
elem.send_keys("Eastmount")
elem.send_keys(Keys.RETURN)
assert "谷歌" in driver.title
driver.save_screenshot('baidu.png')
driver.close()
driver.quit()

运行效果如下图所示，自动调用Firefox浏览器搜索，同时输出断言错误：
assert "谷歌" in driver.title AssertionError

源码分析

官方文档地址： http://selenium-python.readthedocs.org/getting-started.html

from selenium import webdriver
from selenium.webdriver.common.keys import Keys
import sys

首先导入Selenium.webdriver模板，它提供了webdriver的实现方法，目前支持这些方法的有Firefox、Chrome、IE和Remote。同时导入Keys类，它提供了操作键盘的快捷键，如RETURE、F1、ALT等。最后导入sys主要是设置编码方式。

reload(sys)
sys.setdefaultencoding('gb18030')

由于汉语中可能会遇到错误：
UnicodeDecodeError: 'ascii' codec can't decode byte 0xc4 in position 33
UnicodeDecodeError: 'utf8' codec can't decode byte 0xb0 in position 35
所以此处转换成gb编码，该篇不重点介绍了。

driver = webdriver.Firefox()
driver.get("http://www.baidu.com")

创建Firefoxwebdriver实例。其中Firefox最简单，其他Chrome还需要driver和配置路径。接下来通过driver.get()打开百度URL网页，webdriver会等待网页元素加载完成之后才把控制权交回脚本。但是，如果要打开了页面在加载的过程中包含了很多AJAX，webdriver可能无法准确判断页面何时加载完成。

assert "百度" in driver.title
assert "谷歌" in driver.title

接下来使用断言判断文章的标题Title是否包含“百度”和“谷歌”。对应的标题是“百度一下，你就知道”，所以其中“百度”包括，而“谷歌”会出现断言报错。
同时提交页面并获得返回结果，为了判断结果是否成功返回也可以使用断言。

elem = driver.find_element_by_name("wd")

webdriver提供了很多如find_element_by_*的方法来匹配要查找的元素。如利用name属性查找方法find_element_by_name来定位输入框，审查元素name=wd。
元素定位方法可以参考官网： Locating Elements

elem.send_keys("Eastmount")

elem.send_keys(Keys.RETURN)

send_keys方法可以用来模拟键盘操作，相当于是在搜索框中输入“Eastmount”再按回车键搜索。但首先要从selenium.webdriver.common.keys导入Keys类。

driver.save_screenshot('baidu.png')

driver.close()

driver.quit()

最后是调用save_screenshot进行截图，但是图片是过程中的，怎样获取最后加载的图片呢？同时，操作完成并关闭浏览器。当然，也可以调用quit（）方法，两者的区别在于：quit（）方法会退出浏览器，而close（）方法只是关闭页面，但如果只有一个页面被打开，close（）方法同样会退出浏览器。

自动访问Chrome

首先下载chromedriver并置于Chrome安装目录。可能会遇到错误：
WebDriverException: Message: 'chromedriver' executable needs to be in PATH.参考官网解决方法：How to use chromedriver，我采用的是设置driver环境。
代码如下：

import os
from selenium import webdriver
from selenium.webdriver.common.keys import Keys

chromedriver = "C:\Program Files (x86)\Google\Chrome\Application\chromedriver.exe"
os.environ["webdriver.chrome.driver"] = chromedriver

driver = webdriver.Chrome(chromedriver)
driver.get("http://www.python.org")
assert "Python" in driver.title
elem = driver.find_element_by_name("q")
elem.send_keys("selenium")
elem.send_keys(Keys.RETURN)
assert "Google" in driver.title
driver.close()
driver.quit()

需要放置chromedriver如下路径，同时可以通过代码设置。但是由于我的Chrome可能Bug一直未修复，总是打开错误。

driver = webdriver.Chrome(executable_path="G:\chromedriver.exe")

参考资料：

  用python玩转selenium：2-入门实例及分析 - Reiki
  构建Python+Selenium2自动化测试环境<二>：IE、Chrome和Firefox运行
  用selenium实现某微博搜索数据的抓取
  RobotFramework+seleniumlibrary Web自动化测试 (三)

  最后希望该篇基础性文章对你有所帮助吧！如果有不足之处，还请海涵~
（By:Eastmount 2015-8-20 下午4点   http://blog.csdn.net/eastmount/）

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

[Python爬虫] Selenium自动访问Firefox和Chrome并实现搜索截图的相关文章

元组有什么用？

我现在正在学习 Python 课程我们刚刚介绍了元组作为数据类型之一我阅读了它的维基百科页面但是我无法弄清楚这种数据类型在实践中会有什么用处我可以提供一些需要一组不可变数字的示例吗也许是在 Python 中这与列表有何不同每
在 django ORM 中查询时如何将 char 转换为整数？

最近开始使用 Django ORM 我想执行这个查询 select student id from students where student id like 97318 order by CAST student id as UNSIG
安装了 32 位的 Python，显示为 64 位

我需要运行 32 位版本的 Python 我认为这就是我在我的机器上运行的因为这是我下载的安装程序当我重新运行安装程序时它会将当前安装的 Python 版本称为 Python 3 5 32 位然而当我跑步时platform arch
用枢轴点拟合曲线 Python

我有下面的图我想用 2 条线来拟合它使用 python 我设法适应上半部分 def func x a b x np array x return a x b popt pcov curve fit func up x up y 我想用另
使用 Python 从文本中删除非英语单词

我正在 python 上进行数据清理练习我正在清理的文本包含我想删除的意大利语单词我一直在网上搜索是否可以使用像 nltk 这样的工具包在 Python 上执行此操作例如给出一些文本 Io andiamo to the beach w
删除flask中的一对一关系

我目前正在使用 Flask 开发一个应用程序并且在删除一对一关系中的项目时遇到了一个大问题我的模型中有以下结构 class User db Model tablename user user id db Column db String
Pandas 日期时间格式

是否可以用零后缀表示 pd to datetime 似乎零被删除了 print pd to datetime 2000 07 26 14 21 00 00000 format Y m d H M S f 结果是 2000 07 26 14
使用Python请求登录Google帐户

在多个登录页面上需要谷歌登录才能继续我想用requestspython 中的库以便让我自己登录通常这很容易使用requests库但是我无法让它工作我不确定这是否是由于 Google 做出的一些限制也许我需要使用他们的 API 或
Pandas Merge (pd.merge) 如何设置索引和连接

我有两个 pandas 数据框 dfLeft 和 dfRight 以日期作为索引 dfLeft cusip factorL date 2012 01 03 XXXX 4 5 2012 01 03 YYYY 6 2 2012 01 04 XX
使用 xlrd 打开 BytesIO (xlsx)

我正在使用 Django 需要读取上传的 xlsx 文件的工作表和单元格使用 xlrd 应该可以但因为文件必须保留在内存中并且可能不会保存到我不知道如何继续的位置本例中的起点是一个带有上传输入和提交按钮的网页提交后文件被捕获req
在Python中检索PostgreSQL数据库的新记录

在数据库表中第二列和第三列有数字将会不断添加新行每次每当数据库表中添加新行时 python 都需要不断检查它们当 sql 表中收到的新行数低于 105 时 python 应打印一条通知消息警告数量已降至 105 以下另一方面
Numpy - 根据表示一维的坐标向量的条件替换数组中的值

我有一个data多维数组最后一个是距离另一方面我有距离向量r 例如 Data np ones 20 30 100 r np linspace 10 50 100 最后我还有一个临界距离值列表称为r0 使得 r0 shape Dat
pip 列出活动 virtualenv 中的全局包

将 pip 从 1 4 x 升级到 1 5 后pip freeze输出我的全局安装系统软件包的列表而不是我的 virtualenv 中安装的软件包的列表我尝试再次降级到 1 4 但这并不能解决我的问题这有点类似于这个问题 http
从 NumPy ndarray 中选择行

我只想从 a 中选择某些行NumPy http en wikipedia org wiki NumPy基于第二列中的值的数组例如此测试数组的第二列包含从 1 到 10 的整数 gt gt gt test numpy array nump
如何在 Windows 命令行中使用参数运行 Python 脚本

这是我的蟒蛇hello py script def hello a b print hello and that s your sum sum a b print sum import sys if name main hello sys
根据列 value_counts 过滤数据框（pandas）

我是第一次尝试熊猫我有一个包含两列的数据框 user id and string 每个 user id 可能有多个字符串因此会多次出现在数据帧中我想从中导出另一个数据框一个只有那些user ids列出至少有 2 个或更多string
为什么 Pickle 协议 4 中的 Pickle 文件是协议 3 中的两倍，而速度却没有任何提升？

我正在测试 Python 3 4 我注意到 pickle 模块有一个新协议因此我对 2 个协议进行了基准测试 def test1 pickle3 open pickle3 wb for i in range 1000000 pickle
如何在 pygtk 中创建新信号

我创建了一个 python 对象但我想在它上面发送信号我让它继承自 gobject GObject 但似乎没有任何方法可以在我的对象上创建新信号您还可以在类定义中定义信号 class MyGObjectClass gobject GO
python import inside函数隐藏现有变量

我在我正在处理的多子模块项目中遇到了一个奇怪的 UnboundLocalError 分配之前引用的局部变量问题并将其精简为这个片段使用标准库中的日志记录模块 import logging def foo logging info fo
更改 Tk 标签小部件中单个单词的颜色

我想更改 Tkinter 标签小部件中单个单词的字体颜色我知道可以使用文本小部件来实现与我想要完成的类似的事情例如使单词 YELLOW 显示为黄色 self text tag config tag yel fg clr yellow s

随机推荐

ubuntu20.4下ORB_SLAM2使用Opencv4进行编译遇到的若干问题及解决方法

问题0 fatal error opencv cv h 没有那个文件或目录解决 include
2019-7-9 [JavaSE] String ,StringBuffer,StringBuilder比较装箱和拆箱日期类正则

文章目录 1 StringBuffer类方法利用StringBuffer开头与结束的时间计算 String StringBuffer StringBuilder比较 2 装箱和拆箱 3 日期类 4 正则验证一验证二用String的
第5章数据库管理-单元测验-数据库原理及应用

1 下面哪项不是数据库管理的目标保障数据库系统正常运行实现应用对数据库访问发挥数据库系统处理能力确保数据库访问安全 2 下面哪项不是事务的特性一致性原子性可靠性持续事务的ACID特性 1 原子性 Atomicity 将多条
输入10个学生5门课的成绩，分别用函数实现以下功能：1.计算每个学生平均分；2.计算每门课的平均分；3.找出所有50个分数中最高的得分所对应的学生和课程；4，计算平均分方差

输入10个学生5门课的成绩分别用函数实现以下功能 1 计算每个学生平均分 2 计算每门课的平均分 3 找出所有50个分数中最高的得分所对应的学生和课程 4 计算平均分方差 include
技术分享，休闲娱乐一体的网站

1 主页作为一名程序员我也搭建起我的主页一个开源的博客系统想通过博客与大家进行技术交流认识更多的朋友们地址 http www mhtclub com 2 主页下的秘密搭建好技术分享的博客系统我又在服务器上折腾部署了一些h5
使用原始套接字实现数据包捕获

使用SIO RCVALL命令可以在原始套接字上设置网卡以混合模式工作允许指定的套接字接受所有流经本机的IP数据包 DataCapture cpp 定义控制台应用程序的入口点 include stdafx h include winsock
Keil 5（C51）介绍、下载、安装与2个补丁

Keil 5常用的分两个版本 C51和MDK C51用于编译8051内核的单片机程序譬如AT89C51 STC89C51 STC98C52等 MDK用于编译STM32 GD32等ARM32位内核单片机程序一资源获取 Keil官网获取
Error: L6200E: Symbol a multiply defined (by timer.o and iap.o).的错误记录

网上搜到出现这种错误的原因各种各样然后自己发现错误原因竟然如此低级特此纪念一下自己脑残并以此督促自己代码命名规范 timer c中 Struct Timer a Tim2 Init 1ms Tim2 Init 1ms Struct T
ERP与MES集成技术及其应用研究

转自 http do chinabyte com 243 11347743 shtml 0 引言钢铁企业是连续的流程型企业钢铁的生产是连续铁前和离散钢后混合物理变化和化学变化混合的过程工艺复杂生产条件严格并且是多工厂联
大数据毕设项目大数据网络游戏数据分析可视化 - python

文章目录 1 数据集说明 2 数据处理 3 数据分析可视化 3 1 新增用户 3 2 用户活跃度 3 3 用户消费情况 3 4 用户游戏情况 4 最后 1 数据集说明这是一份手游野蛮时代的用户数据共有训练集和测试集两个数据文件二者
嵌入式ARM移植sqlite3

Sqlite3数据库移植平台处理器 I MX6ULL 内核 linux 4 1 15 官网下载源码 https www sqlite org download html tar vxf sqlite autoconf 3390400 t
世界时转成北京时

GregorianCalendar gc new GregorianCalendar try gc setTime new SimpleDateFormat yyyyMMddHHmm parse 201608101659 System ou
【Android】使用VideoView播放视频

9 2 MediaPlayer播放音频与视频菜鸟教程本节引言本节带来的是Android多媒体中的 MediaPlayer 我们可以通过这个API来播放音频和视频该类是Androd多媒体框架中的一个重要组件通过该类我们可以以最小的步
显著性水平置信度置信区间实例讲解

显著性水平置信度置信区间实例讲解置信区间是指由样本统计量所构造的总体参数的估计区间在统计学中一个概率样本的置信区间 Confidence interval 是对这个样本的某个总体参数的区间估计置信区间展现的是这个参数的真实值有
SpringCloud Gateway + Spring Security

父模块 pom xml
【HDU6326】Monster Hunter（树上一类全序问题）

先考虑没有树的限制即我们可以任意安排顺序打怪兽那么这就是一个全序问题考虑在某种顺序下假设初始血量为 s t st st 那么打到第 i i i 个怪物时剩余的血量就是
netmon3.3在win7下面找不到网卡的解决办法

1 用run as admin方式运行cmd 2 cd到netmon的安装目录我默认是 C Program Files Microsoft Network Monitor 3 3 运行nmconfig install 4 重新运行netm
MR/VR中的小地图点击传送

MR VR小地图实现提示 MR VR中呢因为是三维空间跟pc还不一样需要拿到场景中四个角点位和小地图的四个角点位 public Transform minMapUiPoint1 public Transform minMapUiPo
搭建华为FusionCompute虚拟化平台（转载）

最小实验要求两台服务器 1 通过BMC口安装CNA操作系统远程光驱安装CNA 需要设置服务器从远程光驱启动然后进入BIOS可以查看BMC控制台的用户名和密码以及IP 一般服务器都默认有然后登陆BMC的控制台进入后戴尔服务器点击控
[Python爬虫] Selenium自动访问Firefox和Chrome并实现搜索截图

前两篇文章介绍了安装此篇文章算是一个简单的进阶应用吧它是在Windows下通过Selenium Python实现自动访问Firefox和Chrome并实现搜索截图的功能 Python爬虫在Windows下安装PhantomJS和Cas

[Python爬虫] Selenium自动访问Firefox和Chrome并实现搜索截图

[Python爬虫] Selenium自动访问Firefox和Chrome并实现搜索截图 的相关文章

随机推荐

热门标签

[Python爬虫] Selenium自动访问Firefox和Chrome并实现搜索截图的相关文章