如何利用 Selenium 对已打开的浏览器进行爬虫

2023-11-17

大家好！

在对某些网站进行爬虫时，如果该网站做了限制，必须完成登录才能展示数据，而且只能通过短信验证码才能登录

这时候，我们可以通过一个已经开启的浏览器完成登录，然后利用程序继续操作这个浏览器，即可以完成数据的爬取了

具体操作步骤如下：

1-1 安装依赖

# 安装依赖
pip3 install selenium

1-2 Chrome 应用完整路径

右键查看 Chrome 浏览器的完整路径

比如：C:\Program Files\Google\Chrome\Application\chrome.exe

1-3 命令行启动浏览器

接下来，在 CMD 终端中通过命令行启动 Chrome 浏览器

# 启动浏览器
cd C:\Program Files\Google\Chrome\Application && chrome.exe --remote-debugging-port=1234 --user-data-dir=“C:\selenum\user_data”

其中

–remote-debugging-port

指定浏览器调试端口号

PS：这里可以随机指定一个端口号，不要指定为已经被占用的端口号

–user-data-dir

用户配置文件目录

这里需要单独指定一个文件夹目录（不存在会新建），如果不显式指定该参数，运行会污染浏览器默认的配置文件

1-4 下载 ChromeDriver

根据 Chrome 浏览器版本下载对应的 ChromeDriver 驱动移动到某一个目录下

下载地址：

http://chromedriver.storage.googleapis.com/index.html

1-5 操作已打开的浏览器

假设上面开启的浏览器打开百度首页，我们现在编写一个简单的程序来继续操作上面的浏览器

注意的是，这里需要利用 debuggerAddress 指定浏览器的地址及端口号

from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By

chrome_options = Options()

# 指定已经打开浏览器的地址及端口号
chrome_options.add_experimental_option("debuggerAddress", "127.0.0.1:1234")

# 注意：chrome版本与chromedirver驱动要保持一致
# 下载地址：http://chromedriver.storage.googleapis.com/index.html
s = Service(r"C:\Users\xingag\Desktop\111\chromedriver.exe")

driver = webdriver.Chrome(service=s, options=chrome_options)

# 操作浏览器
input_element = driver.find_element(By.ID, 'kw')

if input_element:
    # 关键字
    input_element.send_keys("AirPython")

    submit_element = driver.find_element(By.ID, 'su')

    if submit_element:
        # 点击搜索
        submit_element.click()

# 释放资源
# driver.close()

最后感谢每一个认真阅读我文章的人，礼尚往来总是要有的，虽然不是什么很值钱的东西，如果你用得到的话可以直接拿走：

这些资料，对于【软件测试】的朋友来说应该是最全面最完整的备战仓库，这个仓库也陪伴上万个测试工程师们走过最艰难的路程，希望也能帮助到你！

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

软件测试工程师

软件测试

自动化测试

selenium

爬虫

如何利用 Selenium 对已打开的浏览器进行爬虫的相关文章

使用 chrome headless 和 selenium 下载

我正在使用 python selenium 和 Chrome 59 并尝试自动执行简单的下载序列当我正常启动浏览器时下载可以工作但是当我在无头模式下这样做时下载不起作用 Headless implementation from se
从选定位置导入 Python 模块

假设我有三个脚本 Main py 包含所有导入 1 py 随机脚本 2 py 随机脚本 pyinstaller F onedir Main py 80mb pyinstaller F onedir 1 py 80mb pyinstaller
如何禁用页眉和页脚 Selenium 打印

有谁知道如何在硒中打印时禁用页眉和页脚选项默认情况下设置为 true 有人知道如何解决这个问题吗谢谢你 import json import os from selenium import webdriver setting htm
元素不存在，尽管它具有 ID 属性

在 selenium excel vba 中我试图了解有关如何处理 CSS 选择器的更多信息我很想知道因为在检查带有 ID 的元素并运行代码时我收到一条消息指出未找到该元素这是到目前为止的代码 Private bot As Ne
如何将参数从jenkins传递到selenium

我正在使用詹金斯和硒我需要将测试 url 从 jenkins 发送到 selenium 服务器在常规选项卡下詹金斯字符串参数 Name APP Default Value http localhost basecode 在构建后操作下
Selenium Webdriver - Python - leboncoin - pb 选择带重音的按钮

我正在尝试在以下网站上自动填写表格 https www leboncoin fr https www leboncoin fr 我用 Selenium IDE 录制了一个脚本我有一个通过单击 Se 连接器按钮并填写我的密码和用户名来自动
Selenium：等到 WebElement 中的文本发生变化

我在用着selenium使用Python 2 7 从网页上的搜索框检索内容搜索框动态检索结果并在框本身中显示结果 from selenium import webdriver from selenium webdriver common
使用 Chrome 和 Selenium 设置 LocalStorage

我正在尝试使用 OpenQA Selenium 和 Chrome 设置本地存储键和值我认为这相当微不足道但我似乎无法让它发挥作用我对 C 很陌生所以我可能错过了一些东西无论如何我有这个功能 public static void
Selenium Python 使用代理运行浏览器[重复]

这个问题在这里已经有答案了我正在尝试编写一个非常简单的脚本该脚本从 txt 文件获取代理不需要身份验证并用它打开浏览器然后沿着代理列表循环此操作一定次数我确实知道如何打开 txt 文件并使用它我的主要问题是让代理正常工作我见
从 Selenium Webdriver WebElement 字段检索值并将其传递给 java 变量

首先请原谅初学者的问题我是 Java 和 Selenium Webdriver 的新手我正在通过尝试测试 CMS 应用程序来学习 Webdriver CMS 的概念是创建文章并通过工作流程发送它们因此编辑可能会创建一篇文章并发送给
如何使用.net更改selenium中的用户代理

我想使用不同的代理 iPhone iPad Android 测试用 NET 编写的 Web 应用程序我使用 NUnit 和 Selenium 进行测试有人有一个用 c 或 VB 在 Selenium 中更改代理例如 iPad 或 iP
将 Selenium 与 PyCharm CE 结合使用

我正在尝试将 Selenium 与 PyCharm CE 一起使用我已经使用 pip install Selenium 安装了 Selenium 并且可以通过终端使用它但是当我尝试将它与 PyCharm 一起使用时出现导入错误 Imp
Selenium Webdriver - Firefox 中元素不可点击错误

通常在 Chrome 驱动程序中出现的元素不可点击错误也恰好在 Firefox 中出现显示的错误消息 Exception in thread main org openqa selenium WebDriverException Elem
Selenium Webdriver - 单击多个下拉菜单时出现陈旧元素异常，而 HTML DOM 不会更改

我尝试自动化一个场景其中条件是我必须从下拉列表中选择一个选项然后它旁边有另一个下拉列表我必须单击下一个下拉列表中的一个选项才能启用按钮我尝试使用代码但它仅单击第一个选项并显示错误为过时的元素引用元素未附加到页面文档请帮忙如
selenium-webdriver 与 webdriverjs 有什么区别（以及何时使用）？

我是一位使用 selenium webdriver 的经验丰富的专业人士我正在探索有关如何测试 javascript 应用程序的更多选项我发现了 webdriverJs 不幸的是我不明白这两者 2 之间有什么区别有人可以解释一下何时
线程“main”中的异常 java.lang.NoSuchMethodError: com.google.common.base.Preconditions.checkState(ZLjava/lang/String;Ljava/lang/Object;)

我开发的硒代码是 import org openqa selenium By import org openqa selenium WebDriver import org openqa selenium WebElement import
使用 selenium 和 python 来提取 javascript 生成的 HTML？萤火虫？

这里是Python新手我遇到的是数据收集问题我在这个网站上当我用 Firebug 检查我想要的元素时它显示了包含我需要的信息的源然而常规源代码没有 Firebug 不会给我这个信息这意味着我也无法通过正常的 selenium
使用 Selenium 处理验证码

我正在尝试自动化一个表单在表单提交过程中我会得到重新验证码我陷入困境并弄清楚我们如何使用 selenium webdriver 处理验证码文本虽然这个验证码正在实时进行图灵测试实施但是我仍然在寻找某种方法来处理这种情况所以你不能真
Selenium 中的“断言”与“验证”

Selenium 执行的检查通常有两种形式 assertFoo 和 verifyFoo 据我所知 assertFoo 使整个测试用例失败而 verifyFoo 只是记录该检查的失败并让测试用例继续进行因此使用 verifyFoo 即使
Selenium 与 scrapy 的动态页面

我正在尝试使用 scrapy 从网页中抓取产品信息我要抓取的网页如下所示从包含 10 个产品的 Product list 页面开始单击下一步按钮将加载接下来的 10 个产品两个页面之间的 URL 不会改变我使用 LinkExt

随机推荐

STM32---stm32f103c8t6与stm32f103zet6之间的代码移植转换

目录一将c8t6转换为zet6 1 修改启动文件 2 修改芯片 3 将MD修改为HD 4 下载器的修改 5 修改完成编译成功二将zet6转换为c8t6 一将c8t6转换为zet6 1 修改启动文件最终结果如下 2 修改芯片将
RedHat8（RHEL8)超详细安装教程--图文解说版

目录一 RHEL8介绍二产品地址三安装 1 文件 gt 新建虚拟机快捷键 Ctrl N 2 这里我们选择自定义即可 gt 下一步 3 兼容性保持默认 gt 下一步 4 稍后安装 gt 下一步 5 选择 Linux 操作系统
OBJ转GLTF

obj转gltf的方法较多这里采用cesium 1 下载cesuim开发包 2 进入cesium根目录 npm下载obj2gltf 没有npm的自行安装 npm install obj2gltf save 3 将 obj mlt等文件复
数据挖掘学习

文章目录绪论定义挖掘过程数据准备数据探索EDA 数据仓库空间数据库时间数据库和时序数据库流数据异构数据和遗产数据数据挖掘的模式数据准备数据组成什么是数据对象什么是数据属性数据搜集数据质量分析数据类型考点
国产操作系统产业

操作系统是计算机的灵魂目前国外操作系统品牌几乎垄断了巨大的中国市场其中在桌面端移动端的市占率分别超过94 75 98 86 根据Gartner的统计数据 2018年中国的操作系统市场容量在189亿以上其中国外操作系统品牌几乎在中国市
Gossip协议

Gossip协议一 Gossip协议 1 1 工作原理 1 2 Gossip优点 1 3 Gossip传播方式 1 3 1 Anti Entropy 反熵 1 3 2 Rumor Mongering 谣言传播 1 3 3 结合 1 4 G
初识C语言（二）

目录五字符串六转义字符七注释 7 1注释的类型 7 1 1单行注释 7 1 2多行注释 7 2注释的使用方法 7 2 1解释代码功能注释 7 2 2提供代码示例注释 7 2 3禁用或屏蔽代码八选择语句 8 1if语句 8 1
利用python3自动在36kr里查找自己感兴趣的内容

最近常常在36kr网站的快讯及资讯最新里查看自己感兴趣内容的及时信息由于快讯及资讯最新里信息更新得比较及时快速自己也很难一直盯着看故想着要是写个脚本让其自动在后天挂着每隔5分钟查询一次有的话就写入txt档中并在控制台打印出来这
小孩学创客编程好还是学机器人好

小孩学创客编程好还是学机器人好小孩的学习一直都是很多家长们非常关心和重视的一件事情很多的家长在培养孩子的学习的时候可以说是十分的用心的会给孩子选择一些能够有利于孩子成长的课程就拿现在很多的家长想要孩子去学习机器人编程的课程来说有
域环境的搭建的详细教程-220109

参考链接 https mp weixin qq com s src 11 timestamp 1641696209 ver 3547 signature zTIDZEcpq zjwuEuZpbaaAxFfkkVxcLHeX4AuKT78bJ
第九届蓝桥杯 2018年省赛真题 (Java 大学C组）

蓝桥杯 2018年省赛真题 Java 大学C组第一题哪天返回第二题猴子分香蕉第三题字母阵列第四题第几个幸运数第五题书号验证第六题打印大X 第七题缩位求和第八题等腰三角形第九题小朋友崇拜圈第十题耐摔指数
RHCE——DNS的正反向解析

一实验要求 DNS配置正反向解析二实验过程 1 安装软件包 root localhost ll yum install bind y 2 备份bind软件的的配置文件 root localhost yum repos d cp a e
CMAKE学习——编译多个文件 & 多个目录

大型工程会有很多文件包括类的实现和定义各种不同的模块交叉在一起我们怎么用cmake方便的编译呢例如有这么一个工程我们现在想要编译的话如果只选择了main cpp 则会提示未定义的引用因为我们头文件和实现分离但我们只包含了头
【云原生之Docker实战】使用Docker部署jenkins持续集成工具

云原生之Docker实战使用Docker部署jenkins持续集成工具一 jenkins介绍 1 jenkins简介 2 jenkins功能 3 jenkins基本工作图二检查本地系统版本三检查本地docker状态 1 检查do
IDEA运行报错：类文件具有错误的版本 55.0, 应为 52.0 请删除该文件或确保该文件位于正确的类路径子目录中。

IDEA运行报错类文件具有错误的版本 55 0 应为 52 0 请删除该文件或确保该文件位于正确的类路径子目录中如果搜索资料会看到minor major版本但其实不叫这个名字 Sun公司会在大的版本升级时增加major数字小更新或
【python】自动化测试框架--nose

目录一准备二 nose介绍三看个简单的例子了解下三 nose常用命令简单介绍 1 查看所有nose相关命令 2 执行并捕获输出 3 提供XUnit XML 格式的测试结果并存储在nosetests xml文件中主要为jenk
数据同步方案

mysql 数据同步到elastic中本文中不提及实现仅提供方案增量数据同步方案一通过logstash 官方提供的工具快速实现数据同步值得注意的是选择logstash时需要和elastic的版本做对应由于elastic 版本
多线程经典案例（生产者--消费者）

多线程开发中有一个经典的操作案例就是生产者消费者案例生产者不的生产产品消费者不断地取走产品此案例涉及线程同步线程休眠线程等待线程唤起等操作以及之间是如何搭配使用的方法示例讲解本示例模拟中生产者由厨师担任消费者由
如何利用 Selenium 对已打开的浏览器进行爬虫

大家好在对某些网站进行爬虫时如果该网站做了限制必须完成登录才能展示数据而且只能通过短信验证码才能登录这时候我们可以通过一个已经开启的浏览器完成登录然后利用程序继续操作这个浏览器即可以完成数据的爬取了具体操作步骤如下 1 1

如何利用 Selenium 对已打开的浏览器进行爬虫

如何利用 Selenium 对已打开的浏览器进行爬虫 的相关文章

随机推荐

热门标签

如何利用 Selenium 对已打开的浏览器进行爬虫的相关文章