python的selenuim爬虫爬取实例

2023-10-27

文章目录

前言`
使用步骤
总结

前言`

本文仅用selenium爬取求职信息，记录selenium的尝试和使用

使用步骤

1.引入库

本代码仅仅使用selenium库和time库来操作，无其他数据处理操作

from selenium import webdriver
from selenium.webdriver.common.by import By
from time import sleep

2.引入谷歌内核以及定位打开页面

代码如下（示例）：

#谷歌内核
path="D:\Google\Chrome\Application\chromedriver.exe"
driver=webdriver.Chrome(executable_path=path)
#调窗口至全屏大小
driver.maximize_window()
#打开页面
driver.get('https://www.zhipin.com/zhengzhou/?sid=sem_pz_360pc_title')
sleep(3)

3.使用selenium控制浏览器页面搜索需要信息

以数据分析师为例

search = driver.find_element(By.XPATH,'//*[@id="wrap"]/div[3]/div/div[1]/div[1]/form/div[2]/p/input')
search.send_keys("数据分析师")
sleep(2)
submit = driver.find_element(By.XPATH,'//*[@id="wrap"]/div[3]/div/div[1]/div[1]/form/button')
submit.click()
print('搜索结束,开始寻找信息')
driver.implicitly_wait(5)
sleep(3)

4.定位到所需要的li标签

我们所需要的是各种招聘类信息，所以先进入页面寻找定位标签
先通过class定位到装有信息的li标签
在这里插入图片描述

lis = driver.find_elements(By.CSS_SELECTOR,'.job-card-wrapper')
print('定位完成')

5.从li标签中提取信息

因为li标签不止一个，所以我们需要采用循环一次提取并输出

for li in lis:
    jobname = li.find_element(By.CSS_SELECTOR, '.job-name').text
    print(jobname)
    info_data = li.find_element(By.CSS_SELECTOR, '.job-card-left').get_attribute('href')
    print(info_data)
    jobarea = li.find_element(By.CSS_SELECTOR, '.job-area').text
    print(jobarea)
    slary = li.find_element(By.CSS_SELECTOR, '.salary').text
    print(slary)
    print('工作名字：' + jobname + ' 工作场所：', jobarea + ' 工资：' + slary + ' 详细链接：' + info_data)
    print('\n')

总结

selenium的自动化操作页面目前技术有限，仅能先进行爬取，而自动化技术难以实现

不过我在爬取过程中却老是出现搜索后页面不断刷新，难以定位到li标签然后直接退出的问题，如果遇到，现在我能做到的仅为多尝试几次，看运气了。

源码如下

from selenium import webdriver
from selenium.webdriver.common.by import By
from time import sleep
#BOSS直聘
#谷歌内核
path="D:\Google\Chrome\Application\chromedriver.exe"
driver=webdriver.Chrome(executable_path=path)
#调窗口至全屏大小
driver.maximize_window()
#打开页面
driver.get('https://www.zhipin.com/zhengzhou/?sid=sem_pz_360pc_title')
sleep(3)

search = driver.find_element(By.XPATH,'//*[@id="wrap"]/div[3]/div/div[1]/div[1]/form/div[2]/p/input')
search.send_keys("数据分析师")
sleep(2)
submit = driver.find_element(By.XPATH,'//*[@id="wrap"]/div[3]/div/div[1]/div[1]/form/button')
submit.click()
print('搜索结束,开始寻找信息')
driver.implicitly_wait(5)
sleep(3)
# #
lis = driver.find_elements(By.CSS_SELECTOR,'.job-card-wrapper')
print('定位完成')

for li in lis:
    jobname = li.find_element(By.CSS_SELECTOR, '.job-name').text
    print(jobname)
    info_data = li.find_element(By.CSS_SELECTOR, '.job-card-left').get_attribute('href')
    print(info_data)
    jobarea = li.find_element(By.CSS_SELECTOR, '.job-area').text
    print(jobarea)
    slary = li.find_element(By.CSS_SELECTOR, '.salary').text
    print(slary)
    print('工作名字：' + jobname + ' 工作场所：', jobarea + ' 工资：' + slary + ' 详细链接：' + info_data)
    print('\n')
driver.quit()

最终爬取效果如下
在这里插入图片描述

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

爬虫

Chrome

python的selenuim爬虫爬取实例的相关文章

X 轴刻度标签按年份，X 轴网格线按财政季度

我试图将 x 轴刻度标签设置为年份但将网格线设置为财政季度数据很简单只是一个groupby date count 见下文每个日期都有一个计数我将其绘制为线图 rc rc form Bakken rc tgt oil groupby
如何获取 Pandas df.merge() 不匹配的列名称

给出以下数据 data df pd DataFrame Reference A A A B C C D E Value1 U U U V W W X Y Value2 u u u v w w x y index 1 2 3 4 5 6 7
pandas 读取列中带有额外逗号的 csv

我正在阅读一个基本的 csv 文件其中各列用逗号分隔列名称如下 userid username body 但是正文列是一个可能包含逗号的字符串显然这会导致一个问题 pandas 会抛出一个错误 CParserError Error
Python：访问另一个类中一个类的属性和方法

假设我有两个 A 类和 B 类 Class A A s attributes and methods here Class B B s attributes and methods here 现在我可以评估 B 类对象中 A 的属性如下所
搜索/替换 xml 内容

我已经成功地使用 xml etree ElementTree 解析 xml 搜索内容然后将其写入不同的 xml 然而我只是处理单个标签内的文本 import os sys glob xml etree ElementTree as ET
我如何知道Python的unicode函数识别的所有支持的编码

Python 有一个unicode将字节流转换为 unicode 字符串的内置函数我只是希望我能查询所有可用的encoding在我的系统上但如何这个问题的原因是有人使用 MAC OS X 向我发送了一封内容编码为 iso 2022
Django CollectStatic 启动大文件上传时管道损坏

我正在尝试使用collectstatic将静态文件上传到我的S3存储桶但我收到一个700k javascript文件的管道损坏错误这就是错误 Copying Users wedonia work asociados server aso
映射 2 个数据帧并替换目标数据帧中匹配值的标头

我有一个数据框 df1 SAP Name SAP Class SAP Sec Avi 5 C Rison 6 A Slesh 7 B San 8 C Sud 7 B df2 Name Fi Class Avi 5 Rison 6 Slesh
如何为 PyYAML 编写代表程序？

我想要一个自定义函数来序列化任意 python 对象就像 json dump 函数有一个名为 default 的可选参数如果对象不是 json 可序列化的它应该是 json 转储器将调用的函数我只是想从 json 包中执行相当于此操
[Python]比较两个 zip 文件的函数，一个位于 FTP 目录中，另一个位于我的本地计算机上

我在创建比较两个 zip 文件的函数时遇到问题如果它们相同而不仅仅是名称相同这是我的代码示例 def validate zip files self host 192 168 0 1 port 2323 username 123 pa
dask分布式内存错误

在分布式作业上运行 Dask 时我在调度程序上遇到以下错误 distributed core ERROR Traceback most recent call last File usr local lib python3 4 dist
过滤给定范围内的坐标

我有数百个带有地理位置的 out 文件我将把它们批量导入到 SQLite 数据库中但是为了节省时间我只会导入地理坐标在某些间隔内的线文件是这样的 value value longitude latitude value value
构建wheel失败/“错误：INCLUDE环境变量为空”

我正在使用 Python 2 7 11 并尝试 pip install 模块但是其中一些模块失败了我收到的消息是无法为 X 构建轮子和错误包含环境变量为空我尝试安装 Scrapy LXML 和 Twisted 但都失败了我尝
numpy.polyval() 的反函数

我想知道 np polyval 是否有一个方便的反函数我在其中给出 y 值并求解 x 我知道我可以做到这一点的一种方法是 import numpy as np Set up the question p np array 1 1 10 y
pip 升级到 pip 10.x.x 后解析需求文件的正确方法？

所以今天我确实发现随着发布pip 10 x x the req软件包更改了其目录现在可以在下面找到pip internal req 由于通常的做法是使用parse requirements功能在你的setup py从需求文件中安装所有依赖
如何循环遍历列表中除最后一项之外的所有项？ [复制]

这个问题在这里已经有答案了 Using a for循环如何循环遍历列表中除最后一项之外的所有项我想遍历一个列表检查每个项目与后面的项目我可以在不使用索引的情况下做到这一点吗 for x in y 1 If y是一个生成器那么上面的
从Python列表中挑选出具有特定索引的项目

我确信在 Python 中有一种很好的方法可以做到这一点但我对这门语言还很陌生所以如果这是一个简单的方法请原谅我我有一个列表我想从该列表中挑选某些值我想要挑选的值是列表中索引在另一个列表中指定的值例如 indexes 2 4
如何隐藏 Tkinter python Gui

有人知道如何隐藏 python GUI Tkinter 我已经创建了键盘记录器对于 GUI 我使用了 python 模块 Tkinter 我想添加名为 HIDE 的按钮因此当用户单击它时它将隐藏 GUI 当用户按下 CTRL E 之类
如何让 Python 生成器返回 None 而不是 StopIteration？

我使用生成器在列表中执行搜索如下简单示例 gt gt gt a 1 2 3 4 gt gt gt i for i v in enumerate a if v 4 next 3 只是为了稍微说明一下示例与上面的列表相比我使用的列表要长得
Python pandas：向我的数据框中添加一列来计算变量

我有一个像这样的数据框 gt org group org1 1 org2 1 org3 2 org4 3 org5 3 org6 3 我想将列 count 添加到 gt 数据帧以计算组的成员数量预期结果如下 org group count

随机推荐

ant design proV1.0的采坑之旅（动态创建菜单、访问mock数据、富文本编辑器）

最近公司做一个后台管理系统犹豫半天还是想用ant design 后来发现他们有现成的脚手架 ant design pro github地址果断拉代码下来运行起来一 ant design pro 项目目录结构和流程整体目录大概长这个样
Tensorflow中的图操作和图变量

一可能引起的问题 1 图操作重复载入会导致模型变量越来越大调用saver保存时可能报错错误信息 Cannot serialize protocol buffer of type tensorflow GraphDef as the s
sort按vector元素排序

include
Xshell在使用msh的时候无响应

在使用Xshell开发正点原子的战舰V3的时候下载程序或者复位单片机后无响应在RTT官方文档看到有如下说明注正点原子一键下载电路和终端工具冲突在使用终端工具如 PuTTy XShell 时会出现系统不能启动的问题推荐使用串口调
微信微店怎么开店铺步骤【微信开店】

商家在微信平台主要是通过什么方式进行卖货呢大家的答案都会是微信小店小程序微店铺之类的的确微信店铺是商家在微信平台上重要的卖货渠道那么微信微店怎么开店铺下面就给大家分享微信微店怎么开店铺步骤一准备好资料由于微信上通过小程序销售
wireshark抓组播数据_wireshark怎么抓包 wireshark抓包详细图文教程

开始界面 wireshark是捕获机器上的某一块网卡的网络包当你的机器上有多块网卡的时候你需要选择一个网卡点击Caputre gt Interfaces 出现下面对话框选择正确的网卡然后点击 Start 按钮开始抓包 Wires
netfilter 理解

Netfilter概述 Netfilter IPTables是Linux2 4 x之后新一代的Linux防火墙机制是linux内核的一个子系统 Netfilter采用模块化设计具有良好的可扩充性其重要工具模块IPTables从用户态的
线程间同步与互斥:生产者消费者问题

总结一下线程间同步与互斥生产者消费者问题一互斥锁 mutex 对于多线程的程序访问冲突的问题是很普遍的解决的办法是引入互斥锁 Mutex MutualExclusive Lock 获得锁的线程可以完成读修改写的操作然后
DataGridView使用bindingNavigator实现分页功能（应用存储过程）

想法是这样的使用bindingNavigator 存储过程实现DataGridView的分页功能其中包含简单的查询存储过程如下创建分页查询存储过程含输出参数输入参数含搜索功能 use HotelDB if exists sel
树、二叉树、完全二叉树、满二叉树的概念和性质

目录一树的概念及其结构 1 树的特点 2 树的相关概念 3 树的表示二二叉树的概念及其结构 1 二叉树的概念 2 二叉树的特点三特殊的二叉树 1 满二叉树 2 完全二叉树四二叉树的性质很重要常用两道小例题五二叉树的
地表最强一阶段目标检测框架：yolov4之tf2+版本

原文地址从第一版的yolov3 GitHub qqwweee keras yolo3 A Keras implementation of YOLOv3 Tensorflow backend 在这位q神翻译出来后在下一直跟进yolo的发展
三家运营商携手共建国家区块链基础设施BSN

日前首届区块链服务网络合作伙伴大会在杭州召开国家信息中心中国移动中国银联和杭州市及下城区等多位高层领导出席值得注意的是除了作为发起单位之一的中国移动以外中国电信中国联通这两家电信运营商也都派出高级代表参会中国联通旗下的智慧
bootstrap第八章：导航

bootstrap第八章导航文章目录 bootstrap第八章导航 1 bootstrap导航元素 1 1创建基本的导航 1 2导航的对齐 1 2 1垂直对齐的导航 1 3填充和调整导航组件 1 4下拉式导航 1 5导航类 2 boo
利用高斯消元法及LU分解法解方程组(C、Java)

1 描述高斯消元法是将方程组中的一方程的未知数用含有另一未知数的代数式表示并将其代入到另一方程中这就消去了一未知数得到一解或将方程组中的一方程倍乘某个常数加到另外一方程中去也可达到消去一未知数的目的消元法主要用于二元一次方程组
如何在Kaggle读取本地上传的文件

如何在Kaggle读取本地上传的文件 1 首先上传本地文件 Kaggle会让你自己取名这个名字即为本地文件的上一级文件夹建议不要用下划线容易出错例如我取的名字为newsdata 2 上传完毕后可以用Kaggle自带的代码来读取路径
BLV脉动阵列实现矩阵SVD分解

理论上由于噪声的存在自相关矩阵是正定的而对于对称正定阵它的奇异值分解等价于于特征值分解在之前看到的论文中有用单边jacobi算法来求出矩阵特征值及特征向量我在matlab上并没有实现其中有条求theta的公式不知原作者是怎么
蓝桥杯单片机 ——接收字符、字符串

1定时器中断方法完整代码在文末 2 定时的方法推荐蓝桥杯单片机第十四届第三次模拟题让我来瞅一瞅的博客 CSDN博客定时器0 定时功能判断接受数据是否完成定时器1 串口功能接受发送数据一主机接收下位机 client 发送
2023年华数杯数学建模A题隔热材料的结构优化控制研究解题全过程文档及程序

2023年华数杯全国大学生数学建模 A题隔热材料的结构优化控制研究原题再现新型隔热材料 A 具有优良的隔热特性在航天军工石化建筑交通等高科技领域中有着广泛的应用目前由单根隔热材料 A 纤维编织成的织物其热导率可以直接测
写作——如何选择参考文献

好的论文一般是顶刊顶会的大多数是近五年的论文 1 什么是顶会答 CCF A类会议例如AAAI CVPR ICML IJCAI SIGIR NIPS等详见QQ群文件 CCF中国计算机学会推荐国际学术会议和期刊目录 2019 pdf 2
python的selenuim爬虫爬取实例

文章目录前言使用步骤 1 引入库 2 引入谷歌内核以及定位打开页面 3 使用selenium控制浏览器页面搜索需要信息 4 定位到所需要的li标签 5 从li标签中提取信息总结前言本文仅用selenium爬取求职信息记录sele