python3爬虫 selenium+pyquery爬取人才网简历实战

2023-11-12

不废话，直接贴代码，各位看官要是觉得可以的话，麻烦点个赞~
import requests, pymysql,pyquery,time
from bs4 import BeautifulSoup
from selenium import webdriver

url = ‘https://www.xmrc.com.cn/’
headers = {
‘Cookie’:‘www.xmrc.com.cn=83593967; ASP.NET_SessionId=bv03pjak3tivsrsssk21fyjx; UM_distinctid=16ab96c7428597-06cdcf6387df49-3e385e0c-1fa400-16ab96c7429468; CNZZDATA3869267=cnzz_eid%3D1712410708-1557886698-https%253A%252F%252Fwww.baidu.com%252F%26ntime%3D1557886698; __utma=5198522.1984520062.1557889054.1557889054.1557889054.1; __utmc=5198522; __utmz=5198522.1557889054.1.1.utmcsr=baidu|utmccn=(organic)|utmcmd=organic; __utmt=1; _temp=cid=E3D1166BF20D73011A243C31986F11D3C4F9F990675F7180160A3E9D525D0E67EB272594E2833B2F0AC8EC3AA00A186193864A4D2EDF2DDEEDA866F24F7AB4240FE374470D30B6BC2C12C69946E0A1D645DD54E32A9D21D34F1BBA502088B2CD4A03D1B4C6B4517B&agentId=977529CD953B5AADB8B153D173E4469655B7543882203307C492503BED8EEF8F60F2AE84D5B8B50A132E67A4FE6D87E8EFF53764AC08EDBC9E3074AE8830BDEA383386CC91A7510BC6DD9A0F8D91EB1E51411A237DE1ACFD&tag=5d49eccd38744fa7809d9fec61c6f0c3; _trail=cid=909235&cidn=59B8AD936D02C5AF09FB488AA0F9077C4CCE102DFEE65A0EC0224389A4C177C5&sip=137; _cid=6627E8830E488FC7; __utmb=5198522.57.10.1557889054’,
‘User-Agent’:‘Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Safari/537.36’,
‘Referer’:‘https://www.xmrc.com.cn/net/Enterprise/Resultg.aspx?a=a&g=g&searchtype=1&releasetime=60&ffunction=9927&sortby=updatetime&ascde’,
}
browser = webdriver.Chrome()
browser.get(url)
login = browser.find_element_by_xpath(’//[@id=“container”]/table[1]/tbody/tr[3]/td/table/tbody/tr[1]/td[3]/a/img’) # 登录
login.click()
time.sleep(1)
user = browser.find_element_by_xpath(’//[@id=“ctl00_Body_ctl00_UsernameTextBox”]’) # 用户
user.send_keys(‘xxxxx’)
time.sleep(1)
password = browser.find_element_by_xpath(’//[@id=“ctl00_Body_ctl00_PasswordTextBox”]’) # 密码
password.send_keys(‘xxxx’) #
time.sleep(1)
button = browser.find_element_by_xpath(’//[@id=“ctl00_Body_ctl00_LoginButton”]’) # 点击登录
button.click()
time.sleep(1)
gangwei = browser.find_element_by_xpath(’//*[@id=“menuTable”]/tbody/tr[34]/td/a’) # 点击查询人才
gangwei.click()
time.sleep(1)

rep_ = ‘https://www.xmrc.com.cn/net/Enterprise/Resultg.aspx?a=a&g=g&searchtype=1&releasetime=60&ffunction=9929&sortby=updatetime&ascdesc=Desc&PageIndex={}’
search_position = ‘客服及技术支持’
data = ‘2019-’ + time.strftime("%m%d", time.localtime())
for n in range(1, 68):
rep = rep_.format(n)
browser.get(rep)
text = browser.page_source
time.sleep(1.5)
doc = pyquery.PyQuery(text, parser=“html”) # parser=“html” 当无法提取标签时，加入这个
info = doc.find(‘div[id=“ctl00 B o d y

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python3爬虫

python3爬虫 selenium+pyquery爬取人才网简历实战的相关文章

ubuntu技巧--python查看已安装包

1 打开terminal 输入python 进入交互环境 2 比如要查看是否安装numpy包则输入 help numpy
Pnpm:高性能的 npm

pnpm 英文里面的意思叫做 performant npm 意味高性能的 npm 官网地址可以参考 https pnpm io 什么是pnpm Pnpm 本质上就是一个包管理器这一点跟 npm yarn 没有区别但它作为杀手锏的两个优
python中对于bool布尔值的取反

背景根据公司业务的需求需要做一个对于mysql数据库的大批量更新脚本嘛也是干干单单使用了redis的队列做缓存可以异步并发的多任务进行更新有点难受的地方在于请求访问时因为一些网速速率之内的原因导致正常的数据会请求失败处
游戏在计算机丢失,运行游戏时提示丢失d3dx9_43.dll的多种解决方法

很多人遇到dll文件被丢失首先想到的就是电脑被中毒了电脑被入侵了其实往往都是自己对电脑的认识不够深而导致遇到一些小故障就盲目不知道该如何下手当然遇到没有找到d3dx9 43 dll我们该怎么办呢下面就来好好认识这个d3dx9 43
layui table默认选中指定行

表格默认选中行在回调里写入 done function res curr count tableData res data data field id css display none var data res data var num
win10系统谷歌浏览器怎么用不了？谷歌浏览器打不开网页的解决方法

1 我们下载好谷歌浏览器后搜索时界面一直卡在主界面一直在刷新就是弹不出东西 2 通过设置来是谷歌浏览器可以进行搜索点击右上角的三个小黑点在下拉界面中点击设置 3 在地址了使用的搜索引擎后面点击Google后面的小三角选
【Linux】进程地址空间

需要云服务器等云产品来学习Linux的同学可以移步 gt 腾讯云 lt gt 阿里云 lt gt 华为云 lt 官网轻量型云服务器低至112元年新用户首次下单享超低折扣目录一虚拟地址二对进程地址空间的理解三 32位下的进程
STM32CubeMX时钟源的选择

使用STM32CubeMX进行时钟源RCC配置的时候可以选择使用内部时钟或外部时钟当程序对时钟精度要求较高时通常使用外部时钟下拉选框如下图 Disable 禁用外部时钟 BYPASS Clock Resource 外部有源晶振旁路
在windows上使用ubuntu(非虚拟机模式)

工具 wsl ubuntu20 04 步骤在powershell下执行wsl install等待进度条完成在控制面板 gt 程序 gt 启用或者关闭windos功能勾选适用于Linux的windos子系统任务栏的搜索框输入Micro
python实验总结_python实训总结和体会_python实训心得体会 - CSDN

1 字符串格式化表达式功能生成一个特定格式的字符串运算符语法格式格式化字符串参数值或格式化字符串参数值1 参数值2 参数值3 描述左边是字符串的格式右边是参数值当有多个参数值使用括号分离格式字符串并使用一个逗号分隔格
MySQL删除数据库

删除数据库是指在数据库系统中删除已经存在的数据库数据库删除之后原来分配的空间将被收回需要注意的是数据库删除之后该数据库中所有的表和数据都将被删除因此删除数据库要特别小心一通过SQL语句 MySQL中删除数据库通过SQL语句D
tensorflow学习（二）——训练分类时，对图像进行增强（基于tf.image存在的一些问题）

0 写作目的好记性不如烂笔头 1 图像分类时图像的数据增强在博主进行图像增强时存在一些问题和大家分享一下 1 1 使用tensorflow自带的读取图像函数存在的问题如果采用直接读取图像的方式使用tf image进行读取图像
zookeeper介绍

1 简介 Zookeeper 分布式服务框架是Apache Hadoop 的一个子项目它主要是用来解决分布式应用中经常遇到的一些数据管理问题如统一命名服务状态同步服务集群管理分布式应用配置项的管理等 Zookeeper 作为一个
Spring-Data-Jpa AuditingEntityListener @CreatedDate @LastModifiedDate 用法

import com fasterxml jackson annotation JsonIgnoreProperties import org hibernate validator constraints NotBlank import
OpenStack学习笔记（二）计算服务NOVA

本篇记录OpenStack的计算服务NOVA一些内容很多看不懂汗只捡一小部分记录一逻辑图 OpenStack 计算服务NOVA 是基础设施服务IAAS的主要部分采用Python实现 1 因为认证与OpenStack 身份认证k
如何将GB7714-2015格式的参考文献表转换为bib文件

如何将GB7714 2015格式的参考文献表转换为bib文件 1 背景 latex使用参考文献是一个自动化的工作但建立和维护bib文件其实一个长期的积累活动有些参考文献的bibtex数据是存在比如从各类学术网站上可以下载到但有些网站
NIO-DO Java 线上笔试（编程）题,蔚来汽车

NIO DO Java 线上笔试编程题 1 使用二分查找的方式来定位某一元素 2 请用你熟悉的开发语言完成如下题目输入若干个集合各集合中的元素不会重复输出求这些集合的笛卡尔积例如输入 N个集合这里N 3 a b x y
Laravel-Dcat-layer 手写的弹窗样式

Dcat admin框架下重新写的弹窗样式实现设置固定最大高度弹窗滚动实现更好的页面效果 public function layer return lt lt
python使用KDDockWidget

编译原理 KDDockWidget是一个C 库通过shiboken转成python的绑定支持针对特殊版本需要在cmake文件中增加一些变量注本次编译 Qt版本统一指定为6 4 2 库支持Qt gt 5 12或6 2 0以上版本下

随机推荐

yolov5数据集制作

yolov5 数据集的格式每个图像的标注信息存储在一个独立的txt文件中每个txt文件的名称应该与其对应的图像名称相同只是文件扩展名不同例如对于名为 image1 jpg 的图像其标注信息应存储在名为 image1 txt 的t
FPGA微型板Verilog简单音频

简单音调生成该模块通过使用一个计数器生成一个1 kHz的信号该计数器在CLK的每个刻度上都递增当计数器达到32 000时将切换输出BUZZER 并将计数器重置为0 音频输出使用一个1 k 电阻器和一小段实心线将GPIO引脚P97和
Nginx多条件IF逻辑运算（与、或操作）不支持问题解决方法

原文地址 Nginx多条件IF逻辑运算与或操作不支持问题 BIGTREE Nginx配置不支持if条件的逻辑与逻辑或运算而且也不支持if嵌套例如 if e request filename request uri apple b
5 建立业务需求

业务需求代表的是需求链的顶部它们定义解决方案的愿景和实现该方案的项目范围用户需求和功能需求和功能需求必须与业务需求建立的背景和目标保持一致任何无助于项目达成业务目标的需求都不宜实现如果项目没有清晰的定义和充分沟通方向肯定会带来灾难
IDEA配置tomcat服务器

需求背景从Eclipse转IDEA后面对的第一个问题就是要为IDEA配置tomcat服务否则不可用那么功能需求那么该如何配置呢 1 点击 Edit Configurations 进入tomcat服务编辑页面如下图所示 2 点
漫谈数据库表设计及索引设计

一数据库表设计在数据库表设计上有个很重要的设计准则称为范式设计什么是范式设计范式来自英文Normal Form 简称NF MySQL是关系型数据库但是要想设计个好的关系必须使关系满足一定的约束条件此约束已经形成了规范分成
一阶RC低通滤波器（二）

这篇文章补充下前面讲的一阶低通滤波器在母线电压采样或是在电机的三相端电压采样时往往是先分压再经过RC低通滤波器电路图如下 1 先求输出和输入的关系 Uao Ua 从上式可以看出系统相当于一个典型的一阶低通滤波器串联了一个R2 R1
python-opencv之形态学操作（腐蚀和膨胀）原理详解

形态学操作作用 Removing noise Isolation of individual elements and joining disparate elements in an image Finding of intensity
frp login to server failed: i/o deadline reached

使用kcp协议有时会出现这个问题配置改为tcp即可
【科研入门】会议、期刊、出版社、文献数据库、引文数据库、SCI分区、影响因子等基础科研必备知识

大家好我是洲洲欢迎关注一个爱听周杰伦的程序员关注公众号程序员洲洲即可获得10G学习资料面试笔记大厂独家学习体系路线等还可以加入技术交流群欢迎大家在CSDN后台私信我本文目录一会议与期刊二如何辨别是否正规期刊or会
进阶题解：链表相交，吊打代码随想录

随想录解法 class Solution public ListNode getIntersectionNode ListNode headA ListNode headB ListNode curA headA ListNode curB
#pragma data_seg共享数据使用说明

用 pragma data seg建立一个新的数据段并定义共享数据其具体格式为 pragma data seg shareddata HWND sharedwnd NULL 共享数据 pragma data seg 1 pragma da
样本方差为何除以n-1而不是n？

很多人可能都会有疑问为什么要除以n 1 而不是n 如果除以n 对样本方差的估计不是无偏估计比总体方差要小要想是无偏估计就要调小分母所以除以n 1 那么问题来了为什么不是除以n 2 n 3等所以在这里彻底总结一下首先交代一下无偏
wangEditor富文本编辑器+react+antd的使用

1 github上发现富文本编辑器官网地址及github地址 2 结合react antd的具体使用案例使用场景 MyModal为弹窗弹窗显示编辑名称及描述描述使用wangeditor富文本编辑器实现 MyModal js imp
免费的HTML5连载来了《HTML5网页开发实例详解》连载（六）媒体查询

响应式设计的另一个重要技术手段是媒体查询如果只是简单的设计一个流式布局系统那么可以保证每个网格按比例的放大和缩小但有可能会使得在小屏幕下如手机设备网格太小而严重影响阅读这样的设计称不上响应式设计媒体查询可以来解决这一问题媒体
VMware workstation 14.1.8 pro 下载地址 14最新版

VMware Workstation 14 1 8 Pro 发布于2019年11月12日官网下载地址如下 https download3 vmware com software wkst file VMware workstation f
linux如何查看安装了哪些软件

linux查看安装了哪些软件的方法 1 利用 rpm qa 命令查看rpm方法安装的软件 2 利用 dpkg l 命令查看deb方法安装的软件 3 利用 yum list installed 命令查看yum方法安装的软件本教程操作环境 l
python爬虫笔记

python爬虫笔记找到了一个网址 https blog csdn net belalds article details 80694126 1 使用requests库 import requests 导入requests库 respon
MetaMask 添加BSC、Polygon网络配置

打开浏览器点击MetaMask插件选择网络点击弹窗中的 Add Network 按钮添加各网络配置如下 1 BSC Binance Smart Chain 主网 key value 网络名称 Network Name Binance
python3爬虫 selenium+pyquery爬取人才网简历实战

不废话直接贴代码各位看官要是觉得可以的话麻烦点个赞 import requests pymysql pyquery time from bs4 import BeautifulSoup from selenium import web

python3爬虫 selenium+pyquery爬取人才网简历实战

python3爬虫 selenium+pyquery爬取人才网简历实战 的相关文章

随机推荐

热门标签

python3爬虫 selenium+pyquery爬取人才网简历实战的相关文章