招聘会岗位筛选爬虫——广州市高校毕业生就业指导中心（广州市高指中心）

2023-05-16

# 2020-09-21更新：目前该网站已实现此功能：

为什么爬虫？

由于没有筛选功能，导致获取相关想要的信息费时费力。

目标网站：广州市高校毕业生就业指导中心的某个现场招聘会

以“2019年全国人力资源市场高校毕业生就业服务周广州市人才招聘大会（华南理工大学专场）”为例

URL为http://gzbys.job168.com:8080/companyOfTheMeetingListWeb.action?page=2&meetingNo=4302

分析URL，可知该招聘会的标识码为meetingNo=4302，页码变化为page=2

其中有500+个企业，包含：编号、企业名称、招聘岗位

从而我们爬虫的目的是：爬取招聘岗位（包含某些关键词，类似于筛选）的相关信息

点击进入某个企业，可以得到如下信息：企业名称、公司性质、公司简介、招聘职位等

点击进入某个职位，可以得到如下信息：职位名称（包含招聘人数）、职位信息、职位要求等

从而，爬取的内容可以包含：

dic = {'所在页码':page_list,
'企业编号':cno_list,
'企业名称': cname_list,
'企业链接': chref_list,
'企业类型': c_type_info_list,
'企业简介': c_brief_info_list,
'职位名称': jname_list,
'职位链接': jhref_list,
'职位信息': j_type_info_list,
'职位简介': j_brief_info_list,
}

通过python书写简单爬虫程序

import requests
from bs4 import BeautifulSoup
import pandas as pd

# 用于筛选的一些关键词
keywords = ['数据', '机器学习', '算法工程师', 'AI']
# 初始化要爬取的信息列列表，最后通过pandas输出为excel文件
page_list = []
cno_list = []
cname_list = [] 
chref_list = []
jname_list = []
jhref_list = []
c_type_info_list = []
c_brief_info_list =[]
j_type_info_list = []
j_brief_info_list =[]

meetingNo = str(4302) # 招聘会代号，也可以弄个列表，爬取多个招聘会
urlhead = 'http://gzbys.job168.com:8080'

因为不能直接获取该招聘会的总页数，于是通过while 1死循环，直到获取页面为空。

分析下面的网页源码，

于是可以获取所有的 class属性为row的div标签

rows = soup.find_all('div',attrs={'class':'row'})

在每一个row里面，可以从class为jobs的div标签里，获取所有的a标签，即职位列表

jobs = row.find('div',attrs={'class':'jobs'}) # type(jobs): bs4.element.Tag
jobs = jobs.find_all('a')

从而可以从每个job里面的职位url进一步获取职位相关信息

爬取过程的代码如下：

meetingNo = str(4302) # 也可以弄个列表，爬取多个招聘会
urlhead = 'http://gzbys.job168.com:8080'
page = 0
while 1:
    page = page +1
    url = urlhead + '/companyOfTheMeetingListWeb.action?page='+ \
            str(page) + '&meetingNo=' + meetingNo
    html = requests.get(url).text
    soup = BeautifulSoup(html,'lxml') # type(soup): bs4.BeautifulSoup
    
    rows = soup.find_all('div',attrs={'class':'row'}) # type(rows): bs4.element.ResultSet
    if rows == []: break
    for row in rows: # type(rows): bs4.element.Tag
        com = row.find('div',attrs={'class':'company eps'})
        cno = com.span.text # 企业编号
        cname = com.a.text  # 企业名称
        chref = urlhead + com.a['href'] # 企业链接
        jobs = row.find('div',attrs={'class':'jobs'}) # type(jobs): bs4.element.Tag
        jobs = jobs.find_all('a')
        for job in jobs:
            jhref = urlhead + job.get('href') # 职位链接
            jname = job.text # 职位名称
            for keyword in keywords:
                if keyword in jname:
                    page_list.append(page)
                    cno_list.append(cno)
                    cname_list.append(cname)
                    chref_list.append(chref)
#                    jname_list.append(jname)
                    jhref_list.append(jhref)
                    # 进入chref以获取企业类型、企业简介、[联系方式、招聘职位列表]
                    html = requests.get(chref).text
                    soup = BeautifulSoup(html,'lxml')
                    c_type_info = soup.find('div', attrs={'class':'info'}).string
                    c_brief_info = soup.find('div', attrs={'class':'cont'}).text.replace(' ','')
                    c_type_info_list.append(c_type_info)
                    c_brief_info_list.append(c_brief_info)
                    # 进入jhref以获取职位名称(含有人数)、职位信息、职位要求、[联系方式、其他招聘职位列表]
                    html = requests.get(jhref).text
                    soup = BeautifulSoup(html,'lxml')
                    jname = soup.find('div', attrs={'class':'name'}).text
                    jname_list.append(jname) # 
                    conts = soup.find_all('div', attrs={'class':'cont'})   
                    j_type_info = conts[0].text.replace(' ','').replace('\n','').replace('\r','')
                    j_brief_info = conts[1].text.replace(' ','').replace('\r\n','')
                    j_type_info_list.append(j_type_info)
                    j_brief_info_list.append(j_brief_info)
                    break

最后通过字典转换成pandas的dataframe数据框类型，并以excel文件输出

dic = {'所在页码':page_list,
       '企业编号':cno_list,
       '企业名称': cname_list,
       '企业链接': chref_list,
       '企业类型': c_type_info_list,
       '企业简介': c_brief_info_list,
       '职位名称': jname_list,
       '职位链接': jhref_list, 
       '职位信息': j_type_info_list,
       '职位简介': j_brief_info_list,       
       }
df = pd.DataFrame(dic)
df.to_excel("招聘信息汇总.xls")

结果如下：

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

招聘会岗位筛选爬虫——广州市高校毕业生就业指导中心（广州市高指中心）的相关文章

Shell | TelePort 堡垒机主服务检测脚本

根据近期对堡垒机的使用 xff0c 发现 TelePort 比较简单好用但是在使用过程中 xff0c 发现主服务容易休眠 xff0c 为解决此问题 xff0c 写了个 shell 脚本 xff0c 能够从侧面解决该问题具体报错远程连接
Ubuntu22.04设置独显用于深度学习运算，核显用于屏幕显示

目录摘要主板bios设置第一步 xff1a 切换prime select第二步 xff1a 关机重启 xff0c 并将显示器接口插到主板上第三步 xff1a 设置PRIME Profiles为NVIDIA On Demand模式注意事项参
conda新建环境时报错NotWritableError: The current user does not have write permissions

目录 1 问题描述 2 问题原因 3 解决方案 4 测试 5 参考自 1 问题描述在使用 conda create n environment name 命令新建环境时 xff0c 遇到错误 xff1a Solving environme
C++快读快写详解

文章目录完整的读写模板 xff08 新式 xff09 基本快读快写 xff08 旧式 xff09 更快的快读代码解释完整的读写模板 xff08 新式 xff09 span class token macro property span
Anaconda 使用以及cmd命令

在使用anaconda进行配置环境的时候 xff0c 可以再anaconda中进行环境配置 xff0c 同时也可以使用cmd利用pip或者conda在cmd命令下安装 Ubuntu指令集合 xff09 查看install清单 1 conda
记录ubuntu22.04突然连不上网

问题 xff1a ubuntu22 04莫名其妙连不上网 xff0c 右上角那个网络图标也没有折腾了一天之后终于能连网了因为虚拟机里装了conda环境 xff0c 装了一个机器学习框架要用的各种包 xff0c 实在不想再装一次虚拟机和环
IOS开发之——多线程-基础(1)

一概述进程和线程多线程在IOS开发中的应用耗时操作的执行二进程和线程 2 1 什么是进程进程是指在系统中正在运行的一个应用程序比如同时打开QQ Xcode xff0c 系统就会分别启动2个进程通过活动监视器可以查看Mac系统中
Word文档（.docx）转为 Markdown文档（.md）的一种方法 —— 一款word插件（Writage）

将Word文档转为Markdown文档 xff0c 虽然这种情况不多 xff0c 但是遇到的时候 xff0c 如果有一个顺手的插件 xff0c 那真是太舒服了工具 xff1a Writage大小 xff1a lt 10M下载方式 xff1
Redis主从集群搭建（有网情况下在一台服务器）

Redis集群搭建简介 Redis 集群是一个提供在多个Redis节点间共享数据的程序集 Redis 集群通过分区来提供一定程度的高可用性在实际环境中 xff0c 当某个节点宕机或者不可达的情况下能够继续提供服务 xff1b Redis
操作无法完成，因为其中的文件夹或文件已在另一程序中打开 --＞彻底解决方案

操作无法完成 xff0c 因为其中的文件夹或文件已在另一程序中打开 gt 彻底解决方案删除文件时出现的状况 xff1a 解决方案一打开任务管理器 xff08 快捷键Ctrl 43 alt 43 Del xff09 xff0c 选择性能
重装系统后Photoshop打开提示已停止工作

友情链接 xff1a http laozhangdongzao com 1 首先右键单击photoshop cs6 点击属性 2 点击兼容性 3 可以看到此时以兼容模式运行这个程序前未勾选 4 勾选以兼容模式运行这个程序 xff0
python3—字典（dict）

目录 1 字典的描述2 访问字典里的值3 修改字典4 删除字典元素5 字典键的特性6 字典内置函数 amp 方法 1 字典的描述字典是另一种可变容器模型 xff0c 且可存储任意类型对象字典的每个键值 key 61 gt value 对
字母交换

题目字符串S由小写字母构成 xff0c 长度为n 定义一种操作 xff0c 每次都可以挑选字符串中任意的两个相邻字母进行交换询问在至多交换m次之后 xff0c 字符串中最多有多少个连续的位置上的字母相同 xff1f 链接思路记录每个
github加载太慢以及release里面文件下载太慢或者无法下载的解决方法

参考链接 xff1a github下载与加载慢怎么解决 1 FastGithub 项目解决github加载太慢 xff0c 解决releases无法上传下载失败等问题 2 dev sidecar 项目解决github加载太慢 xff0c
Git常用命令符

1 强制推送 xff08 慎用 xff0c 除非你认为其他冲突等可以丢弃或者不是很重要 xff09 git push force 2 创建文件等小命令 touch a 创建一个a文件 echo 1234 gt gt a 把1234这个内容
ffmpeg--libswscale（图像缩放、颜色空间和像素格式转换操作）

libswscale介绍 span class token number 1 span span class token number 2 span 种初始化方法 xff1a span class token keyword struct
vmware Ubuntu22.04共享文件夹找不到问题

1 在VMware上先配置Windows上需要共享的文件名称路径 xff0c 选择总是开启 2 在终端执行命令 xff1a vmware hgfsclient 当前面一步配置正确会显示 xff0c windows下共享的文件夹名称但是我
Ubuntu Server 22.04修改静态ip及配置网关

1 查看本机获取的IP地址 xff1a 输入命令 ip addr xff1a 2 修改配置文件跳转到配置文件目录 xff1a cd etc netplan 使用ls查看配置文件名称 xff1a ls 使用nano修改配置文件 xff1a
【二】卷积神经网络CNN

为什么设计神经网络的架构能让结果表现更好 xff1f 总结本课从影像识别切入 xff0c 从全连接网络讲起 xff0c 通过2种观察得出2种简化得到了CNN xff0c 一是有些pattern仅出现在图片的一小部分提出了感受野 xff0c
Docker Error ：Invalid or corrupt jarfile .jar

他提示的是你的jar包有问题 xff0c 无效那么有很多种情况 xff0c 我遇到的是两种 dockerfile有问题 xff0c 我的dockerfile一开始是直接网上复制的 xff0c 其中有一句是将jar包copy进到容器 xff

随机推荐

Python每日一编程小练习（2019.05.26）——1到3循环报数，最后留下报号不是3的位置

题目 xff1a 有n个人围成一圈 xff0c 顺序排号 xff0c 从第一个人开始报数 xff08 从1 3报数 xff09 xff0c 凡报到3的人退出圈子问 xff1a 最后留下的人原来排在第几号难点 xff1a 如何定义一个能循
解决Ubuntu16.04拨号上网及有线连接频繁断网的问题

最近从Ubuntu14 04换到了16 04 xff0c 学校又从锐捷校园网换成了深澜 xff0c 于是上网时候遇到了一些小问题首先解决在Ubuntu下拨号上网首先终端输入 sudo pppoeconf 之后就会出现一个界面 xff0c
Debian10配置Raid5及部署LVM

Debian10配置 Raid5 任务点添加4块1G的硬盘创建raid5 xff0c 其中一块作为热备盘 xff0c 设备名为md0 将md0设置为LVM xff0c 设备为 dev vg01 lv01 格式化为ext4文件系统开机自
Debian 10 apache2配置https

apache2配置https 首先需要证书 xff0c 可以看我另一篇关于openssl颁发证书的blog 配置https span class token comment 编辑配置文件 span span class token func
使用树莓派3B+开发智能音乐播放器

一功能描述对麦克风说出歌名后 xff0c 树莓派自动下载对应歌曲的MP3 xff0c 默认播放搜索到的第一首歌曲二硬件设备 1 树莓派3B 43 2 sony的ps3 eye麦克风一个 xff08 淘宝20块一个 xff0c 带摄像
MySQL8.0最新版安装及一些注意事项

借鉴文章 xff1a https blog csdn net theLostLamb article details 78797643 一 MySQL下载首先 xff0c 去数据库的官网mysql官网http www mysql com下
Android逆向分析实例(三)-解密微信EnMicroMsg.db数据库

1 简介首先介绍下EnMicroMsg db数据库 xff1a 这个数据库是存放在Android手机本地的用来保存微信聊天记录的一个数据库 xff0c 是一个Sqlite数据库 xff0c 且手机必须要有root权限才能获取到 xff0c
虚拟机磁盘扩容（纯命令行）

背景 xff1a 磁盘使用率达到100 xff0c 无大数据文件可删除 xff0c 需要进行磁盘扩容步骤 xff1a 1 虚拟机调高分配给磁盘的大小 2 启动虚拟机 xff0c 查看磁盘是否扩容 fdisk l 3 扩容磁盘分区 fdis
数据划分处理（基于python的pandas中的dataframe数据结构）

数据划分处理 xff08 基于python的pandas中的dataframe数据结构 xff09 我们常常需要从一个表格中 xff0c 得到相关的子表格正如问题 xff1a 按国家 xff0c 从原始资源表中得到金银铜的年储量变化 xf
【springboot】配置实现https单项认证和双向认证

1 什么是https HTTPS其实是HTTP 43 SSL xff0c S的含义也就是Secure Socket Layer xff08 简称SSL xff09 下边简单介绍一下SSL SSL是用于在web上实现加密最广泛使用的协议 SS
samba访问共享提示，NT_STATUS_ACCESS_DENIED listing \*

rhce练习samba共享配置好 xff0c client验证提示NT STATUS ACCESS DENIED listing root 64 system2 smbclient 172 24 8 11 devops U akira re
C++——木棒加工问题求解

问题描述现有n根木棒 xff0c 已知它们的长度和重量 xff0c 要用一部木工机一根一根地加工这些木棒该机器在加工过程中需要一定的准备时间 xff0c 是用于清洗机器 xff0c 调整工具和模板的木工机需要的准备时间如下 xff1a
hashCode和equals作用与关系

hashCode和equals作用 hashCode和equals作用实际上差不多 xff0c 都是用来比较两个对象是否相同但是equals比较更加全面准确 xff0c 所以比较复杂 xff0c 这样效率很低 xff0c 所以我们还要使用
Python pip更新教程（两种方式）

1 直接采用命令行模式更新 1 1 搜索框搜索cmd xff0c 然后以管理员模式打开 1 2 执行命令 python span class token parameter variable m span pip span class to
ubuntu在指定目录下安装anaconda （vscode，其他IDE也可参考，没有IDE也可参考）

ubuntu在指定目录下安装anaconda 首先cd到一个目录下 xff0c 用以下载anaconda安装包 xff08 只是放安装包的地方 xff0c 最后anaconda真正安装的地方不是这里 xff09 比如我是把安装包都放一个do
64位intel汇编风格往bss段中的数组放值

span class token keyword extern span printf span class token punctuation span section span class token punctuation span
Ubuntu在线配置：golang调用python环境

Anolis amp amp CentOS配置 xff1a Anolis和CentOS配置 xff1a golang调用python环境 Ubuntu离线配置 xff1a Ubuntu离线配置 xff1a golang调用python环境
【string 与 char】C++ 中string与char

C 43 43 中string类的定义如下 xff1a span class token comment A string of 64 c char span span class token keyword typedef span ba
Ubuntu16.04 登陆完后出现蓝屏

解决方法 xff1a 问题分析启动 Ubuntu 可以进入登录界面 xff0c 说明系统是可以运行起来的没有发生大块的核心数据损坏 xff0c linux 系统一般都可以修复 xff0c 一定要淡定于是开始放狗 xff08 google
招聘会岗位筛选爬虫——广州市高校毕业生就业指导中心（广州市高指中心）

2020 09 21更新 xff1a 目前该网站已实现此功能 xff1a 为什么爬虫 xff1f 由于没有筛选功能 xff0c 导致获取相关想要的信息费时费力目标网站 xff1a 广州市高校毕业生就业指导中心的某个现场招聘会以 2019

招聘会岗位筛选爬虫——广州市高校毕业生就业指导中心（广州市高指中心）

招聘会岗位筛选爬虫——广州市高校毕业生就业指导中心（广州市高指中心） 的相关文章

随机推荐

热门标签

招聘会岗位筛选爬虫——广州市高校毕业生就业指导中心（广州市高指中心）的相关文章