前程无忧招聘信息爬取

2023-11-08

爬取前程无忧招聘信息

本文是关于招聘数据爬取，我们选取的网站是前程无忧。
百度直接搜索前程无忧，或者51job。我们将看到搜索栏，在搜索栏中输入“数据分析师”将可以看到工作信息。
至于分析网站在这里就不在解释了，本爬虫只是简单爬取一点数据，所以并没有怎么做出伪装爬虫机制。所以本文仅供参考学习。如果真的对这网站想要爬取，请联系博主，我会详细写出一篇来，下面是代码和数据仅供参考。

在这里插入图片描述

# !/usr/bin/python
# -*- coding: utf-8 -*-
'''
@File    :   qianchengwu_crab.py
@Time    :   2020/03/15 21:21:18
@Author  :   Qingxiang Zhang
@Version :   1.0
@Contact :   344285081@qq.com
@Desc    :   
@Software:    Vscode
'''


import urllib
import requests
import re
import csv
import json
def main():

    for i in range(1, 60):
        print('正在爬取第{}页信息'.format(i))

        baseurl = "https://search.51job.com/list/000000,000000,0130%252c7501%252c7506%252c7502,01%252c32%252c38,9,99,%25E6%2595%25B0%25E6%258D%25AE%25E5%2588%2586%25E6%259E%2590%25E5%25B8%2588,2,{}.html".format(i)#全国+keyword
        html = askURL(baseurl)
        # print(html)
        # print(bs)
        re_soup=re.search(r'window.__SEARCH_RESULT__ =(.*?)</script>',html)
        json_data=json.loads(re_soup.group(1))
        # print(json_data)
        for items in json_data["engine_search_result"]:

            job_name=items["job_name"]
            # print(job_name)
            company_name=items["company_name"]
            jobwelf=items["jobwelf"]
            providesalary_text=items["providesalary_text"]           
            #存储成csv格式
            with open("./result.csv","a",encoding="utf-8",newline="") as f:
                csv_write=csv.writer(f)
                csv_write.writerow([job_name,company_name,providesalary_text,jobwelf])

def askURL(url):
    head = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36"
    }

    request = urllib.request.Request(url,headers=head)
    html = ""
    try:
        response = urllib.request.urlopen(request)
        html = response.read().decode('gbk', 'ignore')
        # print(html)
    except urllib.error.URLError as e:
        if hasattr(e, "code"):
            print(e.code)
        if hasattr(e,"reason"):
            print(e.reason)

    return html
if __name__ == '__main__':
    main()

数据样式：

在这里插入图片描述

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

前程无忧招聘信息爬取的相关文章

使用中序和前序遍历输出二叉树

class Node def init self data left None right None self data data self left left self right right def inorderTraversal r
Python 3 中是否有像 C++ 中的 getchar() 这样的内置函数？

我想在 python 中进行用户输入类似于获取字符 c 中使用的函数 C 代码 include
是否可以在 python shebang 中包含命令行选项？

我的 python 脚本顶部有规范的 shebang usr bin env python 但是当我运行脚本时我仍然经常希望将未缓冲的输出导出到日志文件因此我最终调用 python u myscript py gt myscript
无法通过 pip 安装 xmlsec

我在运行时收到以下信息pip install xmlsec在 macOS Big Sur 11 3 1 中 Building wheels for collected packages xmlsec Building wheel for x
在 SQLAlchemy 中选择 NULL 值

这是我的 PostgreSQL 表 test gt create table people name varchar primary key marriage status varchar test gt insert into peopl
求 Petersen 子图中的哈密顿路径

我开始使用 IDE Jupyter Python 3 6 并出现了一个问题我必须通过IDE绘制Petersen子图中的哈密顿路径但我不知道该怎么做我显示有关该图的信息彼得森图 https en wikipedia org wiki
使用 range/arange 函数作为参数对 2d numpy 数组进行索引/切片

我对 numpy 有一个基本的疑问我在 Ubuntu 14 04 上使用 Python 2 7 numpy 1 9 2 例如我将 2d numpy 数组初始化为a np zeros 10 10 然后我尝试通过以下方式使用范围函数作为索
您必须使用 dtype float(Tensorflow) 为占位符张量“Placeholder”提供值

import tensorflow as tf import os import sklearn preprocessing import pandas as pd import numpy as np print os getcwd os
如何在 difflibs html 输出中突出显示每行超过两个字符

我在用difflib HtmlDiff比较两个文件我希望在输出的 html 中突出显示差异当一行中最多有两个不同的字符时这已经有效 a 2 000 b 2 120 但是当一行上有更多不同的字符时在输出中整行将被标记为红色在左侧
Python 单元测试 Google Bigquery

我在对以下代码块进行单元测试时遇到问题 from google cloud import bigquery from google oauth2 import service account def run query query gcp
使用 BeautifulSoup 查找 html 中的所有表

我想使用 BeautifulSoup 查找 html 中的所有表格内部表应包含在外部表中我创建了一些有效的代码并且它给出了预期的输出但是我不喜欢这个解决方案因为它使用 decompose 这会破坏汤对象你知道如何以更优雅的
覆盖 Autobahn/Twisted WebsocketClientProtocol 类

我想重写我的 WebSocketClientFactory 类以允许传入数据填充作业队列这是我正在尝试的连接代码 factory WebSocketClientFactory ws localhost 7096 job queue Que
带约束的简单线性回归

我开发了一种算法来循环 15 个变量并为每个变量生成一个简单的 OLS 然后算法再循环 11 次以产生相同的 15 个 OLS 回归但 X 变量的滞后每次增加 1 我选择具有最高 r 2 的自变量并使用 3 4 或 5 个变量的最佳滞后
Python 中 `if name == "__main__"` 是什么意思？ [复制]

这个问题在这里已经有答案了可能的重复 name main gt 做什么 https stackoverflow com questions 419163 what does if name main do 我已经用 Python 编写脚本
Python带有负数的排序列表[重复]

这个问题在这里已经有答案了为了尝试通过练习来学习Python 我正在尝试使用Python来实现和测试快速排序算法实现本身并不困难但是排序的结果有点令人费解当我对列表进行排序时 35 1 2 7 8 3 4 20 6 53 结果给了我
functools.partial 想要使用位置参数作为关键字参数

所以我试图理解partial import functools def f x y print x y g0 functools partial f 3 g0 1 4 Works as expected In g1 functools pa
使用OIL自动旋转手机和加速度计拍摄的照片

我在网络应用程序中使用 Django PIL Amazon boto 用户发送图片然后 Web 应用程序显示它大多数情况下人们会发送用手机拍摄的照片有时图像以错误的方向显示有没有办法使用 PIL 或 Django 的 Image
真实文件对象比 StringIO 和 cStringIO 慢？

StringIO其代码中有以下注释 Notes Using a real file is often faster but less convenient There s also a much faster implementation
导入 matplotlib.pyplot 挂起

我正在尝试在 OS X 10 8 4 上启动并运行 matplotlib 我已经安装了 matplotlib 和依赖项 libping freetype numpy scipy 我可以很好地导入 matplotlib 但是如果我尝试导入
Tensorflow：为什么 tf.case 给我错误的结果？

我正在尝试使用tf case https www tensorflow org api docs python tf case https www tensorflow org api docs python tf case 有条件地更新张

随机推荐

Springboot +Flowable，DataObject的使用方式

一简介在 Flowable 流程图的绘制过程中可以编写一个名为 dataObject 数据对象的元素这个元素可以指定变量的 id 名称以及数据类型等各种属性并且在流程实例启动的时候会自动将 dataObject 元素的信息转换
MODBUS RTU通讯

modbus通讯 1 1 modbus通讯数据格式地址码 1个字节功能码 1个字节数据区 N个字节校验码 16位crc 1 2功能码功能码 gt 描述 gt 说明 gt modbus地址 01 gt 读输出线圈寄存器 gt 位操作
深度学习之图像分类（一）--分类模型的混淆矩阵

深度学习之图像分类一分类模型的混淆矩阵深度学习之图像分类一分类模型的混淆矩阵 1 混淆矩阵 1 1 二分类混淆矩阵 1 2 混淆矩阵计算实例 2 混淆矩阵代码 3 混淆矩阵用途深度学习之图像分类一分类模型的混淆矩阵今天开始
有时候在textarea中显示的数据页面显示总是不能顶头，开头总是有几个空格

代码如下
利用redis实现消息队列之topic模式

redis同样可以实现消息队列的发布订阅功能发布消息者使用比较简单订阅消息者则需要手动继承 redis clients jedis JedisPubSub 这个抽象类消费者有动作时就会回调这个实现类的方法新建两个maven工程生产
FFmpeg接收H.264解码并播放

在前面一个博客地址在这里中我们做到了将采集的摄像头数据编码为H 264 接下来我么讨论下如何将H 264发送在接收端接收解码并播放和上一篇编码的博客一样我们也是直接调用ffmpeg exe和ffplay exe文件内部的具体操
nginx服务器部署多个项目,怎么在docker中使用nginx部署多个项目

怎么在docker中使用nginx部署多个项目发布时间 2021 04 07 16 37 29 来源亿速云阅读 79 作者 Leah 栏目服务器本篇文章给大家分享的是有关怎么在docker中使用nginx部署多个项目小编觉得挺实
分页ajax上一页下一页,JQuery AJAX 分页，跳页下一页，上一页【总结了一天啊干货】...

网上的分页基本有问题自己总结下代码如下 var pagesi 2 每页行数 var totalPage 0 总页数 var currentPage 1 当前页 function menu item click function menu
目标识别算法C语言,大盘点

原标题大盘点性能最强的目标检测算法来源 CVer ID CVerNews 作者 Amusi 整理编辑三石新智元导读目标检测中存在两个非常重要的性能精度和速度特指mAP和FPS 本文便对mAP最高的目标检测算法进行了盘点趁最
[ 搞一点AutoSar ]一张图帮你理解CAN通信全过程

笔者最近一直在学习AUTOSAR 通信部分的相关知识经过长时间的学习有了一个大概的了解但一直感觉资料介绍的东西都很零散不是很全面这样子无法建立一个完整的知识体系于是笔者查阅各种资料加上自己的一点理解制作了CAN通信部分从软件到
python输入输入：input、map

主要整理python中输入输出用到的几个函数 print函数 print函数是python中常用到的一个函数关于print的用法这里是详细的一些介绍 input函数 input函数的用法如下 x input 提示信息 input得到的值是
【期末复习】UML

五类视图五类图用例视图逻辑视图并发视图组件视图部署视图九种图形用例图唯一有用户参加的图静态图类图对象图行为图状态图活动图交互图顺序图时序图协作图通信图实现图组件图构件图部署图活动图唯一表示
vue将后端获取到的路由，通过 addRouter 动态添加。

获取路由参数将路由添加到路由集合中去获取路由信息 axios post api mock getMenu then resp gt let datas resp data 遍历获取到的路由数组将其添加到全局路由中 datas forE
vue之watch的用法

一什么是watch watch 用于监听data里面的数据是否被修改一旦修改就可以执行一些其他的操作也是方法二 watch的用法 watch在监听的时候可以有二次参数第一次参数为更新的数据第二个参数为之前的旧数据 div h1
广电家庭服务器维修电话,广电家庭服务器换路由器怎么设置

广电家庭服务器换路由器怎么设置内容精选换一换用户的弹性云服务器已绑定EIP 但是无法连接到Internet 弹性云服务器通过EIP访问Internet的流程如图1所示本问题请按照以下思路进行排查处理查看弹性云服务器运行是否正常查看
HBase 二级索引的设计 (案例讲解)

HBase 二级索引的设计案例讲解最近做的一个项目涉及到了多条件的组合查询数据存储用的是HBase 恰恰HBase对于这种场景的查询特别不给力一般HBase的查询都是通过RowKey 要把多条件组合查询的字段都拼接在RowKey中显
SQL Server 2016新特性：DROP IF EXISTS

在我们写T SQL要删除某个对象表存储过程等时一般会习惯先用IF语句判断该对象是否存在然后DROP 比如旧版本 IF OBJECT ID dbo PERSON U IS NOT NULL DROP TABLE PERSON IF
element-plus中el-sub-menu样式修改

注意
二分查找（代码实例）

基本思路当我们要从一个序列中查找一个元素的时候最快想到的方法就是顺序查找法即从前到后依次查找但这种方法过于无脑就是暴力的把每个元素都排查一遍元素个数少的时候还行一旦元素个数多起来效率是非常低下所以在实际中这种查找的方法是
前程无忧招聘信息爬取

爬取前程无忧招聘信息本文是关于招聘数据爬取我们选取的网站是前程无忧百度直接搜索前程无忧或者51job 我们将看到搜索栏在搜索栏中输入数据分析师将可以看到工作信息至于分析网站在这里就不在解释了本爬虫只是简单爬取一点数据所以

前程无忧招聘信息爬取

爬取前程无忧招聘信息

前程无忧招聘信息爬取 的相关文章

随机推荐

热门标签

前程无忧招聘信息爬取的相关文章