爬虫项目二十一:需要简历吗?用Python轻松爬下上千份简历模板

2023-11-15


前言

用Python对站长之家的上千个简历模板批量爬取保存

在这里插入图片描述


提示:以下是本篇文章正文内容,下面案例可供参考

一、获取详情页url

我们进入站长之家的免费模板网站 https://sc.chinaz.com/jianli/free.html

进行翻页观察页面的url变化规律,可以看到其规律就是free后变化的数据

第一页:https://sc.chinaz.com/jianli/free.html
第二页:https://sc.chinaz.com/jianli/free_2.html
第三页:https://sc.chinaz.com/jianli/free_3.html

我们右键检查元素,通过XPath定位,即可找到标题所对应的详情页链接

在这里插入图片描述
根据url的变化规律,以及XPath定位可以利用Python获取每个模板的详情页链接和标题

代码如下:

def Get_Detail_Url(self):
    start_page=input("请输入起始页数(大于等于2):")
    end_page=input("请输入结束页数:")
    for i in range(int(start_page),int(end_page)+1):
        url = "https://sc.chinaz.com/jianli/free_%d.html" % (i)
        r = requests.get(url=url, headers=self.header)
        r.encoding='utf-8'
        text=r.text
        html = etree.HTML(text)
        div_list = html.xpath("//*[@id='container']/div")
        for div in div_list:
            try:
                url = 'https:' + div.xpath("./p/a/@href")[0]
                name = div.xpath("./p/a/text()")[0]
                self.detail_url_list.append(url)
                self.name_list.append(name)
            except:
                pass
    print("共获取%d个详情页url" % (len(self.detail_url_list)))

二、获取下载链接

上步骤我们已经获取了所有模板的详情页url和标题,我们进入详情页 找到下载位置 右键检查,可以找到模板的下载链接

在这里插入图片描述
知道了下载链接的位置,可以下代码获取

代码如下:

def Get_Dowload_Url(self,detail_url):
    r = requests.get(url=detail_url, headers=self.header)
    r.encoding='utf-8'
    text=r.text
    html = etree.HTML(text)
    try:
        dowload_url = html.xpath("//*[@id='down']/div[2]/ul/li[1]/a/@href")[0]
        self.Dowload_url_list.append(dowload_url)
    except:
        pass

三、保存模板

上面我们根据列表页获取了详情页链接,通过详情页获取了下载链接,现在我们只需要访问下载链接保存其二进制数据,即可下载模板

代码如下:

def Dowload_Jl(self,dowload_url,name):
    print("正在下载%s模板" % (name))
    req = requests.get(url=dowload_url, headers=self.header).content
    load_name = name + ".rar"
    path = "简历模板/" + load_name
    with open(path, "wb") as f:
        f.write(req)

最后,我们需要一个函数 将这些函数全部调用

def main(self):
    if not os.path.exists("./简历模板"):
        os.mkdir("./简历模板")
    self.header = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36'
    }
    self.detail_url_list = []
    self.name_list = []
    self.Get_Detail_Url()
    self.Dowload_url_list=[]
    pool = Pool(7)
    pool.map(self.Get_Dowload_Url,self.detail_url_list)
    pool = newPool(7)
    pool.map(self.Dowload_Jl, self.Dowload_url_list, self.name_list)

如果你对爬虫感兴趣,可看我主页已经更新多个爬虫项目、所有爬虫项目代码均在公众号“阿虚学Python”中,本次源码回复“简历”获取

在这里插入图片描述
原创文章不易,如果觉得不错,点个赞是对原创博主最大的支持

转载请标明出处

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

爬虫项目二十一:需要简历吗?用Python轻松爬下上千份简历模板 的相关文章

随机推荐

  • react-router-dom V6

    目录 1 前言 2 变更概览 将 Switch 升级为 Routes 路由匹配组件参数 由 component 改为 element 相对路径识别 子路由不需要补全父路由的path react会自动补全 用 useNavigate 替代 u
  • web开发编码_编码和游戏开发

    web开发编码 As a game enthusiast and a beginner programmer I always wonder what it would be like to develop a game 作为游戏发烧友和初
  • 入门接口测试

    首先 什么是接口呢 接口一般来说有两种 一种是程序内部的接口 一种是系统对外的接口 系统对外的接口 比如你要从别的网站或服务器上获取资源或信息 别人肯定不会把数据库共享给你 他只能给你提供一个他们写好的方法来获取数据 你引用他提供的接口就能
  • gcc 若干安全相关选项

    1 FORTIFY SOURCE buffer over flow 防御 参考 http fedoraproject org wiki Security Features Compile Time Buffer Checks 28FORTI
  • Elasticsearch8.2扩容挪数据master出现异常

    背景 1 ES 8 2 版本集群 从10节点扩到20节点 变更 目标替换老的10个节点 先扩容新节点再下掉老节点 2 挪数据执行exclude API 排除老节点IP 设置迁移速率为800Mb s 默认40Mb s 异常 1 迁移过程中突然
  • python笔记第四章---选择结构

    一 程序的组织结构 fact 任何简单或复杂的算法都可以由顺序结构 选择结构和循环结构这三种基本结构组合而成 顺序结构 计算机的流程控制 选择结构 if语句 循环结构 while语句 for in语句 1 顺序结构 程序从上到下顺序的执行代
  • Linux文件权限的设置

    本文章主要介绍了对Linux文件的权限以及如何设置权限 一 查看文件的权限与属性 ls l 或者 ll查看文件属性 二 可以列出如下图所示的一些信息 rw r r 第一位代表文件类型 d 表示目录 l 表示链接文件 表示普通文件 b 表示快
  • Postman测试webService接口

    1 打开Postman界面如下 设置Content Type text xml 2 设置body 3 请求结果如下 4 至此通过Postman进行webService接口测试测试完毕
  • 使用过滤器和request装饰增强来彻底解决乱码问题

    在客户端以get或者post方式提交数据时 可能会出现客户端与服务端编码集不匹配而发生乱码的现象 在对post方式产生的乱码我们可以用 request setCharacterEncoding utf 8 语句来解决 在对get方式产生的乱
  • maven&​ Plugin ‘org.apache.tomcat.maven:tomcat7-maven-plugin:2.2’ not found​报错解决【问题及解决过程记录】

    目录 什么是 Maven 安装 解压后需要配置环境变量 在path新增路径 验证maven安装成功 Win R打开cmd 输入mvn v 在配置文件中设置本地仓库路径 maven仓库的种类和关系 编辑 maven目录结构 编辑 maven的
  • oracal从入门到精通(一)

    1 1了解最新版本Oracle 11g 可以在Oracle的官方网站www oracle com获取Oracle的版本信息 本书中要讲解的是Oracle 11g的第1版 所以在这里只对Oracle 11g的各版本做以说明 Oracle 11
  • 关于Vue.js组件巨详细的一篇文章

    文章目录 Vue js 组件 全局注册 组件基础 组件命名规则 template 选项 data 选项 局部注册 组件通信 父组件向子组件传值 props 命名规则 单项数据流 props 类型 props 验证 非 props 属性 子组
  • Iterative Shrinkage Thresholding Algorithm

    Iterative Shrinkage Thresholding Algorithm ISTA ISTA 对于一个基本的线性逆问题 y A x
  • 【Webpack5】从零开始学习基础配置

    基本使用 Webpack 是一个静态资源打包工具 它会以一个或多个文件作为打包的入口 将我们整个项目所有文件编译组合成一个或多个文件输出出去 输出的文件就是编译好的文件 就可以在浏览器段运行了 我们将 Webpack 输出的文件叫做 bun
  • [转帖]国产操作系统概念及历史,目前国产操作系统有哪些?

    国产操作系统概念及历史 目前国产操作系统有哪些 2018 05 19 21 20 18 作者 ywnz 稿源 云网牛站整理 https ywnz com linuxgcxt 1786 html 以下为你讲解国产操作系统概念 国产操作系统历史
  • 【链块观点01期】当区块链的风刮到教育行业,哪些变革是注定要发生的?

    原文链接 区块链应用案例 当区块链的风刮到教育行业 哪些变革是注定要发生的 一 教育是国之大计 古往今来 教育都在人类生活中占有着极其重要的位置 教育与社会的进步 文明的发展程度紧密相关 中国正在努力建设和谐社会 而如何达成社会主义和谐社会
  • Android Studio运行时自带签名配置过程详解

    文章转载自 http teachcourse cn 2053 html 摘要 Android Studio比Eclipse在配置Project签名文件时方便很多 可以同时指定debug和release两种模式下的签名文件 debug模式即A
  • SpringBoot的自动装配

    一 什么是SpringBoot自动装配 SpringBoot 定义了一套接口规范 这套规范规定 SpringBoot 在启动时会扫描外部引用 jar 包中的META INF spring factories文件 将文件中配置的类型信息加载到
  • Qt 交叉编译

    背景 本来Qt源码是可以直接使用交叉编译器编译通过 也可以使用编译通过的qmake生成可执行程序 但是可执行程序在没有Qt的环境下无法正常运行 因此我们不只是仅需要编译源码 还需要将依赖的环境编译出来 这样打包可执行程序的同时将相应的依赖拷
  • 爬虫项目二十一:需要简历吗?用Python轻松爬下上千份简历模板

    文章目录 前言 一 获取详情页url 二 获取下载链接 三 保存模板 前言 用Python对站长之家的上千个简历模板批量爬取保存 提示 以下是本篇文章正文内容 下面案例可供参考 一 获取详情页url 我们进入站长之家的免费模板网站 http