Python爬虫框架Scrapy实例(爬取腾讯社招信息并保存为excel)

2023-11-06

前言：

在学习python爬虫的时候，曾经爬取过腾讯社招的网站，很久很久没有写爬虫，心血来潮打算爬一个练手，想起之前爬过腾讯社招网站，打开一看网页变了，行动，重新写一遍。这个网站相对简单，做了简单测试没有设置反爬，比较适合初学者拿来练手。

搜索页面：
腾讯社招主页面
点击列表中的某个职位后，会跳转到下面页面，我们需要爬取跳转后的页面的数据。
点开列表的详细页面，也就是我们要爬取的信息页面
爬取结果
我们最终将数据写入到excel中。

详细步骤
直接上代码：
开发工具用的PyCharm，自行添加相关依赖。
一、创建scrapy项目。
scrapy startproject Tencent
在Terminal中运行上面命令，scrapy会自动创建项目，目录结构如下(忽略红线内的两个文件，那是手动创建的)：
在这里插入图片描述
二、在spiders文件夹下创建careerDesc.py 的爬虫文件，代码如下:

# -*- coding: utf-8 -*-
import scrapy
import json
import collections
from ..items import TencentItem

class CareerdescSpider(scrapy.Spider,):
    #爬虫名称
    name = 'careerDesc'
    allowed_domains = ['careers.tencent.com']
    offset = 1
    #通过浏览器开发者工具定位出json文件的链接，以下链接是job list的链接，我们需要的到访问职位详情链接里面的postid，这里我们设置每次读取100 条信息
    url = 'https://careers.tencent.com/tencentcareer/api/post/Query?pageSize=100&pageIndex='
    #爬取postid 的url
    start_urls = [url + str(offset)]
    #设置此爬虫的管道文件，这个属于个人习惯， 如果scrapy中只有一个爬虫文件不需要设置， 如果有多个爬虫文件，需要设置一下。
    custom_settings = {'ITEM_PIPELINES': {'Tencent.pipelines.TencentPipeline': 300}}
    #爬取每一条职位详情的url
    url_careerDESC = 'https://careers.tencent.com/tencentcareer/api/post/ByPostId?postId='

    def parse(self, response):
        '''
        我们需要在此爬虫方法中获取到每一条职位特有的postid，并callback一下详情页的爬虫方法
        '''
        #通过json文件获取到所有职位的数量，方便进行页数判断
        countNum = json.loads(response.text)['Data']['Count']
        #通过json文件获取到postid
        postidjson = json.loads(response.text)['Data']['Posts']
        for each in postidjson:
            #循环获取到的postid 并且组合成url 取调用详情页的爬虫desc_parse
            yield scrapy.Request(self.url_careerDESC + str(each['PostId']), callback=self.desc_Parse)
            #页数判断
        if countNum % 100 == 0:
            page = countNum / 100
            if self.offset < page:
                self.offset += 1
        else:
            page = countNum / 100 + 1
            if self.offset < page:
                self.offset += 1
        yield scrapy.Request(self.url + str(self.offset), callback=self.parse)

    def desc_Parse(self, response):
        '''
        爬取详情页的信息并返回item。
        '''
        descjson = json.loads(response.text)['Data']
        #因为item是一个dict，dict是无序的，输出的时候也是无序的，但我们需要按照我们制定的顺序输出， 
        #所以将item转化成orderdict，这样会按照我们设定的顺序输出，但是orderdict占用的内存是普通dict的两倍，暂时没有想到更好的解决方法
        item = collections.OrderedDict(TencentItem())
        item['ARecruitPostName'] = descjson['RecruitPostName']
        item['BLocationName'] = descjson['LocationName']
        item['CategoryName'] = descjson['CategoryName']
        item['DResponsibility'] = descjson['Responsibility']
        item['ERequirement'] = descjson['Requirement']
        item['FLastUpdateTime'] = descjson['LastUpdateTime']
        item['GPostURL'] = descjson['PostURL']
        yield item

三、编写pipeline文件

import sys
reload(sys)
sys.setdefaultencoding('utf-8')
import xlrd
from xlutils.copy import copy


class TencentPipeline(object):
    def process_item(self, item, spider):
        workbook = xlrd.open_workbook('tencentposition.xls')
        sheets = workbook.sheet_names()
        worksheet = workbook.sheet_by_name(sheets[0])
        rows_count = worksheet.nrows
        new_workbook = copy(workbook)
        new_worksheet = new_workbook.get_sheet(0)
        cols = 0
        for v in item.values():
            new_worksheet.write(rows_count,cols,v)
            cols += 1
        new_workbook.save('tencentposition.xls')
        return item

四、编写setting文件

ITEM_PIPELINES = {
   'Tencent.pipelines.TencentPipeline': 300,
}

五、为了方便，我单独编写了一个文件创建Excel，方便修改。

#!/usr/bin/env python
# -*- coding: utf-8 -*-

#-------------------------------------------------------------------------------
# Name:         createExcel
#-------------------------------------------------------------------------------

import xlwt
import sys
reload(sys)
sys.setdefaultencoding('utf-8')

def CreateExcel():
    file = xlwt.Workbook(encoding='utf-8')
    table = file.add_sheet('TencentPosition',cell_overwrite_ok=True)
    table_head = ['职位名称','工作地点','职位类型','岗位职责','工作要求','LastUpdate','PostURL']
    for i in range(len(table_head)):
        table.write(0,i,table_head[i])
    file.save('tencentposition.xls')
    print 'created successful'

if __name__ == '__main__':
    CreateExcel()

六、设置一个程序按照先创建Excel再执行爬虫的顺序执行。

#!/usr/bin/env python
# -*- coding: utf-8 -*-

#-------------------------------------------------------------------------------
# Name:         entrypoint
#-------------------------------------------------------------------------------

import os
import time

os.system('python createExcel.py')
time.sleep(5)
os.system('scrapy crawl careerDesc')

我们直接运行entryPoint.py 即可运行程序
至此，一个简单的scrapy爬虫就完成了。
才疏学浅，共同交流。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Python爬虫框架Scrapy实例(爬取腾讯社招信息并保存为excel) 的相关文章

从受密码保护的 Excel 文件到 pandas DataFrame

我可以使用以下命令打开受密码保护的 Excel 文件 import sys import win32com client xlApp win32com client Dispatch Excel Application print Exce
如果 FIND 函数在 vba 中找不到任何内容，那么[重复]

这个问题在这里已经有答案了我目前正在自动化执行以下步骤的手动流程 1 提示用户打开一个数据文件并打开文件 2 插入4列 3 使用文件中已有的数据创建格式为 DD MM YYYY TEXT 的唯一字符串其中文本是变量 4 使用 if 语句
通过 PHP 检测 excel .xlsx 文件 mimetype

我无法通过 PHP 检测 xlsx Excel 文件的 mimetype 因为它是 zip 存档文件实用程序 file file xlsx file xlsx Zip archive data at least v2 0 to extra
基于多个动态过滤条件过滤Excel范围

我想过滤数据集考虑几个可以根据可能值列表动态更改的过滤条件我有过滤条件team其具有以下值 Team A Team B ALL 其中 ALL 是代表所有团队的通配符对于第二个标准release 如果我想在过滤器中包含多个版本则值之间
Excel 在“.xls”中发现不可读的内容。同时导出水晶报表到excel

我正在将数据从 Crystal 报告导出到 PDF 工作正常并显示所有记录但是当我将其导出到 Excel 文件中并成功导出时以及当我在 Excel 中打开它时给出错误消息文件错误数据可能已丢失当我点击确定按钮时在 Exce
由于直接引用范围而不是通过中间变量而导致 Excel VBA 运行时错误 450

当我尝试直接引用某个范围内的值时出现运行时错误 450 但如果我使用中间变量它就会起作用我不明白为什么所以我担心在将来的某个时候我会再次遇到错误而不知道为什么我尝试过使用 With End With 块但当我直接引用范围时它仍然
将 Python Selenium 输出写入 Excel

我编写了一个脚本来从在线网站上抓取产品信息目标是将这些信息写入 Excel 文件由于我的Python知识有限我只知道如何在Powershell中使用Out file导出但结果是每个产品的信息都打印在不同的行上我希望每种产品都有一条
标准 VBA 函数“找不到项目或库”

因此我必须在我的 PC 上运行别人的 Excel 应用程序并且在标准函数如日期格式十六进制中间等上收到找不到项目或库的信息一些研究表明如果我在这些函数前加上 VBA 前缀如 VBA Date 中那样它会正常工作网
在 VBA 中按键对字典进行排序

我使用 VBA 创建了一个字典CreateObject Scripting Dictionary 将源单词映射到要在某些文本中替换的目标单词这实际上是为了混淆不幸的是当我按照下面的代码进行实际替换时它将按照源单词添加到字典中的顺序替
For...VBA 中的下一个循环超出限制

我正在使用一个For Next循环填充数组如下所示 ReDim array 1 to 100 1 to 100 For i 1 to 100 Next i But the i计数器似乎总是转到 101 而不是停止在 100 因此这会在我
如何在字符串vba中包含引号

我想存储以下文本 Test1 Monday Test Abcdef 全部在字符串中包含引号我知道要在字符串中包含引号我必须包含之前但在这里这不是一个很好的解决方案因为我在文本中有太多这样的解决方案知道如何一次完成这一切吗您有两
字典、集合和数组的比较

我正在尝试找出字典与集合和数组相比的相对优点和功能我发现了一篇很棒的文章here http www experts exchange com articles 3391 Using the Dictionary Class in VBA
复制一张工作表上的静态范围，然后根据单元格中的单个值粘贴到另一张工作表中的动态范围

我对这个问题分为三个部分我在 Sheet1 A1 中有一个带有周数的单元格我在 Sheet1 B1 F1 中有一个需要复制的静态范围然后我需要将该值粘贴到 Sheet2 中的动态范围中偏移量为行的周数这是我正在为我经常使用的工作
根据单元格值向用户窗体添加复选框

我对 VBA 很陌生只有 3 天但我发现它非常有用且易于使用但现在我面临一个问题我需要制作一个具有不同复选框的用户窗体但我需要根据工作表某一列中使用的信息自动添加它们我相信我可以使用 For Each Next 但我真的不知道如
在组合框中显示可见工作表

您好我有以下代码来在组合框中显示工作表创建工作表后工作表会自动添加到列表中我不希望隐藏的工作表在保管箱中可见我怎么做 Option Explicit Private Sub ComboBox1 Change If ComboBox
读取R中打开的Excel文件

有没有办法将打开的Excel文件读入R 当Excel中打开一个excel文件时 Excel会对文件加锁比如R中的read方法无法访问该文件你能绕过这个锁吗 Thanks 编辑这发生在带有原始 Excel 的 Windows 下发生错
numpy NPV 和 Excel NPV 有区别吗？

我的 Excel 中有一行包含 11 个值 TotalSavings 0 8000 8000 8000 8000 8000 8000 8000 8000 8000 8000 贴现率为 0 08 我在 Excel 中使用计算 NPVNPV
如果总和为 0，则查找并删除带标题的最后一列

我想创建一个宏查找带有标题的最后一列并仅当该列的总和等于零时才将其删除到目前为止这是我尝试过的 Dim LastCol As Long Dim i As Long With ThisWorkbook Sheets Sheet1 Fo
使用宏打开受信任文档或启用宏时 Excel 崩溃

正如标题所示我无法使用宏打开受信任的文档 Excel 立即崩溃制作文档的副本允许其打开因为该副本不受信任并且我可以检查 VB 编辑器中的宏但启用宏会导致另一次崩溃为什么会发生这种情况以及我可以采取什么措施来解决它我今天遇到了类
Excel 2013 数据透视表不会更改当前页面，除非手动导航到

我们有一小段 VBA 代码多年来一直完美运行本质上是 Me PivotTables APivot PivotFields AField CurrentPage Some text 这种方法一直有效直到 Excel 2013 该行将失败

随机推荐

爬虫实战

爬51job url里的内容项目的开发工具选择Requests模块和BeautifulSoup模块实现爬虫开发与数据清洗数据存储选择Sqlalchemy框架数据库选择MySQL 获取城市编号 1 观察搜索页的URL地址控制变量观察
docker数据管理---数据卷，数据卷容器

在Docker中数据卷 data volumes 和数据卷容器 data volume containers 是用于在容器之间共享和持久化数据的两种不同的机制一数据卷数据卷是一个特殊的目录或目录可以绕过容器文件系统的常规层直接在
输入一行字符，统计其中各种字符个数（C语言）

输入一行字符统计其中各种字符个数编译环境VS2017 其中输出英文字母数字空格以及其他字符的个数需要注意的是fgets 函数的使用会在字符串末尾 0前读入我们在键盘上敲的回车即换行符 n include
自制Web桌面日历

想要一个带农历的桌面日历 google了半天也没有找到中意的但是经常浏览网站的时候发现很多不错的日历直接保存到我的桌面上不就完了吗下面是具体操作将中意的日历页面查看源文件看是否可以看到script文件如果可以就保存到本地用
【雕爷学编程】Arduino动手做（202）---热释电效应、热释电元件与HC-SR505运动传感器模块

37款传感器与模块的提法在网络上广泛流传其实Arduino能够兼容的传感器模块肯定是不止37种的鉴于本人手头积累了一些传感器和执行器模块依照实践出真知一定要动手做的理念以学习和交流为目的这里准备逐一动手试试多做实验不管成功
vba中find方法查找1
QML ListView实现树形效果

转自 http blog huati365 com 5jELjzLwnx3YGw import QtQuick 2 11 import QtQuick Controls 2 2 import QtQuick Controls Materia
Android抓包工具——Fiddler

前言在平时和其他大佬交流时总会出现这么些话抓个包看看就知道哪出问题了抓流量啊 payload都在里面这数据流怎么这么奇怪这里出现的名词其实都是差不多的意思啊这都跟抓包这个词有关说到抓包呢我们今天就先来了解一下抓包的一些基础
MySQL组成

MySQL 的组成分为两部分服务器端服务的提供相当于卖家客户端服务的使相当于买家消费者服务器端只能有一个而客户端可以有多个安装了 MySQL 说明我们既是服务器端又是客户端服务器端的服务体现就是客户端是使 MySQL
微软亚洲研究院实习生面试

上周说到微软亚洲研究院 MSRA 一下就简称MSRA吧网络面试我这边因为连不上而要重新安排面试周五HR就给我电话约好今天中午1 00 3 00重新面试于是提前做好各种准备找了个拉ADSL的宿舍来上网然后用了人家带摄像头的笔记本还
B站创建视频分集播放列表

上传视频在B站上创建视频分集列表方法上传时创建分集列表 1 打开B站 2 登录B站后点击投稿上传视频 3 上传视频或把视频直接拖拽到页面里 4 点击上传第一个视频后页面下会出现一个号的按钮点击继续上传上传视频就会出现两个正在上传
浅谈 Node.js 热更新

大厂技术高级前端 Node进阶点击上方程序员成长指北关注公众号回复1 加入高级Node交流群记得在 15 16 年那会 Node js 刚起步的时候我在去前东家的入职面试也被问到了要如何实现 Node js 服务的热更新其实
Tuple VS ValueTuple（元组类 VS 值元组）

Tuple VS ValueTuple 元组类 VS 值元组文章目录 Tuple VS ValueTuple 元组类 VS 值元组 Tuple 1 创建元组 2 表示一组数据 3 从方法返回多个值 4 用于单参数方法的多值传递缺点 Va
基于php的课程网站络管理系统的设计与实现

摘要管理系统是根据课程网站的需求而设计和实现的主要用于实现课程系统办公人员对其办公系统内所有公务员进行管理实现对员工信息的查询录入修改和删除以及发布重要通知最新信息和规章制度通过网上办公无纸办公大大提高办公效率体
电脑关机了，内存就没数据了吗？

前言大家好我是周杰伦提到网络攻击技术你脑子里首先想到的是什么是DDoS 是SQL注入 XSS 还是栈溢出 RCE 远程代码执行这些最常见的网络攻击技术基本上都是与网络软件代码程序这些东西相关这也好理解计算机网络安全
Qt项目实战杂谈一二：中文乱码事情小，处理不好头发少

Qt开发者来说特别是初学者往往最头疼的是编码的问题举个例子 1 控件上设置中文标签发现显示出来是乱码怎么解决如果标签是常量字符串含中文怎么处理如果标签是变量且可能包含字符串又咋处理 2 Qt应用与其他应用存在进程间交互
浏览器无法打开网页，报错：DNS_PROBE_FINISHED_BAD_CONFIG

症状手机的正常上网电脑连不上网浏览器打不开网页电脑用ping命令不能发现主机这时判断DNS解析有问题用ping命令能发现主机这时判断DNS解析没有问题解决办法方案1 ipconfig flushdns 方案2 ping
openwrt 软件安装依赖冲突

今天在安装一个插件curl 安装失败了报错内容如下 root R619AC co router tmp tmp opkg install curl Installing curl 7 68 0 1 to root Downloading
使用react-markdown与markdown-navbar实现在线浏览markdown文件并自动生成侧边导航栏目录（react项目）

使用react markdown与markdown navbar实现在线浏览markdown文件并自动生成侧边导航栏目录 react项目在项目中需要一个需求需要将markdown文件放在react前端项目中实现浏览器在线浏览修改mar
Python爬虫框架Scrapy实例(爬取腾讯社招信息并保存为excel)

前言在学习python爬虫的时候曾经爬取过腾讯社招的网站很久很久没有写爬虫心血来潮打算爬一个练手想起之前爬过腾讯社招网站打开一看网页变了行动重新写一遍这个网站相对简单做了简单测试没有设置反爬比较适合初学者拿来练手搜索

Python爬虫框架Scrapy实例(爬取腾讯社招信息并保存为excel)

前言：

Python爬虫框架Scrapy实例(爬取腾讯社招信息并保存为excel) 的相关文章

随机推荐

热门标签