python3 [爬虫入门实战]爬虫之scrapy爬取中国医学人才网

2023-10-26

自己第一次试着用scrapy进行爬取网页，总共爬下9240条数据，也就两分钟不到，400多页吧。用的比较简单，但是爬取成功后感觉成就感满满的。

来张爬取结果图
这里写图片描述

爬取字段：
“hospitalName”: “hospitalDesc”: “hospitalSize”:”hospitalAddress”:

1爬取字段

这里爬取的内容上面都有标注，只不过，爬取下来没有保存链接（稍微有点小遗憾，白天干兼职很累的，上家公司现在还没发工资。。）

（1）先上爬取的信息内容：

# -*- coding: utf-8 -*-

# Define here the models for your scraped items
#
# See documentation in:
# http://doc.scrapy.org/en/latest/topics/items.html

import scrapy


class ChinadoctornetItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()

    # 爬取中国医学人才网的条目(共5个条目)
    # 医院名称
    hospitalName = scrapy.Field()
    # 医院规模
    hospitalSize = scrapy.Field()
    # 医院所在地
    hospitalAddress = scrapy.Field()
    # 医院科目
    hospitalDesc = scrapy.Field()
    # pass

（2）接着是spider里面的内容

这里用的是scrapy里面的xpath路径，具体xpath自己可以用一个chrom helper来进行测试，

我提取的是整个医院的item，//div[@class='newsjob']/ul/li

然后下面是提取item里面的内容，在当前路径下用 .

自己试着调试着就能搞出来的

直接贴代码：

# encoding=utf8
import scrapy
from chinadoctornet.items import ChinadoctornetItem


class ChinaDocNet(scrapy.Spider):
    # 启动爬虫的名称
    name = 'docNet'
    # 爬取域名的范围
    allowed_domains = ['yixuezp.com']
    # 爬虫第一个url地址
    start_urls = ['http://www.yixuezp.com/zhaopin?page={}'.format(n) for n in range(0, 464)]  # 463

    def parse(self, response):
        # 医院name
        node_list = response.xpath("//div[@class='newsjob']/ul/li")
        items = []
        for node in node_list:
            item = ChinadoctornetItem()
            hospitalName = node.xpath("./a/text()").extract()
            hospitalSize = node.xpath("./span[1]/text()").extract()
            hospitalAddress = node.xpath("./span[2]/text()").extract()
            hospitalDesc = node.xpath("./p/a/text()").extract()

            item['hospitalName'] = hospitalName
            item['hospitalSize'] = hospitalSize
            item['hospitalAddress'] = hospitalAddress
            item['hospitalDesc'] = hospitalDesc
            items.append(item)
            # return items # 如果直接return的话，一页数据只会返回一条数据
            yield item #用yield 的话，可以交给下载器，继续执行下一步操作。

（3）以json格式进行下载数据

代码：

# -*- coding: utf-8 -*-

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: http://doc.scrapy.org/en/latest/topics/item-pipeline.html
import json

class ChinadoctornetPipeline(object):
    def process_item(self, item, spider):
        return item


class JsonWriterPipeline(object):
    def __init__(self):
        self.file = open('中国医学人才网招聘最新招聘专栏2.json', 'w', encoding='utf-8')

    def process_item(self, item, spider):
        line = json.dumps(dict(item), ensure_ascii=False) + "\n"
        self.file.write(line)
        return item

    def spider_closed(self, spider):
        self.file.close()

最后就是这样子了，下载器这一块代码是直接复制上一份的，不过，代码都一样，多记想想为什么，就通了。

settings里面的代码没有动，只是吧ROBOTSTXT_OBEY设置为False了。

下次再进行几个网站的爬取，早点找工作啊，还要找些典型的网站进行练手。

这个是为：我是呆子爬取的数据

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python3爬虫

我的python3爬虫之路

爬虫

中国

python

python3 [爬虫入门实战]爬虫之scrapy爬取中国医学人才网的相关文章

python中unicode字符串到ascii字符串的近似转换

不知道这是否微不足道但我需要将 unicode 字符串转换为 ascii 字符串并且我不希望周围有所有这些转义字符我的意思是是否有可能近似转换为一些非常相似的 ascii 字符例如 Gavin O Connor 转换为 Gav
在Python中解析空选项

我有一个应用程序允许您将事件数据发送到自定义脚本您只需布置命令行参数并指定什么事件数据与什么参数相匹配问题是这里没有真正的灵活性您制定的每个选项都将被使用但并非每个选项都必须有数据因此当应用程序构建要发送到脚本的字符串时某些
Django 管理中的嵌套内联？

好吧我有一个相当简单的设计 class Update models Model pub date models DateField title models CharField max length 512 class Post mode
Python：我可以修改元组吗？

我有一个 2 D 元组实际上我以为它是一个列表但错误说它是一个元组但无论如何该元组的形式为浮点数 val prod id 现在我有一个字典其中包含 key gt prod id 和 value prod name 现在我想将
python列表理解和extend() [重复]

这个问题在这里已经有答案了深入学习 Python 2 7 1 但未能理解这一点几个小时 gt gt gt a 1 2 gt gt gt b 3 4 gt gt gt gt gt gt a extend b 0 gt gt gt a 1
为什么 Dash 在上传文件时会出现解析错误？

上传 Excel 或 CSV 会导致错误我遵循了 Dash 演示但是当我尝试扩展它来执行绘图之类的操作时它就不起作用了我不想只显示一张桌子 Dash Table 函数已更新因此之前使用 Dash Table Experiments
python 正则表达式中括号的奇怪行为

我正在编写一个 python 正则表达式它可以在文本文档中查找引用的字符串从黑匣子中记录的航空公司飞行员的引用我首先尝试编写具有以下规则的正则表达式返回引号之间的内容如果以 single 打开则仅在以 single 关闭时返回
使用Python mysql.connector远程连接MySQL

以下代码在同一 LAN 内与 mysql 服务器不同的机器上运行使用 Python3 和 mysql connector 本地连接到 MySQL 数据库 import mysql connector cnx mysql connecto
模拟导入失败

我该如何制作import pkg失败moduleA py 我可以打补丁pkg如果从中导入某些内容则会失败否则不会失败 test py import os import moduleA from unittest mock import p
使用 pymongo 查询空字段

我想使用 python 查询 mongo 中的空字段但是它很难处理单词 null 或 false 它要么给我错误它们在 python 中未定义要么在 mongo 中搜索字符串 null 和 false 这两种情况我都不希望发生 col
有没有更快的方法将数字转换为名称？

以下代码定义了映射到数字的名称序列它的设计目的是获取一个号码并检索一个特定的名称该类通过确保名称存在于其缓存中来进行操作然后通过索引到其缓存中来返回名称问题在这如何在不存储缓存的情况下根据数字计算出名称该名称可以被认为是一个以
SyntaxError：多个异常类型必须用括号括起来

我是初学者在使用 python 安装 pycaw 进行音频控制后遇到问题在放置 pycaw 的基本初始化代码时出现以下错误 Traceback most recent call last File c Users volumeCont
如何在Python中设置像素的alpha值

我正在尝试编辑image https drive google com file d 0B8JcwRV HVk0OURrcTFJczhmV2RlUGdMOG0ybldYUVRoamtF view usp sharing以一种将所有白色像素转
嵌套 for 循环以列出具有不同“if”条件的理解

我正在尝试将此嵌套循环转换为列表理解但我不确定是否可能因为 tmp 列表中的项目可能有不同的值这是最好的方法吗谢谢 final for a in range 13 1 for b in range 0 4 for c in rang
对二进制数的字符串表示进行按位运算 python 2.7

我想对二进制数的两个字符串表示执行按位或但我不知道如何将字符串转换为原始二进制 a 010110 b 100000 a b 应该产生 110110 然后我想计算 on 位的数量这应该返回 4 您可以使用内置的将字符串转换为二进制int
python字符串包含双引号字符

我的输入字符串由字符组成包括双引号和单引号和 B SS JU PQ AD DDSFD ABD E J 但是当我从文本文件打开上述输入并打印它时第三行中的双引号被打印为 xe2 x80 x9d 我的目标是进行简单的字符计数 B 2
Snakemake根据字典输入和输出

我正在尝试重命名 Snakemake 管道中的一些文件假设我有三个文件 FileA txt FileB txt FileC txt 我希望根据字典重新命名它们dict A 0 B 1 C 2 to get RenamedFile0 txt
保存 Jupyter Notebook，并显示 Plotly Express 小部件

我有一个 Jupyter 笔记本 python 我使用plotlyexpress 在笔记本中绘图以进行分析我想与非编码人员共享此笔记本并让交互式视觉效果仍然可用但它似乎不起作用我尝试以下此处提出的建议 https community
交响二阶颂歌

我有一个简单的二阶 ODE 的齐次解当我尝试使用 Sympy 求解初始值时它返回相同的解它应该替代 y 0 和 y 0 并产生一个没有常数的解但事实并非如此这是建立方程的代码它是一个弹簧平衡方程 k 弹簧常数 m 质量我在其他
Python list.extend() 是保序的吗？

我想知道扩展函数是否保留两个列表中的顺序 gt gt list 1 2 3 gt gt list extend 4 5 gt gt list 1 2 3 4 5 扩展总是这样工作吗 Yes list extend just extends给

随机推荐

Swagger的用法

Swagger的用法 1 yml配置文件中引入依赖
C++ 内存管理

C 内存管理关于析构函数 1 when the desconstructor will be called 具体地说如果出现以下几种情况程序就会执行析构函数如果在一个函数中定义了一个对象它是自动局部对象当这个函数被调用结束时对象
静态代码块

在Java类中使用static关键字修饰的代码块称为静态代码块当类被加载的时候静态代码块就会被执行由于类只会加载一次所以静态代码块只会执行一次在程序当中使用静态代码块对类的成员变量进行初始化 package qmfx2 pub
FastAPI 使用 WebSocket创建实时应用程序

超文本传输协议或 HTTP 是当今互联网上最常用的协议之一它允许客户端获取资源例如 HTML 页面和图像客户端通常是浏览器向服务器请求资源图像 CSS 文件等服务器响应请求的数据它是一个严格的单向协议服务器只会在客户端请
conda install 和 pip install 在ubuntu上的区别

conda install 和 pip install 在ubuntu上的区别 pip和conda 看了很多博主的解释已经说的很清楚了 pip pip installs packages 和conda都是包管理系统 pip最常用于安装在p
Merkle树

白皮书引入 Merkel树是一种数据结构图1 1 比特币白皮书插图生成一个Merkel树图1 2 来自维基百科插图分析自下而上我们有四个文件比特币系统的话就是交易这个数据结构可以用在各种方面 L1 L2 L3 L4 四个文件
QT学习-数据类型转换

文章目录前言一 num转QString 二数据输出格式三 QString拆分到QStringList 1 去除空格拆分 2 按固定长度拆分四 QStringList转QByteArray HEX 五 uint8 t与QByteAr
java关键字const_java 关键字详解

一关键字总览访问控制 private protected public 类方法和变量修饰符 abstract class extends final implements interface native new static str
用JAVA语言写一个计算员工月工资的程序

一任务需求某公司分为多个部门每个部门有一个经理和多个员工每个员工根据职称发基本工资员工的工资由基本工资日加班工资日缺勤工资等组成具体需求如下所示员工的基本信息包括部门职务职称以及工资记录等信息能记录员工的每一个职称
过压保护芯片，IC电路方案集合

随着快充适配器 QC3 0充电器 PD充电器的诞生改变了原先USB的5V充电增加了9V 12V的充电电压甚至PD充电器20V也是很常见了 9V 12V 20V高电压的应用产生虽然说9V 12V 20V的高压输出不会被误触发但是消
R-FCN+ResNet-50用自己的数据集训练模型(python版本)

说明本文假设你已经做好数据集格式和VOC2007一致并且Linux系统已经配置好caffe所需环境博客里教程很多下面是训练的一些修改 py R FCN源码下载地址 https github com Orpine py R FCN
react+antd+table实现表格数据，从头到尾循环、自动分页、滚动展示

ts写法分页是20 滚动过程中自动分页调接口返回数据 class Demo extends React Component
python调用resnet模型对人脸图片进行特征提取，提取全连接层特征向量

resnet feature extraction import os os chdir root caffe master examples import numpy as np import matplotlib pyplot as p
汇编语言----mul指令

mul指令把操作数与AX相乘最后存放在AX中例子 mov ax 4 mov bx 5 mul bx ax 20
动态设置src路径

img class sidebar logo data return logo require assets dt logo png 如上动态设置图片的路径需要使用require 不然只能写上固定路径如下 img src assets dt
排行榜｜当 DB-Engines 遇见墨天轮国产数据库排行

提到数据库排名此时脑海里浮现出的是什么是 DB Engines 还是墨天轮数据库排行两者间有什么区别下面来聊一下业内这两个知名数据库排名平台本篇文章约有 3000 字预计阅读时间 7 分钟如阅读时间有限请直接阅读文章末尾的对
软件测试/测试开发丨容器编排K8S 下部署分布式UI自动化解决方案

本文作者为霍格沃兹测试开发学社特约讲师乔巴 K8S目前是业界容器编排领域的事实标准是几乎所有云原生架构的首选目前随着云原生架构越来越流行测试开发人员需要掌握K8S技术栈已经成为越来越迫切的需求 Kubernetes 开源于 2014
敏捷开发-如何理解spring x

2021年不断思考一年从领导风格转变让自己有点不适应但是一直让自己谦卑心去学习每个人身上特长东西接触过很多管理者但是身上特点不足够明显的领导我觉得不适合这个岗位所以更多的调整心态去适应找到每一个天每个月每一年战略目标自己
vc的编译过程

对VC 工程编译过程的梳理 VC 的项目和解决方案文件解读无非就是利用这些信息进行一个软件的编译这些文件里面是存放的项目的配置和工程的组织类似于makefile文件但是只有VC 6 0的时候可以导出makefile文件 VC6的pr
python3 [爬虫入门实战]爬虫之scrapy爬取中国医学人才网

自己第一次试着用scrapy进行爬取网页总共爬下9240条数据也就两分钟不到 400多页吧用的比较简单但是爬取成功后感觉成就感满满的来张爬取结果图爬取字段 hospitalName hospitalDesc hospitalSi

python3 [爬虫入门实战]爬虫之scrapy爬取中国医学人才网

这里爬取的内容上面都有标注，只不过，爬取下来没有保存链接（稍微有点小遗憾，白天干兼职很累的，上家公司现在还没发工资。。）

这个是为：我是呆子爬取的数据

python3 [爬虫入门实战]爬虫之scrapy爬取中国医学人才网 的相关文章

随机推荐

热门标签

python3 [爬虫入门实战]爬虫之scrapy爬取中国医学人才网的相关文章