Python爬虫完整案例 - 爬取百度百科词条信息

2023-05-16

概述

一个完整的爬虫，一般由以下5个组件构成:

1.URL管理器

负责维护待爬取URL队列和已爬取URL队列，必须拥有去重功能。

2.HTML下载器

负责根据调度器从URL管理器中取出的url，下载html页面数据

3.HTML解析器

负责解析HTML下载器下载的网页数据，从中提取新的url和目标数据，并将其返回

4.数据存储器

负责将HTML下载器返回的的数据保存到本地或数据库中

5.调度器

爬虫的核心组件。根据业务流程，调用其它组件完成数据抓取。

一般情况下，爬虫的入口URL在这里提供。

源码

首先，项目结构如下，每个组件使用一个模块文件

1.URL管理器

# !/usr/bin/env python
# -*- coding:utf-8 -*-


class UrlManager(object):
    """URL管理器"""

    def __init__(self):
        # 待爬去url集合
        self.new_urls=set()
        # 已爬取url集合
        self.old_urls=set()

    def new_urls_size(self):
        """获取新的url数量"""
        return len(self.new_urls)

    def old_urls_size(self):
        """获取已爬取url数量"""
        return len(self.old_urls)

    def has_new_url(self):
        """判断是否有新的url"""
        return self.new_urls_size()

    def get_new_url(self):
        """从待爬取url集合中获取一个url"""
        # 从未爬取url集合中取出并移除一个url
        new_url=self.new_urls.pop()
        # 将取出的url添加到已爬取url集合中
        self.old_urls.add(new_url)
        return new_url

    def add_new_url(self,url):
        """添加一个新的url到待爬取url集合中"""
        if url:
            self.new_urls.add(url)

    def add_new_urls(self,urls):
        """添加多个个新的url到待爬取url集合中"""
        if urls:
            for url in urls:
                self.add_new_url(url)

2.HTM下载器

# !/usr/bin/env python
# -*- coding:utf-8 -*-


import requests

class HtmlDownloader(object):
    """HTML下载器"""
    def download(self,url):
        if not url:
            return None

        headers={
            "User-Agent":"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.108 Safari/537.36",
        }
        resp=requests.get(url,headers=headers,timeout=5)
        if resp.status_code==requests.codes.ok:
            resp.encoding='utf-8'
            return resp.text

3.HTML解析器

# !/usr/bin/env python
# -*- coding:utf-8 -*-

import urllib.parse
from lxml import etree

class HtmlParser(object):
    """HTML解析器"""
    def parse(self,url,html):
        html_et=etree.HTML(html)

        new_urls=self.__get_new_urls(url,html_et)
        new_data=self.__get_new_data(html_et)
        return new_urls,new_data

    def __get_new_urls(self,url,html_et):
        """提取当前词条页面下所有相关链接"""
        urls=[]
        link_list=html_et.xpath('//div[@class="main-content"]//a/@href')
        for link in link_list:
            if link.startswith('/item/'):
                urls.append(urllib.parse.urljoin(base=url,url=link))
        return urls

    def __get_new_data(self,html_et):
        """提取当前词条的摘要"""
        summary=[]
        text_list=html_et.xpath('//div[@class="lemma-summary"]//text()')
        for text in text_list:
            summary.append(text+'\n')
        return ''.join(summary)

4.数据存储器

# !/usr/bin/env python
# -*- coding:utf-8 -*-

import os
import codecs

class DataStore(object):
    """数据存储器"""
    def store(self,data):
        """将数据保存到本地文本文件中"""
        path='../../data'
        if not os.path.exists(path):
            os.makedirs(path)

        with codecs.open(filename=os.path.join(path,'python百科词条.txt'),mode='a',encoding='utf-8') as f:
            f.write(data+'\n')

5.调度器

# !/usr/bin/env python
# -*- coding:utf-8 -*-

"""
爬虫调度器
"""

import requests
import time

from urlmanager import UrlManager
from htmldownloader import HtmlDownloader
from htmlpaser import HtmlParser
from datastore import DataStore

class Scheduler(object):
    def __init__(self):
        """初始化各组件"""
        self.urlmanager=UrlManager()
        self.htmldownloader=HtmlDownloader()
        self.htmlparser=HtmlParser()
        self.datastore=DataStore()

    def crawl(self,start_url):
        try:
            # 添加起始url
            self.urlmanager.add_new_url(start_url)

            # 最多只爬取500个词条数据
            while self.urlmanager.old_urls_size()<500:
                time.sleep(0.5)

                # 从待爬取url集合中提取一条url
                url=self.urlmanager.get_new_url()

                if url:
                    # 使用HTML下载器下载网页
                    html=self.htmldownloader.download(url)

                    # 使用HTML解析器解析网页，提取url和摘要信息
                    new_urls,new_data=self.htmlparser.parse(url,html)

                    # 将新提取出的url添加到待爬取url集合中
                    self.urlmanager.add_new_urls(new_urls)

                    # 将提取出的摘要文本保存到本地文件中
                    self.datastore.store(new_data)

                    print('已爬取{}个词条'.format(self.urlmanager.old_urls_size()))
            else:
                print("爬取完成")

        except requests.RequestException as e:
            print('爬取失败',e)





if __name__ == '__main__':
    start_url='https://baike.baidu.com/item/Python/407313'
    scheduler=Scheduler()
    scheduler.crawl(start_url)

运行结果

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Python爬虫完整案例 - 爬取百度百科词条信息的相关文章

docker常见命令

文章目录 0 删除重建容器1 打包一个镜像并在另一个服务器上使用 0 删除重建容器如果觉得镜像被自己搞坏了 xff0c 重启没啥用 xff0c 就要考虑基于之前的镜像重新建立一个新的容器了 span class token comment
python代码获取远程电脑IP

实时的使用邮箱发送IP地址到指定邮箱使用python代码封装好的软件 xff1a 链接 xff1a https pan baidu com s 1Flz7HHtZM0w3HGDeF 4BhQ pwd 61 yxy2 提取码 xff1a y
Collections.singleton()；

span class token comment 删除list某个元素 span List span class token operator lt span Integer span class token operator gt spa
一个程序员所应该具备的精神

所谓障碍都是主观上的如果你想研发什么新的技术 xff0c 只需要在冰箱里放满食物和饮料 xff0c 再有一台便宜的计算机 xff0c 和以之献身的决心 xff0c 你即可拥有任何你想拥有的编程深度 xff01 John Carmack
Java把字符串中的数字删除的方法和判断字符串里面是否有汉字的方法

1 把数字删除 String testStr 61 34 大幅度要栽夺工地奇巧地厅革dfdsfdsafd32123313 34 System out println testStr replaceAll 34 0 9 34 34 34 2
氧化还原反应
MPI中可能会出现的错误

1 p1 xxxxx p4 error interrupt SIGSEGV 11 这个错误可能是因为某个进程中出现了段错误引起的自己编程中曾出现过的错误 1 只在一个进程中给指针申请空间而在其他进程没有申请所以在广播的时候出错 2 在
华为2288HV5使用U盘安装ESXI6.7.0

如题 1 准备U盘做ESXI启动盘2 华为服务器做RADI3 安装ESXI4 配置ESXI 1 准备U盘做ESXI启动盘准备至少4G的U盘 xff0c 需要格式化U盘有两种常见的制作U盘启动的工具 xff0c UltraISO和rufu
Github Page绑定至个人域名

前言此教程主要用于将个人域名映射至Github Page xff0c 同时实现Github Page在个人域名的发布本次所使用的个人域名是在阿里云上申请注册所得注意 xff1a 如果想要取消Github Page发布 xff0c 删除CN
gnome桌面无法显示的解决

前两天安装gtk 43 中间出错了 xff0c apt get install libgtk2 0 过程中突然出错说是sweap什么的错误 xff0c 重启后居然无法登录进入桌面 xff0c 提示libpixbufloader png so
如何使用Visual Studio2010运行C语言

1 首先打bai开Microsoft Visual Studio 2010如下图 xff1a 2 然后在bai已安装的模板下选Win32 右边选Win32控制台应用程序最后在下面输入项目名称 xff0c 然后点确定 xff0c 如下图 3
医学影像入门知识——3. 26邻域/8邻域和连通性（neighborhood and connectivity）

文章目录 1 邻域概念 1 1 6 18 26邻域空间 1 2 6 18 26 32 56 80 92 116 124 空间 1 3 4 8 平面上的邻域 1 4 python代码表示 2 连通性连通度 2 1 点连通度 2 2 边连通
Spring Security(六) —— CSRF

一 xff1a CSRF漏洞保护简介 CSRF xff08 Cross site request forgery xff09 跨站请求伪造 xff0c 也叫一键式攻击 xff08 one click attack xff09 xff0c 通
git中submodule子模块的添加、使用和删除

转载 xff1a https blog csdn net qq 29034779 article details 123212589 子模块的添加添加子模块非常简单 xff0c 命令如下 xff1a git submodule add l
centos7中报错ModuleNotFoundError: No module named ‘_ctypes‘解决方法

分析 python3中有个内置模块叫ctypes xff0c 它是python3的外部函数库模块 xff0c 提供了兼容C语言的数据类型 xff0c 并通过它调用Linux系统下的共享库 Shared library xff0c 此模块需要
Ubuntu 12.04 开机启动软件图形界面（无桌面环境）

在不加载桌面环境的前提下 xff0c 启动图形化软件 xff0c 总体分以下几步 xff1a 禁止桌面环境启动 gt tty1自动登录 gt 软件自动启动 gt 远程维护时保持进程唯一 1 禁止桌面环境启动路径 xff1a etc ini
16行，使用Python制作简易版QQ自动回复机器人（windows版）

目录 1 安装go cqhttp 2 使用go cqhttp 2 1 发送信息 2 1 1发送你好 2 1 2 在群里 64 人 2 2获取群成员列表 2 3 实现QQ机器人 1 安装go cqhttp 点此安装go cqhttp xff
免费的仿真软件LTSpice

LTSpice是一个免费的仿真软件 xff0c 重要的是它同时提供macOS和Windows版本下载地址其他教程 xff1a LTspice仿真命令 weixin 42617385的博客 CSDN博客 LTspice 一个会写代码的烤鸭
esp-aliyun undefined reference to `pthread_create‘错误

FreeRTOS 错误信息 Users esp8266 projects wendeng build esp aliyun libesp aliyun a span class token punctuation span wrapper
github cli 创建远程仓库并推送到github

以下操作基于macOS xff0c 其他系统安装请参阅官方文档cli cli GitHub s official command line tool 1 安装github cli brew span class token function

随机推荐

阿里云生活物联网删除测试设备

阿里云生活物联网平台 https living aliyun com 的测试设备 xff0c 在生活物联网平台页面是无法进行删除的 xff0c 生活物联网平台的设备列表只能显示量产设备如果要删除测试设备 xff0c 必须在物联网平台 ht
STM32CubeMX学习教程之四：定时器中断

完整源码下载 xff1a https github com simonliu009 STM32CubeMX TIM1 Interrupt 软件 xff1a STM32CubeMX V4 25 0 System Workbench V2 4
算法——贝塞尔(Bézier)曲线拟合

文章目录 1 基本概念 1 1 从熟悉的地方入手 1 2 贝塞尔曲线拟合原理转载 2 公式和物理意义 2 0 阶数和伯恩斯坦多项式等 2 0 1 阶数 2 0 2 伯恩斯坦多项式 2 0 3 杨辉三角和二项式系数 2 1 一阶次贝塞尔公
STM32CubeMX学习教程之五：PWM实现呼吸灯效果

完整源码下载 xff1a https github com simonliu009 STM32CubeMX PWM Output 软件 xff1a STM32CubeMX V4 25 0 System Workbench V2 4 固件库版
STM32CubeMX学习教程之十：硬件I2C读写AT24C02

完整源码下载 xff1a https github com simonliu009 STM32CubeMX hardware I2C AT24C02 网上有流传已久一种说法 xff0c 就是STM的I2C有bug xff0c 不好用确实很
Visual Studio Code 的 includePath 全局设置

这几天折腾使用Visual Studio Code 编写 ESP8266 non os 代码 xff0c 基本设置都没问题 xff0c 但是就是自动补全折腾很久没弄好在折腾了一圈插件之后 xff08 包括Auto Import C 43
使用.gitignore忽略文件或者文件夹及其失效解决方法

git如果需要忽略某个文件夹 xff0c 可以在初始化之后 xff0c 在仓库根目录下创建一个 gitignore文件 xff0c 添加需要忽略的文件和文件夹即可我们也不需要从头写 gitignore文件 xff0c GitHub已经为我
python源代码文件加密

由于python设计的初衷是开源的 xff0c 因此py文件是可以直接看到源码的但开发商业软件 xff0c 代码加密保护就比较重要了 python编译后程序 pyc文件是py文件经过编译后生成的二进制文件 xff0c 因此可以发布pyc文
gnu binutils

The GNU Binutils are a collection of binary tools The main ones are ld the GNU linker as the GNU assembler But they also
android wakelock

1 android休眠控制锁 powermanager acquir 获取控制锁 powermanager release 释放控制锁 2 在powerManagerService中 xff0c 有检测当前framework层中的wakel
产品经理常用术语

产品经理常用术语长尾理论网络时代兴起的一种新理论 xff0c 由于成本和效率的因素 xff0c 当商品储存流通展示的场地和渠道足够宽广 xff0c 商品生产成本急剧下降以至于个人都可以进行生产 xff0c 并且商品的销售成本急剧降低时
传统CD车机面板操作说明

转自http bbs hifidiy net thread 675597 1 1 html 一般CD车机带USB SD卡的面板操作说明 1 1 控制面板外观图 2 0 基本共同功能操作说明 2 1 开启和关闭电源静音开关按钮为开启
汽车总线系统通信协议

天合汽车零部件 xff08 上海 xff09 有限公司上海交通大学区域光纤通信网与新型光通信系统国家重点实验室 xff08 上网时间 xff1a 2006 11 xff09 摘要 xff1a 本文主要针对汽车电子控制系统和车载多媒体系统
算法——连续性后处理（把26邻域连续的变成6邻域连续的）

文章目录 1 概念 1 1 6邻域连续 1 2 18邻域连续 1 3 26邻域连续 1 4 总结 2 目标 3 严格一点的 3 1 原理描述 3 1 1 18邻域连续补充 3 1 2 26邻域连续补充 3 2 代码实现 C 4 宽松一点的
RedHat Linux下安装JDK1.7报错Permission denied

在RedHat Linux5 中安装JDK1 7时 xff0c 当我解压jdk xff0c 并且配置好了环境变量 xff0c 测试的时候 xff0c 报以下错误 root 64 jingfeng01 java version Error d
几种压缩算法的压缩和速度比较

Quick Benchmark Gzip vs Bzip2 vs LZMA vs XZ vs LZ4 vs LZO EDIT Add zstd Contents hide 1 Selected archives2 Test conditio
DDR低功耗模式

DDR规格 xff1a DDR工作状态图 xff1a DDR 刷新描述 xff1a 电特性 xff1a 工作模式简介 xff1a 1 1 自刷新模式 xff08 Self Refresh Mode xff09 DDR4 SDRAM中自刷新超
嵌入式Linux的低功耗策略

引言由于Linux系统具备嵌入式操作系统需要的很多特色 xff0c 如适应于多种CPU和多种硬件平台性能稳定可裁剪性很好源码开放研发和使用简单等现在 xff0c 基于Linux应用的嵌入式设备日益增多 xff0c Linux正
libevent实现的HTTP Server

在使用C语言编码时有时候需要实现一个HTTP接口我们可以选择使用libevent库来实现以下代码演示了使用libevent 并同时支持多线程处理HTTP的请求头文件引入的头文件 span class token macro pro
Python爬虫完整案例 - 爬取百度百科词条信息

概述一个完整的爬虫 xff0c 一般由以下5个组件构成 1 URL管理器负责维护待爬取URL队列和已爬取URL队列 xff0c 必须拥有去重功能 2 HTML下载器负责根据调度器从URL管理器中取出的url xff0c 下载html

Python爬虫完整案例 - 爬取百度百科词条信息

概述

源码

运行结果

Python爬虫完整案例 - 爬取百度百科词条信息 的相关文章

随机推荐

热门标签

Python爬虫完整案例 - 爬取百度百科词条信息的相关文章