【python爬虫】爬虫程序模板(面向对象)

2023-11-16

爬虫代码模板

# 程序结构
class xxxSpider(object):
    def __init__(self):
        # 定义常用变量,比如url或计数变量等
       
    def get_html(self):
        # 获取响应内容函数,使用随机User-Agent
   
    def parse_html(self):
        # 使用正则表达式来解析页面，提取数据
   
    def write_html(self):
        # 将提取的数据按要求保存，csv、MySQL数据库等
       
    def run(self):
        # 主函数，用来控制整体逻辑
        #每爬取一个页面随机休眠1-2秒钟的时间
        time.sleep(random.randint(1,2))
       
if __name__ == '__main__':
    # 程序开始运行时间
    spider = xxxSpider()
    spider.run()

实战：爬取贴吧搜索贴的指定面

from urllib import request,parse
import time 
import random
from ua_info import us_list

#目标：只抓取贴吧的指定页

# 定义爬虫类
class MySpider(object):

    #初始化url属性
    def __init__(self):
        self.url = 'http://tieba.baidu.com/f?{}'

    #请求函数
    def get_html(self,url):
        req = request.Request(url=url,headers={'User-Agent':random.choice(us_list)})
        res = request.urlopen(req)
        #windows会存在乱码问题，需要使用 gbk解码，并使用ignore忽略不能处理的字节
        #linux不会存在上述问题，可以直接使用decode('utf-8')解码
        html = res.read().decode('gbk','ignore')
        return html
    
    #解析函数：解析 HTML 页面
    #模块有正则解析模块、bs4 解析模块
    def parse_html(self):
        pass


    #保存函数
    def save_html(self,filename,html):
        with open(filename, 'w') as f:
            f.write(html)

    #入口函数
    def run(self):
        name = input('请输入贴名：')
        begin = int(input('请输入开始页：'))
        stop = int(input('请输入开始页：'))

        for page in range(begin, stop + 1):
            pn = (page-1)*50
            params = {
                'kw':name,
                'pn':str(pn)
            }

            params = parse.urlencode(params)
            url = self.url.format(params)

            #发请求
            html = self.get_html(url)

            #保存文件
            filename = '{}-{}.html'.format(name,page)
            self.save_html(filename,html)

            #提示
            print('第%d页抓取成功'%page)

            #每爬取一个页面随机休眠1-2s
            time.sleep(random.randint(1,2))

if __name__ == '__main__':
    start = time.time()
    spider = MySpider() #实例化一个对象
    spider.run()
    end = time.time()
    
    #程序执行时间
    print('执行时间：%.2f' % (end - start))

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

爬虫

开发语言

【python爬虫】爬虫程序模板(面向对象) 的相关文章

将 yerr/xerr 绘制为阴影区域而不是误差线

在 matplotlib 中如何将误差绘制为阴影区域而不是误差条例如而不是忽略示例图中各点之间的平滑插值这需要进行一些手动插值或者只是获得更高分辨率的数据您可以使用pyplot fill between https matpl
如何删除 PyCharm 中的项目？

如果我关闭一个项目然后删除该项目文件夹则在 PyCharm 重新启动后会再次创建一个空的项目文件夹只需按顺序执行以下步骤即可他们假设您当前在 PyCharm 窗口中打开了该项目单击文件 gt 关闭项目关闭项目在 PyCha
从字典的元素创建 Pandas 数据框

我正在尝试从字典创建一个 pandas 数据框字典设置为 nvalues y1 1 2 3 4 y2 5 6 7 8 y3 a b c d 我希望数据框仅包含 y1 and y2 到目前为止我可以使用 df pd DataFrame fr
定义Python源代码编码的正确方法

PEP 263 http www python org dev peps pep 0263 定义如何声明Python源代码编码通常 Python 文件的前两行应以以下内容开头 usr bin python coding
如何使用 python 的 http.client 准确读取一个响应块？

Using http client在 Python 3 3 或任何其他内置 python HTTP 客户端库中如何一次读取一个分块 HTTP 响应一个 HTTP 块我正在扩展现有的测试装置使用 python 编写 http clie
Python re无限执行

我正在尝试执行这段代码 import re pattern r w w s re compiled re compile pattern results re compiled search COPRO HORIZON 2000 HOR p
将 C++ 指针作为参数传递给 Cython 函数

cdef extern from Foo h cdef cppclass Bar pass cdef class PyClass cdef Bar bar def cinit self Bar b bar b 这总是会给我类似的东西 Can
从 pyspark.sql 中的列表创建数据框

我完全陷入了有线的境地现在我有一个清单li li example data map lambda x get labeled prediction w x collect print li type li 输出就像 0 0 59 0 0
如何获取numpy.random.choice的索引？ - Python

是否可以修改 numpy random choice 函数以使其返回所选元素的索引基本上我想创建一个列表并随机选择元素而不进行替换 import numpy as np gt gt gt a 1 4 1 3 3 2 1 4 gt gt
是否有一个包可以维护所有带有符号的货币列表？

是否有一个 python 包提供所有或相当完整货币的列表与符号如美元的有优秀的pycountry 贪财的 https github com limist py moneyed and ccy http code google com
python celery -A 的无效值无法加载应用程序

我有一个以下项目目录 azima init py main py tasks py task py from main import app app task def add x y return x y app task def mul
更改QLineEdit的ClearButton图标

我想在Windows 10 1909 64位上的Python 3 8和PyQt5 5 15 0 上更改我的QLineEdit的ClearButton图标稍后我想在Linux上运行代码我尝试应用此处找到的代码如何在 QLineEdit
如何在 Django Rest 框架中编写“删除”操作的测试

我正在为 Django Rest Framework API 编写测试我一直在测试删除我对创建的测试工作正常这是我的测试代码 import json from django urls import reverse from re
PIL.Image.open和tf.image.decode_jpeg返回值的区别

我使用 PIL Image open 和 tf image decode jpeg 将图像文件解析为数组但发现PIL Image open 中的像素值与tf image decode jpeg不一样为什么会出现这种情况 Thanks 代
使用标签或 href 传递 Django 数据

我有一个包含链接的表当单击该链接进行更多操作时我想将一些数据传递给我的函数 my html table tbody for query in queries tr td value a href internal my func que
如何通过函数注释指示函数需要函数作为参数，或返回函数？

您可以使用函数注释 http www python org dev peps pep 3107 在python 3中指示参数和返回值的类型如下所示 def myfunction name str age int gt str return
根据多个阈值将 SciPy 分层树状图切割成簇

我想将 SciPy 的树状图切割成多个具有多个阈值的簇我尝试过使用 fcluster 但它只能削减一个阈值例如这是我从另一个问题中摘取的一段代码 import pandas data pandas DataFrame total ru
Python 中的 Unix cat 函数 (cat * > merged.txt)？ [复制]

这个问题在这里已经有答案了一旦建立了目录有没有办法在Python中使用Unix中的cat函数或类似的函数我想将 files 1 3 合并到 merged txt 我通常会在 Unix 中找到该目录然后运行 cat gt merged
描述符“join”需要“unicode”对象，但收到“str”

代码改编自here http wiki geany org howtos convert camelcase from foo bar to Foo Bar def lower case underscore to camel case s
使用 paramiko 运行 Sudo 命令

我正在尝试执行sudo使用 python paramiko 在远程计算机上运行命令我尝试了这段代码 import paramiko ssh paramiko SSHClient ssh set missing host key polic

随机推荐

在解决程序问题中遇到的比较有用的模块

retry 用来判断程序是否异常 pbar tqdm a b c d for char in pbar time sleep 3 pbar set description Processing s char 安装 pip install r
内网安全之：Kerberos 域用户提权漏洞(MS14-068；CVE-2014-6324)

郑重声明本笔记编写目的只用于安全知识提升并与更多人共享安全知识切勿使用笔记中的技术进行违法活动利用笔记中的技术造成的后果与作者本人无关倡导维护网络安全人人有责共同维护网络文明和谐 Kerberos 域用户提权漏洞 MS14 06
rate-based 拥塞控制吞吐测量

要点一个方法无法精确刻画链路画像就用多种方法组合刻画设计一个自定义平均当前 Linux kernel TCP 实现的 TCP delivery rate 测量机制 BBR 有使用到如下图简略后可展示为下图详见 net ipv
入行十年，卷王也卷不动了，想对新人说...

很多年前当我还是一名学生的时候有一次高我好几届已工作几年的师兄回校给我们做交流听说他已经是高级自动化测试工程师在深圳某企业月入上万那时候心里一阵崇拜觉得高级开发该是多么厉害的存在让我无数次憧憬着成为像他一样厉害且收入高的
css flex布局 —— 容器属性 flex

flex flow属性是flex direction属性和flex wrap属性的简写形式默认值为row nowrap box flex flow
Udacity Deep Learning课程作业（五）

作业五是根据Text8的语料库训练一个语言模型word2vec 得到语料库中每个词的嵌入式表达向量 Mikolov提出的word2vec包括skip gram和CBOW两种模型前者是根据给定词预测其周围的词后者是根据周围的词预测中间的
Invocation of init method failed； nested exception is java.lang.IllegalArgumentException: Property ‘

记一次踩坑 SpringBoot2 2 5 mybatis plus 启动出现异常 org springframework beans factory BeanCreationException Error creating bean wi
android接入支付宝自动续费,APP是如何实现自动续费的？

01目标在APP内实现会员自动续费的功能 02流程 2 1 会员自动续费授权会员自动续费本质是委托扣款模式只有用户完成签约商户才可以对用户账户进行自动扣款从而完成会员订单的支付操作用户在应用内通过微信或支付宝的SDK完成代扣签约
使用Qt编写模块化插件式应用程序

动态链接库技术使软件工程师们兽血沸腾它使得应用系统程序可以以二进制模块的形式灵活地组建起来比起源码级别的模块化二进制级别的模块划分使得各模块更加独立各模块可以分别编译和链接模块的升级不会引起其它模块和主程序的重新编译这点对于
19秋学期计算机网络基础在线作业,南开19秋学期(1709、1803、1809、1903、1909)《计算机网络基础》在线作业资料答案3...

19秋学期 1709 1803 1809 1903 1909 计算机网络基础在线作业 0003 试卷总分 100 得分 100 一单选题共 15 道试题共 30 分 1 物理层的主要任务描述为确定与传输媒体的接口的一些特性指明对于
Oracle 实现类似 drop table if exists 表存在删除的效果

Oracle没有drop table if exists 使用存储过程实现定义存储过程 create or replace procedure proc droptable p table in varchar2 is v count n
机器学习实战（集成学习与随机森林）

集成学习与随机森林更新权重 Adaboost AdaBoostClassifier base estimator None n estimators 50 learning rate 1 0 algorithm SAMME R rando
JavaScript去除数组对象中多余字段，提取对象数组中某些的属性组成新的对象数组。

对象数组中每个对象包含很多属性批量操作只需要要用到一两个属性可以提取原数组中的属性组成一个新的对象数组 const data classtypecode 新人对象 NST suoxie classtypename null trains
一般函数指针和类的成员函数指针

一般函数指针和类的成员函数指针转载请注明原文网址 http www cnblogs com xianyunhe archive 2011 11 26 2264709 html 函数指针是通过指向函数的指针间接调用函数函数指针可以实现对参
如何利用Java完成在数组中插入数值并且排序（从大到小）

首先要对数据组进行扩容然后定义新的数据组将旧数据组的值重新赋值最后开始插入数值数组插入值前提数组本身有序插入要保证不会越界步骤 1 从后向前遍历 2 每个值要与插入的值进行比较不符合顺序的后移 3 符合顺序的要在后方插入
AD之PCB中元器件旋转45度后两元器件无法靠得很近

最近笔者因为在画一块圆形PCB板所以为了节省PCB空间有时需要将元器件倾斜放置在这时就产生了一个问题问题情况及解决办法记录如下问题描述首先是正常竖直放置时两元器件可以放置得很近这没有问题然后将两元器件同时选中并旋转45度
软件工程基础知识--需求分析

软件需求在进行需求获取之前首先要明确需要获取什么也就是需求包含哪些内容软件需求是指用户对目标软件系统在功能行为性能设计约束等方面的期望通常这些需求包括功能需求性能需求用户或人的因素环境需求界面需求文档需求数据需
Numpy 数组切片

一列表切片一维数组 1 1 切片原理列表切片是从原始列表中提取列表的一部分的过程在列表切片中我们将根据所需内容如从何处开始结束以及增量进行切片剪切列表 Python中符合序列的有序序列都支持切片 slice 例如列表字符
嵌入式成长手册——初级嵌入式开发工程师技术栈
【python爬虫】爬虫程序模板(面向对象)

爬虫代码模板程序结构 class xxxSpider object def init self 定义常用变量比如url或计数变量等 def get html self 获取响应内容函数使用随机User Agent def parse

【python爬虫】爬虫程序模板(面向对象)

爬虫代码模板

【python爬虫】爬虫程序模板(面向对象) 的相关文章

随机推荐

热门标签