爬虫实例十四多线程爬取一万张表情包

2023-11-19

import requests
import threading
import os
from bs4 import BeautifulSoup
from queue import Queue
from threading import Thread
"""表情包爬虫"""

#创建一个多线程类
class DownLoad_Images(Thread):
    #重写构造函数
    def __init__(self,queue,path):
        Thread.__init__(self)
        #类属性
        self.queue=queue
        self.path=path

        if not os.path.exists(path):
            os.mkdir(path)

    #重写run方法
    def run(self):
        while True:
            url = self.queue.get()
            try:
                download_images(url,self.path)
            except:
                print('下载失败')
            finally:
                self.queue.task_done()

def download_images(url,path):
    headers={
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.114 Safari/537.36"
    }
    #数据请求
    response=requests.get(url=url,headers=headers).text
    #数据筛选
    soup=BeautifulSoup(response,'lxml')
    #find查找指定标签数据
    img_list=soup.find_all('img',class_='ui image lazy')
    #二次提取
    for img in img_list:
        image_name=img['title']
        image_url = img['data-original']
        #下载
        try:
            with open(path+image_name+os.path.splitext(image_url)[-1],'wb') as f:
                image=requests.get(image_url,headers=headers).content
                print("正在保存图片：",image_name)
                f.write(image)
                print('保存成功:',image_name)
        except:
            pass
if __name__ == "__main__":
    _url='https://www.fabiaoqing.com/biaoqing/lists/page/{page}.html'
    urls=[_url.format(page=page) for page in range(1,201)]
    queue=Queue()
    path = './threading_images/'

    for x in range(10):
        worker = DownLoad_Images(queue,path)
        #守护线程
        worker.daemon=True
        worker.start()
    for url in urls:
        queue.put(url)

    queue.join()
    print("下载完成")

网站比较简单，就没必要分析了，也可直接使用requests直接请求，先拿到一个页面，在拿到详情页，拿到所有的url，保存二进制数据就行了，这个爬虫的主要有点是使用多线程加快爬取效率。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Requests

python

爬虫实例十四多线程爬取一万张表情包的相关文章

由于“环境错误：[错误 13]：权限被拒绝：'usr/local/bin/f2py'”而无法安装软件包

我正在尝试在 macOS X 上安装 numpy 但执行命令后pip install numpy我收到错误环境错误错误13 权限被拒绝 usr local bin f2py 我如何解决它这对我有用 pip3 install user
Django 是否使用一个线程来处理 WSGI 或 Gunicorn 中的多个请求？

根据标题我想知道 Django 在通过 WSGI 或 Gunicorn 运行时是否使用一个线程来处理多个请求我知道从不应该访问的地方访问请求是一种不好的做法但我仍然想这样做我认为有充分的理由例如在我的自定义模板加载器中访问当前用户
如何将一组重叠范围划分为不重叠范围？

假设您有一组范围 0 100 一 0 75 b 95 150 c 120 130 d 显然这些范围在某些点上重叠您将如何剖析这些范围以生成不重叠范围的列表同时保留与其原始范围相关的信息在本例中为范围后面的字母例如运行算法后的上述
无法在 python 中导入名称 GoogleMaps

我使用下面的代码来获取地址的纬度和经度 from googlemaps import GoogleMaps gmaps GoogleMaps api key address Constitution Ave NW 10th St NW Wa
如何阻止 Django 中发生级联删除？

我的 Django 应用程序中有三个模型类 class Folder models Model folder models ForeignKey Folder null True blank True related name folder
Spark问题中读取大文件 - python

我已经使用 python 在本地安装了 Spark 并在运行以下代码时 data sc textFile C Users xxxx Desktop train csv data first 我收到以下错误 Py4JJavaError Tra
有没有办法清理 jinja2 生成的 html？

我们使用 jinja2 来创建 html 但是由于我们在 jinja 中执行许多循环和其他操作来生成 html 所以 html 看起来很丑注意这只是为了美观我们可以做些什么来清理 html 吗除了清理我们的 jinja2 代码之
在 pandas 数据框中按列应用 Seaborn 热图

我试图在枢轴熊猫数据帧上使用seaborn的热图就像在超链接中一样有效 df pd DataFrame np random randint 1 100 size 3 2 df columns A B df sns heatmap df a
Scrapy 仅抓取每个页面的第一个结果

我目前正在尝试运行以下代码但它只保留每个页面的第一个结果知道可能是什么问题吗 from scrapy contrib spiders import CrawlSpider Rule from scrapy contrib linkext
带有 UnboundLocalError 的本地和全局引用

我不太明白为什么代码 def f print s s foo f 运行得很好但是 def f print s s bar s foo f 给我 UnboundLocalError 我知道我可以通过声明来解决这个问题s作为函数内的全局变量或简
如何在海龟图形中将多个按键绑定在一起？

我正在尝试制作一个连接点的 python 游戏我希望游戏记录 2 次按钮按下操作示例如果用户按向上和向右箭头键乌龟将向东北方向移动 45 度这是我的代码 import turtle flynn turtle Turtle win
如何从分组数据创建直方图

我正在尝试根据 pandas 中的分组数据创建直方图到目前为止我已经能够创建标准线图但我不知道如何做同样的事情来获取直方图条形图我想获得泰坦尼克号事故中幸存者和未幸存者的 2 个年龄直方图看看年龄分布是否存在差异来源数据 ht
构建一个简单的解析器，能够使用 PyParse 解析不同的日期格式

我正在构建一个简单的解析器它接受如下查询显示 fizi 从 2010 年 1 月 1 日到 2006 年 2 月 11 日的提交到目前为止我有 class QueryParser object def parser self stmn
用于 OAuth 身份验证的 WSGI 中间件

我使用构建了一个非常小的网络应用程序Flask http flask pocoo org 现在我想向网站添加非常基本的身份验证我不需要授权由于 Flask 不支持开箱即用的 auth auth 我想插入 WSGI 中间件来完成这项工作
Pandas：将 DataFrame 列值转换为新的 Dataframe 索引和列

我有一个如下所示的数据框 a b c 0 1 10 1 2 10 2 2 20 3 3 30 4 1 40 4 3 10 上面的数据帧作为默认索引 0 1 2 3 4 我想将其转换为如下所示的数据框 1 2 3 0 10 0 0 1 0 1
Tornado：DummyFuture 不支持结果阻塞

我试图获得一个非常简单的初始服务器它可以异步获取 url 来工作但它会抛出 Exception DummyFuture does not support blocking for results 有这个SO https stacko
无法编辑，但可以在 Django 管理中添加新的内联

这是我的模型 class Note note models TextField null False blank False editable True user models ForeignKey to User null True bl
加载 IPython 笔记本时出错

一旦我用 Jupyter 打开笔记本文件它要求我转换文件我就再也无法在标准 IPython 笔记本中打开它了我收到以下错误 Error loading notebook Bad Request 2014 12 21 04 13 03
ValueError：对于optimize.curve_fit中所需的数组来说对象太深

我正在尝试拟合化学系统中四个变量 A B C D 的人口增长和衰退的动力学模型我正在尝试求解以下一组方程我已将其以矩阵形式附加方程的矩阵形式 https i stack imgur com ysEdZ png 其中 t 是时间步长 k
使 flake8 区分未定义函数和星型导入

我有一个相当大的项目我试图在发布之前清理它但是当我运行 flake8 时我得到了大量的 F405

随机推荐

flask + 操作Mysql数据库

安装flask sqlalchemy pymysql模块 1 pip install flask sqlalchemy pymysql Flask SQLAlchemy的介绍 1 ORM Object Relationship Mappin
JS字符串替换函数全部替换方法

color olive JS字符串替换函数 Replace 字符串1 字符串2 1 我们都知道JS中字符串替换函数是Replace 字符串1 字符串2 但是这个函数只能将第一次出现的字符串1替换掉那么我们如何才能一次性全部替换掉了将上面
程序员水平分级

导读近日 whattofix com刊登了一篇 DanielMarkham的文章 What Level Programmer Are You 文内将参差不齐的程序员按照技术水平分为从只读到上帝共十一个阶段以帮助广大程序员找到自身
结队练习源代码

两个人结队练习源代码我和同伴都不太适应两人的习惯不同在很多方面出现了分歧但结对编程还挺有意思的感觉挺新鲜的之前都没有这样过我们轮流编程和监督两人都参与到整个编程中我编程时她会指引编程的方向提醒我出现的错误像参数名
MIPI DSI的linux kernel驱动原理

为了点亮一块MIPI屏幕我们除了要了解MIPI DSI的工作原理之外大前提是要了解整个MIPI DSI图显系统的组成更需要清楚点亮一块MIPI屏幕需要做哪些事情本文会捋顺各个环节所实现的功能以及基于RK3399来分析各个环节实现的原
stata面板数据gmm回归_STATA面板数据模型命令

一面板数据简介面板数据是非常常见的数据类型尤其是在经济金融的研究中面板数据时间序列数据的相关模型得到了极大地发展和广泛的应用面板数据简言之是时间序列和截面数据的混合严格地讲是指对一组个体如居民国家公司等连续观察多
JavaScript中json对象和string对象之间相互转化

json对象复制代码代码如下 var json aa true bb true var json1 aa b bb cc true dd true 1 js操作json对象复制代码代码如下 for var item in json
img服务器上的图片不显示不出来,img标签使用绝对路径无法显示图片

说明图片的磁盘路径斜杠使用右斜杠而图片的网络路径使用左斜杠注意加以区分如果一张图片属于服务器图片或者网络图片我们必须在img标签里使用网络路径只有网络路径才可以通过浏览器发送请求下载该图片到用户的浏览器临时路径中才可以显示在
C++11-右值引用与移动语义

右值引用与移动语义一右值引用概念右值引用简单例子左值引用与右值引用的比较二右值引用的使用场景函数对于其内部局部对象的传值返回 insert push等接口左值引用与右值引用总结三完美转发四新的类功能默认成员函数 d
【云原生 • Prometheus】Prometheus 注册中心Eureka服务发现原理

云原生 Prometheus Prometheus 注册中心Eureka服务发现原理云原生 Prometheus Prometheus 注册中心Eureka服务发现原理概述 Eureka协议实现总结云原生 Prometheus Pr
Matlab line函数

matlab line函数 1 比较常见的几种形式 line X Y line X Y Z line X Y Z PropertyName PropertyValue line PropertyName PropertyValue low
cocos命令生成apk

1 配置好cocos命令中需要的andrid 环境命令这些太普遍就不啰嗦 2 adt或许没有 zipalign exe 在生成 release版中需要这个文件来生成apk 路径D adt sdk tools 没有就下载一个 3 值得注意的
深入了解NumPy 高级索引

更多编程教程请到菜鸟教程 https www piaodoo com 友情链接好看站 http www nrso net NumPy 比一般的 Python 序列提供更多的索引方式除了之前看到的用整数和切片的索引外数组可以由整数数组
分享 20 道关于 React 开发相关的面试题及答案

React 面试可能你会觉得有点吓人为了帮助您自信并准备好迎接下一次面试我们列出了 20 个常见的 React 问题和参考答案希望通过本篇文章的内容能够帮助你重新温习你的 React 知识复习重要概念并为你的下一次面试做好更充分
微信小程序并发的个人见解

var http get url obj undefined gt var promise new Promise resolve reject gt wx request url baseUrl url method GET header
CSS 选择器

h1 class center 标题居中 h1 p class center color 段落居中颜色为红色 p 如果我们要在 html 元素中设置 css 样式那么就需要需要在元素中设置选择器即决定当前元素使用哪种样式一般来说常
django实训总结

不知不觉中一个学期又要结束了上学期结束时的日子仿佛历历在目没想到又迎来了一个学期的结束这个学期依旧学习了python 让我继续加深了对python这门课的认识实训让我觉得十分有意思像打开了新的知识大门 Django结合了许多以前
大学生竞赛项目

编程蓝桥杯报名时间 10月报名网址 https dasai lanqiao cn 中国软件杯大学生软件设计大赛报名时间 5月报名网址 http www cnsoftbei com 中国高校计算机大赛报名时间 11月报名网址 h
钉钉开发之使用HTTP请求获取你的公网出口IP

访问别人提供的网络服务时对方出于安全性方面的考虑可能会对请求的IP进行白名单限制这时候需要提供机器的出口IP 比如目前微信公众号对于访问其接口需要先绑定开发者的服务器IP 这个IP实际上就是开发者服务器的出口IP 但是获取当前机器的公
爬虫实例十四多线程爬取一万张表情包

import requests import threading import os from bs4 import BeautifulSoup from queue import Queue from threading import T

爬虫实例十四 多线程爬取一万张表情包

爬虫实例十四 多线程爬取一万张表情包 的相关文章

随机推荐

热门标签

爬虫实例十四多线程爬取一万张表情包

爬虫实例十四多线程爬取一万张表情包的相关文章