python爬虫无法有效控制线程数问题的解决（实测有效）

2023-05-16

使用爬虫爬取某网站图片时，无法很好的控制线程数，线程总是超级多，虽然用网上的方法限制为10个线程，实际代码跑起来线程远多于10个，内存会被逐步消耗掉，如下图：
在这里插入图片描述
经过查找资料，原来的方法锁定信号的变量sem在线程内阻塞，等待前面的线程执行结束。就是说实际上有多少任务就会开多少线程，只是超过限制的部分线程在线程内阻塞。内存依然会被消耗殆尽。
为了控制最大线程数，达到最大线程时应在线程外阻塞，有线程结束后再创建新线程，改进如下：

import threading
import time

sem=threading.Semaphore(10) #限制线程的最大数量为10个

def savepic(page,thispath):
    if not os.path.exists(thispath+page.split('/')[-1]):    #判断文件是否存在     
        with open(thispath+page.split('/')[-1],'wb') as f:
            f.write(getresponse(page).content)
            print(thispath+page.split('/')[-1]+'保存成功')
    else:     
        print("文件"+thispath+page.split('/')[-1]+"已存在")
    time.sleep(1)
    sem.release()
    
if __name__ == "__main__": 
	pageurls=['*****','**','']       #某网站图片网址列表……
	thispath='d:\\mypic\\'
	for page in pageurls:
	    sem.acquire()
	    t=Thread(target=savepic,args=(page,thispath,))
	    t.start()

经过验证，完美实现目的。

在这里插入图片描述

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python爬虫无法有效控制线程数问题的解决（实测有效）的相关文章

【Kafka】Golang中使用Kafka基于发布订阅模式实现消息队列

文章目录前言一生产者二消费者三源码简单解读四参考前言在以前的定义中 xff0c Kafka被定义为一个分布式的基于发布订阅模式的消息队列 xff08 Message Queue xff09 xff0c 主要应用于大数据实时处
PHP基础学习第十四篇（了解和使用PHP的数据类型、常量、字符串变量、运算符）

一 PHP数据类型 PHP支持以下几种数据类型 xff1a String xff08 字符串 xff09 xff1a abc 这是一个字符串 Integer xff08 整数 xff09 xff1a 指没有小数部分的数据1 3 7等 Flo
PHP基础学习第十五篇（了解和使用PHP条件语句、if语句、if...else语句、switch语句）

一 PHP条件语句结果不同时 xff0c 为不同的判断执行不同的动作 xff1a if语句在条件成立时执行代码 xff1b if else语句在条件成立时执行一块代码 xff0c 条件不成立时执行另一块代码 xff1b if else
PHP基础学习第十六篇（了解数组、创建数组、数组排序、总结数组的使用）

一什么是数组数组是一个能在单个变量中存储多个值的特殊变量如果有一个项目清单 xff08 例如 xff1a 序号名单 xff09 xff0c 将其存储到单个变量中 xff0c 如下所示 xff1a a 61 1 b 61 2 c 61
PHP基础学习第十七篇（PHP循环、while循环、for循环、总结循环特点）

一 PHP循环循环执行代码块指定的次数 xff0c 或者当指定的条件为true时循环执行代码块在PHP中 xff0c 提供了下列循环语句 xff1a while 只要指定的条件成立 xff0c 则循环执行代码块 xff1b do whi
PHP基础学习第十八篇（了解和学习PHP函数、$_GET和$_POST变量）

一 PHP函数 PHP的真正威力源自于它的函数 xff1b 在PHP中 xff0c 提供了超过1000个内建的函数 xff1b 内建函数 xff1a PHP提供的自带的函数 PHP函数参考手册 xff1a https www runoob
PHP基础学习第十九篇（了解MySQL数据库、MySQL的连接和创建数据库、MySQL创建数据表）

一初始MySQL数据库数据库是什么 xff1a 数据库 xff08 Database xff09 是按照数据结构来组织储存和管理数据的仓库每个数据库都有一个或多个不同的API用于创建访问管理搜索和复制所保存的数据我们也可以将
PHP基础学习第二十篇（MySQL的插入数据、MySQL读取数据、where子句、Order By关键字、MySQL更新和删除数据）

一使用mysqli插入数据在创建完数据库和表后 xff0c 可以向表中添加数据 xff1b 语法 xff1a PHP中SQL查询语句必须使用引号 xff0c 在SQL查询语句中的字符串值必须加引号 xff1b 数值的值不需要引号 nul
树莓派安装系统、配置远程桌面教程

第一步 xff1a 下载树莓派镜像烧录工具 1 打开树莓派官网Raspberry Pi 2 选择Software 3 翻页至下载页 4 下载安装包第二步 xff1a 安装树莓派镜像烧录工具 1 双击下载的安装文件imager 1 7 3
Ubuntu20.04换源

包含两个要点下面的定义不一定规范仅代表我个人一家之言吧一系统软件源打开左下角的九宫格按钮 gt 软件和更新 software amp Updates gt 下载自 download from gt 其他 other gt 中国 C
Qt+go环境搭建——Qt+go

转自 xff1a https blog csdn net lanbery article details 81745611 如果你是一个墨守成规的coding xff0c 请移步其他内容 xff0c 这部分内容可能不适合你如果你希望到外面
【Linux】虚拟机安装Ubuntu后的一些通用设置

文章目录前言一虚拟机缩放设置二实现本机和虚拟机之间复制粘贴共享三 ubuntu中vi文件时方向键等问题四虚拟机扩容五时区和时间格式设置六防火墙相关七中文输入法问题八虚拟机和主机之间的互通前言主要是记录虚拟机中安装ubun
python获取windows的cup使用率内存使用率和指定进程使用率内存使用率并保存到txt文件中

coding 61 utf 8 import time import psutil import os def useagent pid try while True time sleep 1 cpu lv 61 psutil cpu pe
windows和linux（debian）双系统的安装

其实无论是先装windows还是先装linux xff0c 都不是问题 1 先装windows xff0c 再装linux xff1a 装好windows之后 xff0c 可以有很多种方法装linux xff0c 比如U盘安装debian
ubuntu16.04 caffe /usr/bin/ld : cannot find -lxxx （xxx代表不同的库名称）

lxxx事实代表的一个动态链接库 xff0c 而动态链接库的文件名通常应为 libxxx so 这种问题可以归结为在ubuntu系统编译过程中出现的库缺失问题一般有三个原因 xff1a 库没有安装对应的库 xff0c 此时基本可以通过 s
pip超时问题(timeout)的解决方法

参考的两个链接 xff1a http www cnblogs com wuyong09 p 5698167 html www cnblogs com llhf p python proxy for pip html 我们需要安装的pytho
ubuntu中U盘硬盘格式化（NTFS，FAT12，FAT16，FAT32，EXT4，EXT3，EXT2）

我的系统版本是ubuntu16 04 需要将U盘或硬盘格式化成NTFS格式 xff0c 需要安装一个工具ntfs 3g xff08 以前是ntfsprogs xff09 xff0c 这个工具在我的系统上自带了 xff0c 如果没有的话执行
Python中的星号：运算和参数传递

Python中的星号 xff1a 运算和参数传递计算中的运用参数传递中的打包和解包打包拆解参考链接pythontab xff1a http www pythontab com html 2016 pythonhexinbiancheng
Brian2学习笔记

Brian2学习笔记前言运行环境写点有用的没用的简介引用安装python编译安装pip安装C 43 43 code generation的安装要求测试使用教程 Tutorialpart 1 神经元 Neurons物理单位定义神经元生
Brian到Brian2的转换

Brian到Brian2的转换前言简介 xff1a Changes for Brian1 users关于物理单位 xff1a Physical units没有导入的包 xff1a Unported pacakge删除的类和函数以及在Bri

随机推荐

Paper review: Dynamic Routing Between Capsules

Paper review Dynamic Routing Between Capsules 基本信息主要内容摘要基本思想神经科学设想routing by agreement卷积胶囊算法和网络算法细节网络结构网络主体用重构来做正则化方法实
我的pipenv工作流程和方法

参考链接我的系统 xff1a ubuntu16 04 官方文档 xff1a https pipenv readthedocs io en latest install installing pipenv 博客 xff1a https ww
【Kafka】Kafka基础架构及相关概念

文章目录前言一 Kafka基础知识二 Kafka分区副本参考前言在以前的定义中 xff0c Kafka被定义为一个分布式的基于发布订阅模式的消息队列 xff08 Message Queue xff09 xff0c 主要应用于大数据实
iOS开发之在google地图上显示自己的位置

一行代码显示你的位置 iOS中的MapKit集成了定位的功能 xff0c 使用一行代码就可以在google地图上展示出自己当前的位置 xff0c 代码如下 xff1a IBAction showLocation id sender if b
ESP8266(nodemcu)通过NTP获取网络时间，在TM1637数码管上显示出来

器材 esp8266 nodemcu 1块 TM1637 4位8段数码管1个杜邦线4根连线 esp8266 TM1637 3 3v VCC GND GND D5 GPIO12 CLK D6 GPIO14 DIO 库文件 arduino库
deepin安装python

终端 xff1a sudo apt update sudo apt install span class token operator span y make build span class token operator span ess
apt安装 E: 无法获取 dpkg 前端锁 (/var/lib/dpkg/lock-frontend)，是否有其他进程正占用它？

ps e grep apt get 现实 16143 00 00 04 apt get sudo kill 6965
html控件为disabled时对django form表单post提交的影响

笔记前端表单 xff0c input的内容为动态生成 xff0c 为防止被用户修改 xff0c 使用了disabled属性 xff1a span class token tag span class token tag span clas
arduino char*，const char*和string 三者转换

使用String toInt 将字符串转为数字示例 String inString span class token operator 61 span span class token string 34 34 span span clas
django使用html5实现多文件选择批量文件上传

在使用django过程中 xff0c 上传文件功能总是一个一个文件上传 xff0c 在文件数量多的时候用户体验不好 xff0c 因此考虑能不能实现批量选择上传多文件 xff0c 最终实现如下 xff1a 前端代码 xff08 html5支持
UnicodeEncodeError: ‘ascii‘ codec can‘t encode characters in position……错误的解决，亲测有效

使用wusgi 43 nginx部署django后访问报错 xff0c 查询日志发现错误为 UnicodeEncodeError ascii codec can t encode characters in position 63 71 o
ubuntu设置定时自动备份MySQL数据库，亲测有效

1 新建一个文件夹存放备份的数据文件根据个人需要放在合适的位置 mkdir home cms mysqlbackup 2 创建脚本文件我放在home文件夹了命名为autobackup sh cd home vim cmsdatabas
ubuntu时间慢8小时及更改UTF-8

时间慢的原因是时区没有更改 xff1a 1 查看当前系统时间 span class token function sudo span span class token function date span R 2 修改文件 span cla
【Kafka】Kafka的重复消费和消息丢失问题

文章目录前言一重复消费1 1 重复消费出现的场景1 1 1 Consumer消费过程中 xff0c 进程挂掉异常退出1 1 2 消费者消费时间过长 1 2 重复消费解决方案1 2 1 针对于消费端挂掉等原因造成的重复消费问题1 2 2
树莓派3b+安装ubuntu server，安装mysql

1 下载镜像 http cdimage ubuntu com ubuntu releases 18 04 5 release ubuntu 18 04 5 preinstalled server arm64 43 raspi3 img xz
ubuntu 18.04设置固定ip以及无线网卡配置。

ubuntu从17 10开始 xff0c 已放弃在 etc network interfaces里固定IP的配置 xff0c 即使配置也不会生效 xff0c 而是改成netplan方式 xff0c 配置写在 etc netplan 01 n
2021-05-31使用python实现宽带内的服务器查询公网ip并发送邮件

问题 xff1a 家里宽带开通了公网ip xff0c 将个人网站放在家里 xff0c 设置好DMZ主机和域名解析 xff0c 即可实现域名访问但是家里路由器需要定期重启 xff0c 重启后的公网ip就会变更 xff0c 需要查到变更后的公
windows 10 安装mysql不成功？使用压缩包安装mysql 8.0及修改root用户允许远程登陆（亲测有效）

mysql8 0使用msi安装包 xff0c 总是失败 xff0c 最后用下面的方法成功安装 1 下载安装包去官网下载 xff0c 我下载的版本是8 0 25 2 下载完后解压 xff0c 将 zip 包解压到你想安装的目录 xff0c
ajax传值后，依据情况跳转页面

span class token punctuation span span class token function ajax span span class token punctuation span span class token
python爬虫无法有效控制线程数问题的解决（实测有效）

使用爬虫爬取某网站图片时 xff0c 无法很好的控制线程数 xff0c 线程总是超级多 xff0c 虽然用网上的方法限制为10个线程 xff0c 实际代码跑起来线程远多于10个 xff0c 内存会被逐步消耗掉 xff0c 如下图 xff1a

python爬虫无法有效控制线程数问题的解决（实测有效）

python爬虫无法有效控制线程数问题的解决（实测有效） 的相关文章

随机推荐

热门标签

python爬虫无法有效控制线程数问题的解决（实测有效）的相关文章