多线程爬虫的实现----threading库的使用

2023-10-26

1.作爬虫的时候为了提升抓取的速度，这个时候就需要开启多个线程同时抓取数据，今天就分享一下如何使用Python中的threading库实现多线程抓取数据

from shop import ShopSpider
import threading
import time

def loop(num1,num2):
    # 店铺数据抓取
    shop_spider = ShopSpider()
    shop_spider.login(num1)
    shop_spider.shop_crawl(num2)
    shop_spider.close_driver()


# 多线程开启数据抓取
def main(pools):
    threads = []
    list_t = []
    for i in range(0, pools):
        t = "t" + f"{i}"
        list_t.append(t)
    nloops = range(pools)
    for i in nloops:
        list_t[i] = threading.Thread(target=loop, args=(i,100))
        # loop为目标函数名，args为目标函数参数
        threads.append(list_t[i])

    for i in nloops:    # 开始线程
        threads[i].start()
        time.sleep(1)

    for i in nloops:    # 等待所有
        threads[i].join()   # 线程完成

if __name__ == "__main__":
    main(2)   # main中的参数决定线程数量

这里需要注意的是开启多线程一定要处理好内部的逻辑结构，不然就会出现混乱的情况，比如要使用循环的，第一个线程从0到100遍历，第二个同样的页面也从0到100遍历，这样就会造成混乱，因此使用多线程一定要注意内部的逻辑实现

2.使用scrapy分布式抓取也能提升抓取的效率，这里scrapy就不多说了，不会的可以去我之前的文章中查看，有详细的Scrapy使用方法，后续我也会更新scrapy的进一步使用

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

爬虫

开发语言

多线程爬虫的实现----threading库的使用的相关文章

如何避免使用全局变量？

我使用全局变量但我读到它们不是一个好的实践或Pythonic 我经常使用的函数会给出许多是否变量我需要在主函数中使用这些变量例如在不使用全局变量的情况下如何编写以下代码 def secondary function global
有没有办法离线将多个 Plotly HTML 文件合并/嵌入到一个页面/HTML 文件中？

我正在尝试将多个图表合并成一个 HTML 报告来发送问题是我真的不认为子图是最好的主意因为图表相对不相关不同的 X Y 轴我所需要做的只是将图表附加到 1 个 HTML 文件中有一个指南解释了如何使用绘图 URL 来完成此操作但
python列表理解和extend() [重复]

这个问题在这里已经有答案了深入学习 Python 2 7 1 但未能理解这一点几个小时 gt gt gt a 1 2 gt gt gt b 3 4 gt gt gt gt gt gt a extend b 0 gt gt gt a 1
如何在 for 循环中跳过一些迭代

在 python 中我通常简单地循环遍历范围 for i in range 100 do something 但现在我想跳过循环中的几个步骤更具体地说我想要类似的东西continue 10 这样它就会跳过整个循环并将计数器增加 10
将 KB/MB/GB 等字符串解析为数值

为了不发明自行车我想知道是否有任何库能够将大小字符串 MB KB TB MiB KiB 等的各种表示形式解析为基于数字字节的值 ActiveState Receipes 有一个示例here http code activestate c
使用自定义元素类在 Python 中解析 xml

我想使用 Python 的 xml etree ElementTree 模块解析 xml 文档但是我希望生成的树对象中的所有元素都具有我定义的一些类方法这建议创建我自己的 Python 元素类的子类但我无法告诉解析器在解析时使用我自
如何在Python中通过URL下载Azure Blob存储文件？

我正在尝试从我的存储帐户下载 Azure Blob 存储文件为此我检查了 URL 是什么并且正在执行以下操作 with urllib request urlopen
python 正则表达式中括号的奇怪行为

我正在编写一个 python 正则表达式它可以在文本文档中查找引用的字符串从黑匣子中记录的航空公司飞行员的引用我首先尝试编写具有以下规则的正则表达式返回引号之间的内容如果以 single 打开则仅在以 single 关闭时返回
在 AWS Elastic Beanstalk 中部署 Flask 应用程序

当我部署 Flask 应用程序时它显示成功但是当我检索日志时我看到错误找不到 Flask 我的需求文件中有烧瓶任何帮助 Sat Jan 11 06 51 50 503908 2020 error pid 3393 remote 1
Unpickle 二进制文件为文本[重复]

这个问题在这里已经有答案了我需要对基本上如下所示的系统进行一些维护复杂的遗留Python程序 gt 二进制pickle文件 gt 另一个复杂的遗留Python程序这需要准确弄清楚中间 pickle 文件中的内容我怀疑文件格式比生成和
结束一天（日期时间）的最优雅的方式是什么？

我目前正在编写一些报告代码允许用户选择指定日期范围它的工作方式简化是用户可选指定年份用户可选指定月份用户可选指定一天这是一个代码片段以及描述我想要的内容的注释like to do from datetime i
了解 Tensorflow 中的 while 循环

我正在使用用于 Tensorflow 的 Python API https www tensorflow org api docs python 我正在努力实施罗森布罗克函数 https www sfu ca ssurjano rosen
对二进制数的字符串表示进行按位运算 python 2.7

我想对二进制数的两个字符串表示执行按位或但我不知道如何将字符串转换为原始二进制 a 010110 b 100000 a b 应该产生 110110 然后我想计算 on 位的数量这应该返回 4 您可以使用内置的将字符串转换为二进制int
Scrapy文件下载如何使用自定义文件名

For my scrapy http doc scrapy org index html我目前正在使用的项目文件管道 https doc scrapy org en latest topics media pipeline html scr
尝试输入字符串时出现名称错误[重复]

这个问题在这里已经有答案了 import pickle import os import time class Person def init self number address self number number self addr
帮助我在 Python 中实现反向传播

EDIT2 新的训练集 Inputs 0 0 0 0 0 0 1 0 0 0 2 0 0 0 3 0 0 0 4 0 1 0 0 0 1 0 1 0 1 0 2 0 1 0 3 0 1 0 4 0 2 0 0 0 2 0 1 0 2 0 2
如何加速Python循环

我查看了几个网站上的一些讨论但没有一个给我解决方案这段代码运行时间超过5秒 for i in xrange 100000000 pass 我正在研究整数优化问题我必须使用O n log n 算法编辑 O n 4 算法其中n代表矩阵的
launchd执行python脚本，但导入失败

我使用 appscript 编写了一个 python 脚本来跟踪我当前活动的窗口我通过 launchd 运行它但是当我这样做时它无法导入 appscript 我已经在 launchd 的 plist 中设置了 PYTHONPATH 但
安装 confluence-kafka 时“文件名或扩展名太长”？

我在使用 pip install confluence kafka 安装 confluence kafka 时遇到一些问题但我收到此错误文件名或扩展名太长详细信息如下 Collecting confluent kafka Using
Python list.extend() 是保序的吗？

我想知道扩展函数是否保留两个列表中的顺序 gt gt list 1 2 3 gt gt list extend 4 5 gt gt list 1 2 3 4 5 扩展总是这样工作吗 Yes list extend just extends给

随机推荐

@Autowried、接口、实现类、多个实现类、有参构造方法

1 Autowried与接口搭配使用注入的是接口实现类 2 接口有多个实现类的情况接口UserInterface 有多个实现类AImpl BImpl Autowired Qualifier AImpl private UserInter
100天精通Python（可视化篇）——第81天：matplotlib绘制不同种类炫酷饼图参数说明+代码实战（自定义、百分比、多个子图、圆环、嵌套饼图）

文章目录专栏导读 0 前言 1 参数说明 2 普通饼图 3 百分比饼图 4 突出某一块的饼图 5 自定义颜色的饼图 6 多个子图 7 圆环饼图
CSS基础样式

1 高度和宽度 c1 height 300px width 500px 注意事项宽度支持百分比行内标签默认无效块级标签默认有效右侧区域就算是空白也不给占用 2 块级和行内标签 css样式标签 display inline
python logger学习

logging 配置文件 loggers keys root simpleExample handlers keys consoleHandler fileHandler rotatingFileHandler TimedRotatingF
通俗理解公钥、私钥、数字签名、数字证书

通俗理解公钥私钥数字签名数字证书文章目录通俗理解公钥私钥数字签名数字证书 1 主角介绍 Bob and Alice 2 公钥加密私钥解密 3 哈希 4 数字签名私钥加密公钥解密 5 数字证书确保公钥不被冒充本文
【vs】window下用vs创建linux项目，可连接虚拟机linux

vs window下用vs创建linux项目可连接虚拟机linux 很多时候电脑装的虚拟机还是比较卡顿的有没有一种可能就是在window下面开发linux的工程 visual studio 给我们提供了这一功能 0 Linux准备
C#三层架构系统 C#.NET三层架构快速开发框架

C 三层架构系统 C NET三层架构快速开发框架 C 语言 C CSharp C 是一个现代的通用的面向对象的编程语言它是由微软 Microsoft 公司开发的强大的编程语言 C 是专为公共语言基础结构 CLI 设计的 CLI 由可执
【Android】线性布局（LinearLayout）最全解析

Android 线性布局 LinearLayout 最全解析一 LinearLayout概述二 LinearLayout常用属性 2 1 orientation属性 2 2 gravity属性 2 3 layout weight属性一
STM32H7串口查询方式接收串口接收溢出导致死机问题

串口溢出后因为接收移位寄存器不会把接收到的数据放到接收寄存器中则RXNE RXFNE不会再置位不能再接收表现为串口死机 STATIC INLINE uint32 t LL USART IsActiveFlag RXNE RXFNE
STM32F407单片机移植MS5611气压计（基于IIC）---同时解决温度低于20度时计算得到的大气压错误的问题

最近一个工程项目需要使用MS5611气压计就花时间研究了一下发现网上很多都是基于STM32F103单片机的MS5611气压计源程序当移植到STM32F407时发现采集的大气压力和温度值不对同时发现网上部分程序在温度高于20度时计算
11月编程语言排行出了！榜单有何新变化？

11月TIOBE编程排行榜已更新一起看看本月各大编程语言有何新进展 11月TIOBE编程排行榜前15名 TOP 10编程语言TIOBE指数走势素材来自https www tiobe com tiobe index 如侵删在本月TIOB
数据库知识整理 - 数据库恢复技术（故障种类、数据转储、日志文件、恢复策略）

主要内容事务的基本概念故障的种类 1 事务内部的故障 2 系统故障 3 介质故障 4 计算机病毒数据库恢复技术数据转储登记日志文件登记日志文件的作用以及原则恢复策略事务故障的恢复系统故障的恢复介质故障的恢复
如何将CAD绘图软件的语言设置为中文状态下

我们在进行使用CAD绘图软件来绘制图纸的时候一般都需要建CAD编辑器进行设置一下在使用那么如何将CAD绘图软件的语言设置为中文状态下具体要怎么来进行操作呢那下面小编就来教教大家将CAD绘图软件设置为中文状态下的操作方法吧希望对你
关于struts2和javamail的配合使用

这几天用到了javamail 开始写了个程序建了个java项目可以正常运行但是后来加入到struts2项目中就开始报错ClassNotFound之类的错误解决方法是在myeclipse的安装目录下找到common文件夹打开其中的
Arduino pro micro开发板的程序烧录问题

Arduino pro micro是我大二的时候买的一个开发板当时是玩Arduino开发板之后尝试做一个小东西但是买回来后不知道程序怎么下载多种尝试也没有成功时隔多年在家收拾东西翻出来后再试了一下发现我当时想多了没好好地
IDEA教程之Activiti插件

本文作者 Spring ZYL 文章来源人生就是一个不断学习的过程码农StayUp CSDN博客 SpringBoot全家桶 Java数据结构与算法分析设计模式领域博主版权声明本文版权归作者所有转载请注明出处一安装Activ
《软件测试》第十四章网站测试

软件测试第十四章网站测试 14 0 前言 14 1 网页基础 14 2 黑盒测试 14 2 1 文本 14 2 2 超级链接 14 2 3 图片 14 2 4 表单 14 2 5 对象和其他各种简单的功能 14 3 灰盒测试 14 4
QQ和MSN 在线代码

QQ在线聊天代码 a href img src images qq交谈 bmp alt qq交谈 width 68 height 29 border 0 a MSN在线聊天代码 a href target blank img src ima
Callable 和 Future

Callable 和 Future 是 Java 并发编程中用于处理多线程任务的两个关键接口它们通常与线程池一起使用以实现异步任务执行和获取结果的功能 Callable Callable 是一个泛型接口它定义了一个带有返回值的任务与
多线程爬虫的实现----threading库的使用

1 作爬虫的时候为了提升抓取的速度这个时候就需要开启多个线程同时抓取数据今天就分享一下如何使用Python中的threading库实现多线程抓取数据 from shop import ShopSpider import threadin

多线程爬虫的实现----threading库的使用

多线程爬虫的实现----threading库的使用 的相关文章

随机推荐

热门标签

多线程爬虫的实现----threading库的使用的相关文章