python实现爬取微博相册所有图片

2023-11-05

微博相册的批量爬取

文章目录

前言
一、分析实现思路
二、编写代码
结果

前言

微博有相册功能，那么我们如何批量下载相册中的所有照片呢？

提示：以下是本篇文章正文内容，下面案例可供参考

一、分析实现思路

因为微博相册也是前后端分离，所以我们先去抓包对应的json数据
在这里插入图片描述
这里以李荣浩的相册为例，一共有25页：

分析得出实际的链接应该为：‘https://wx4.sinaimg.cn/large/’ + pic_name
再来看看链接循环爬取的分析

这里只需要更改page的值即可实现循环爬取

二、编写代码

1.引入库

代码如下：

from fake_useragent import UserAgent # 伪装机型
from threading import Thread # 多进程
from queue import Queue # 队列
import requests
import random

headers = {
	# cookie 每天会变化，需要即使更换
    'cookie': 'SINAGLOBAL=74744724261.95033.1605948585466; wvr=6; '
              'SUBP=0033WrSXqPxfM725Ws9jqgMF55529P9D9Whrq6C5pCwQBNf5XnQhDpfE5JpX5KMhUgL.Fo'
              '-cehB7eoqpSKM2dJLoIEBLxKBLBonL12BLxKqL1KnL12-LxKnLBKML1h.LxKMLBKqLB.zt; ALF=1641197487; '
              'SSOLoginState=1609661488; '
              'SCF=AqFdnOicaqrQ3UjYRBY-C8Kp3PwjrkfR1lPLA0W8mjbwb9rIU1MBf0l9kWk3ahdAXFldqtvqcZ7UW_ehPXfM1JE.; '
              'SUB=_2A25y9QxgDeRhGeNI61YR8ijNzjuIHXVRg3qorDV8PUNbmtAKLVTukW9NSH08UxX8Md1T1NOxjdEP88XVg1aJmi7t; '
              '_s_tentry=login.sina.com.cn; Apache=9994350802777.143.1609661492706; '
              'ULV=1609661492740:9:6:2:9994350802777.143.1609661492706:1609657348149; UOR=,,www.baidu.com; '
              'webim_unReadCount=%7B%22time%22%3A1609666074015%2C%22dm_pub_total%22%3A0%2C%22chat_group_client%22%3A0'
              '%2C%22chat_group_notice%22%3A0%2C%22allcountNum%22%3A3%2C%22msgbox%22%3A0%7D; '
              'WBStorage=8daec78e6a891122|undefined',
    # 从哪里来
    'referer': 'https://photo.weibo.com/6816603335/talbum/index',
    # 伪装头
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) '
                  'Chrome/87.0.4280.88 Safari/537.36 Edg/87.0.664.66 ',

}
# 下载时图片的伪装头
fake = {
    'User-Agent': UserAgent().random
}
# ip代理池
proxy_pool = [{'HTTP': '183.166.70.110:9999'}, {'HTTP': '58.22.177.215:9999'}, {'HTTP': '175.44.109.28:9999'},
              {'HTTP': '175.42.128.211:9999'}, {'HTTP': '113.121.76.254:9999'}, {'HTTP': '175.42.122.166:9999'},
              {'HTTP': '175.42.122.233:9999'}, {'HTTP': '113.121.42.214:9999'}, {'HTTP': '113.195.152.127:9999'},
              {'HTTP': '175.42.129.78:9999'}, {'HTTP': '171.35.213.172:9999'}, {'HTTP': '113.121.37.163:9999'}]
# 访问json数据的url
url = 'https://photo.weibo.com/photos/get_all'

2.多进程的编写

代码如下：

class SpiderImg(Thread):
	# 初始化
    def __init__(self, d):
        Thread.__init__(self)
        self.data = d
	# 重写run方法
    def run(self):
    	# 当队列不为空的时候下载对应的url下的图片
        while not self.data.empty():
        	# 取队列
            a = self.data.get()
            # 获得id和url数据
            i_id = list(a.keys())[0]
            i_url = list(a.values())[0]
            # 访问链接取得数据
            img = requests.get(url=i_url, headers=fake, proxies=random.choice(proxy_pool)).content
            # 将文件写入指定路径下的文件夹
            with open('E:/SpiderImg/李荣浩/{}.jpg'.format(i_id), 'wb') as t:
                t.write(img)
                print(i_id + '.jpg' + ' ' * 4 + '下载完毕' + '.' * 4)

为了开启多进程爬取图片

3.主函数的编写

代码如下：

if __name__ == '__main__':
	# 初始化队列
    data_queue = Queue()
    # 循环
    for i in range(1, 26):
        params = {
            'uid': '1739046981',
            'album_id': '3581934839144367',
            'count': '30',
            'page': i,
            'type': '3',
            '__rnd': '1609667183074'
        }
        print('正在爬取第{}页'.format(i) + '.' * 4)
        response = requests.get(url=url, params=params, headers=headers).json()
		# 解析数据
        photo_list = response.get('data').get('photo_list')
        for photo in photo_list:
        	# 取得其中的pic_name 和 pic_name 
            pic_name = photo.get('pic_name')
            pic_name = photo.get('photo_id')
            photo_url = 'https://wx4.sinaimg.cn/large/' + pic_name
            # 添加到队列中
            data_queue.put({photo_id: photo_url})
	# 开启多进程，根据队列中存放的url数据，下载图片
    for w in range(64):
        spider = SpiderImg(data_queue)
        spider.start()

结果

程序运行结果：
在这里插入图片描述
注：案例仅供学习

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

python实现爬取微博相册所有图片的相关文章

在 Clojure 中处理两个序列中的值对

我正在尝试加入 Clojure 社区我经常使用 Python 我广泛使用的功能之一是 zip 方法用于迭代值对在 Clojure 中是否有一种聪明且简短的方法可以实现相同的目标另一种方法是简单地将 map 与一些按顺序收集其参数
python 中的错误 - “NoneType”类型的对象没有 len()

我不确定我的 python 代码有什么问题 geneid request args get geneid sql text select from INFO where name ident genes engine execute sql
如何从Python请求库正确返回http响应（想要一个Python反向代理）

这个问题继续自here https stackoverflow com questions 48635552 how to programmatically communicate with apache 我想创建一个反向代理它允许我托管
Pandas groupby：根据另一列中的值更改一列中的值

我会尽力解释我的问题但我是 Pandas 新手所以请耐心等待我有一个 Pandas 数据框df Random ID Seq ID Type Seq Token 0 8 1 User First 1 8 2 Agent Second 2
从第二个 DF 中查找一个 DF 中属于同等大小的矩形（由两个点给出）的点的快速（矢量化）方法

我的数据框 A 如下所示 type latw lngs late lngn 0 1000 45 457966 9 174864 45 458030 9 174907 1 1000 45 457966 9 174864 45 458030 9
加快 pandas groupby 中的滚动总和计算

我想按组计算大量组的滚动总和但我很难快速地完成它 Pandas 内置了滚动和展开计算器的方法这是一个例子 import pandas as pd import numpy as np obs per g 20 g 10000 obs g
我怎样才能用Python中的语音识别来检测一个单词

我知道如何用 Python 检测语音但这个问题更具体如何让 Python 只监听一个单词然后如果 Python 可以识别该单词则返回 True 我知道我可以让 Python 一直监听然后做出类似的东西伪代码 while True
“unicode”对象没有属性“_meta”

我正在尝试创建一个视图用户在其中从下拉菜单中选择一个选项提交它然后返回一些数据具体来说他们将从数据库中的模型中进行选择并返回该类的所有实例我使用 django tables2 输出数据以便可以排序但这是我的症结所在 Vie
将 *.appspot.com 重定向到自定义域：Google 应用引擎 (Django)

我直接将我的一些示例代码放在这里以获得更好的了解 url py r robots txt myapp views robots r myapp views home views py def home request my code ret
lxml 属性需要完整的命名空间

下面的代码使用 lxml python 3 3 从 Excel 2003 XML 工作簿中读取表格该代码工作正常但是为了通过 get 方法访问 Data 元素的 Type 属性我需要使用键 urn schemas microsoft
如何将字符串转换为二进制？

我需要一种方法来获取 python 中字符串的二进制表示形式例如 st hello world toBinary st 是否有一个模块可以以某种巧妙的方式执行此操作像这样的东西吗 gt gt gt st hello world gt g
如何使绘图的 xtick 标签成为简单的绘图？

我不想用单词或数字作为 x 轴的刻度标签而是想绘制一个简单的绘图由直线和圆圈组成作为每个 x 刻度的标签这可能吗如果是这样在 matplotlib 中处理它的最佳方法是什么我会删除刻度标签并将文本替换为patches http
PyCrypto：生成受 DES3 密码保护的 RSA 密钥

我已经能够使用 DES3 创建受密码保护的 RSA 密钥嗯 I think因为我对这个加密世界非常陌生使用以下命令 openssl genrsa out tmp myKey pem passout pass f00bar des3 20
从 Python 调试 C 库 (ctypes)

我有一个使用 ctypes 和 C 共享库 dll 文件的 Python 程序作为 IDE 我使用 Eclipse 其中将开发两个项目 C 共享库和使用它的 python 程序我的想法是当我在调试模式下启动Python程序时我可以
无法使用 pandas 获取平均日期

我有一个时间序列数据集我想从中获取平均日期这是一个人为的示例显示 pandas datetime64 对象的溢出错误 import pandas as pd import numpy as np rng pd date range 2
带过滤器的 SQLAlchemy func.count

我正在使用一个进行分页的框架如下所示 def get count query self return self session query func count select from self model def paginate se
python 格式日期时间，带有“st”、“nd”、“rd”、“th”（英文序数后缀），如 PHP 的“S”

我想要一个 python datetime 对象来输出并在 django 中使用结果如下所示 Thu the 2nd at 4 30 但我在python中找不到输出的方法st nd rd or th就像我可以使用 PHP 日期时间格式一
将人员分配到床位 - 自动化方法[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我每年都会帮助举办青年营将与会者分配到卧室是一项艰巨的任务有 92 个卧室活动持续一周与会者停留的时间长短不一而且床需要重复
异常：AttributeError：使用 Azure Function 和 Python 的“DefaultAzureCredential”对象没有属性“signed_session”

我编写了一个运行 Python3 的 Azure 函数来简单地打开 Azure VM 该函数应用程序具有系统分配的托管标识我已为其授予 VM 贡献者角色为了让该函数使用托管标识我使用了 DefaultAzureCredential 类
Discord-py Rewrite - Cog 中的基本 aiohttp Web 服务器

我正在尝试将基本的 aiohttp 网络服务器集成到 Cog 中使用 discord py 重写我对齿轮使用以下代码 from aiohttp import web import discord from discord ext imp

随机推荐

边缘检测Sobel、laplacian、canny算子

1 图像边缘检测图像边缘检测对于分析图像中的内容实现图像中物体的分割定位等具有重要的作用边缘检测大大减少了源图像的数据量剔除了与目标不相干的信息保留了图像重要的结构属性常用的图像边缘检测方法分为以下两种一阶导数的边缘算子通
Linux PWM 驱动实验

一 PWM 驱动简析 1 设备树下的 PWM 控制器节点 I MX6ULL 有 8 路 PWM 输出因此对应 8 个 PWM 控制器所有在设备树下就有 8 个PWM 控制器节点这 8 路 PWM 都属于 I MX6ULL 的 AIPS
[Codeforces] combinatorics (R1600) Part.7

Codeforces combinatorics R1600 Part 7 题单 https codeforces com problemset tags combinatorics 1201 1600 1534C Little Alawn
用Python爬虫技术怎么挣点小钱，这四种方法可行

提醒抓取的数据如果要商业化要小心知识产权问题噢还要提醒一点抓取和处理这些数据的代价要小于人工处理的代价使用爬虫代替人工才有价值我利用Python爬虫技术赚点小钱方式在正式聊Python爬虫技术之前先来说说挣钱的事说说作为一
react组件的render方法

一个组件类必须要实现一个 render 方法这个 render 方法必须要返回一个 JSX 元素必须要用一个外层的 JSX 元素把所有内容包裹起来返回并列多个 JSX 元素是不合法的错误的写法 render return div 第
计算机显示丢失d3dcompiler,无法启动此程序提示缺少d3dcompiler文件怎么解决

有用户说他在打开某个程序时系统却提示说无法启动此程序提示缺少d3dcompiler文件的情况这可能是在系统更新时出现错误导致的那么无法启动此程序提示缺少d3dcompiler文件怎么解决呢很简单安装一个更新包即可解决下面小编给大家
[培训-无线通信基础-7]：信道均衡器（信道估计、信道均衡）

作者主页文火冰糖的硅基工坊 https blog csdn net HiWangWenBing 本文网址 https blog csdn net HiWangWenBing article details 118832368 目录引言
FFT算法（Java实现）

FFT导论转载自FFT导论 FFT是离散傅立叶变换的快速算法可以将一个信号变换到频域有些信号在时域上是很难看出什么特征的但是如果变换到频域之后就很容易看出特征了这就是很多信号分析采用FFT变换的原因另外 FFT可以将一个信号的
通过Java操作Kafka

通过Java操作Kafka 前置知识 https editor csdn net md articleId 125883056 创建maven项目导入kafka客户端依赖
C#生成二进制文件

文章目录用C 将文本MAC地址生成二进制文件使用C 将字符串生成二进制文件为什么用C 来开发这个简单的上位机用C 将文本MAC地址生成二进制文件 using System using System Collections Gener
wangEdit大致使用

1 先导入两种方式任选其一 yarn add wangeditor editor for vue next npm install wangeditor editor for vue next save 2 创建富文本框组件以下是vue
51单片机学习笔记(五) -独立按键&&外部中断

文章目录一按键的工作原理 1 原理图 2 按键的工作原理二使用轮询法处理按键 1 通过按键来点亮LED 2 键值检测与显示 3 按键消抖 4 完整的按键检测四使用中断检测按键 1 功能要求 2 外部中断INT0和INT1 3 代
oracle约束+disable与enable约束+为表添加约束+修改表约束的状态+primary key+not null+unique+foreign key+外键删除数据，可以使用的级联操作...

oracle约束分类表级约束应用于表对表的多个列起作用或者说定义所有列后再定义约束 not null 约束只能在列级上列级约束应用于表的一列只对该列起作用或者说定义列的同时定义约束 disable与enable约束控制
Java中队列的实现(2)-使用单向链表以及实现

队列 Queue 是另一种被限制过的线性表它是固定一端来插入数据元素另一端只删除元素也就是说队列中的元素移动是固定的就像超市收银台一样一边是进的一边是出的而且是先进入的首先获得服务的队列是一个特殊的线性表它只允许在表的前端
国产数据库排行

目录一理论 1 国产数据库排行 2 数据一理论 1 国产数据库排行 1 墨天轮榜单墨天轮国产数据库流行度排行于2019年6月推出通过近50个维度的数据来考察近300个国产数据库的流行度排行每月1日更新排行数据用于体现国产数据
vue踩坑记录—elementui样式引入失败

出现的问题 F12没有任何报错 elementui可以引入组件但是组件的样式不显示首先检查项目的插件和依赖是否安装命令行运行vue ui 在可视化界面里可以安装插件 vue cli plugin element 依赖开发依赖 el
java 附近的人

传送门思路清晰详述了坐标取附近的人的功能
论文参考文献插入方法（一）

本文使用的是word2016 word2010及以上操作方法应该相同第一步参考文献编号首先在参考文献字后面新起一行从开始里面选择插入编号选择圆圈中的那种编号格式参考文献的编号格式这是就会自动出现编号 1 插入文献后回
Python爬虫副业真的可行吗？能赚多少？

首先回答你 python爬虫能当副业副业的方式比较多等下我会讲几种到哪个层次能接单主要看你是接什么样的单爬一些资料视频这种简单的学一两个月就没什么问题复杂的那就需要系统的学习爬虫原理 html相关知识 urllib urll
python实现爬取微博相册所有图片

微博相册的批量爬取文章目录前言一分析实现思路二编写代码 1 引入库 2 多进程的编写 3 主函数的编写结果前言微博有相册功能那么我们如何批量下载相册中的所有照片呢提示以下是本篇文章正文内容下面案例可供参考一分析

python实现爬取微博相册所有图片

文章目录

前言

一、分析实现思路

二、编写代码

1.引入库

2.多进程的编写

3.主函数的编写

结果

python实现爬取微博相册所有图片 的相关文章

随机推荐

热门标签

python实现爬取微博相册所有图片的相关文章