Python爬虫实战(五) :下载百度贴吧帖子里的所有图片

2023-11-06

准备工作：
目标网址：https://tieba.baidu.com/p/5113603072
目的：下载该页面上的所有楼层里的照片

第一步：分析网页源码
火狐浏览器 ---> 在该页面上右击 “查看页面源代码”，会打开一个新的标签页。

第二步：查找图片源地址
在新标签页上ctrl + F，输入jpg，找到第一个图片的源地址

<img class="BDE_Image" src="https://imgsa.baidu.com/forum/w%3D580/sign=29a773eb871001e94e3c1407880f7b06/50cf3bc79f3df8dc5b6bb593c711728b47102859.jpg"
BTW，怎么知道这个链接是不是第一张图，在查找jpg的时候，直接复制jpg网址在浏览器上输入回车对比即可，如果是超链接，直接点击即可。

查找后分析，所有楼层里面的图片都是这个格式<img class="BDE_Image" src=.......

第三步：使用强大BeautifulSoup，过滤标签img 和 class="BDE_Image"，代码：
soup = BeautifulSoup(html, 'html.parser')
img_info = soup.find_all('img', class_='BDE_Image')

第四步：找出所有照片的原始链接，代码
for img in img_info:
img.get("src")

第五步：下载
使用urllib.request.urlretrieve函数

整合后写成完整代码：

#coding=utf-8  
import requests
import urllib.request
from bs4 import BeautifulSoup

def getHtml(url):  
    page = requests.get(url)  
    html =page.text  
    return html

def getImg(html):
    soup = BeautifulSoup(html, 'html.parser')  
    img_info = soup.find_all('img', class_='BDE_Image')
    for index,img in enumerate(img_info,1):
        print ("正在下载第{}张图片".format(index))
        urllib.request.urlretrieve(img.get("src"),'%s.jpg' % index)  
        
if __name__=='__main__':
    url = "https://tieba.baidu.com/p/5113603072"
    html = getHtml(url)
    getImg(html)

    print ("OK!All DownLoad!")

我们看到该帖子远远不止一页，我们也想下载其他页面上的图片怎么办？

点击第二页，网址变为
https://tieba.baidu.com/p/5113603072?pn=2

将pn=2改成pn=1试试，回车，又发现与之前的网站https://tieba.baidu.com/p/5113603072指向的是同一个页面，因此可以循环来访问了。

代码：

#coding=utf-8
import re
import requests
import urllib.request 
from bs4 import BeautifulSoup

def getHtml(url):  
    page = requests.get(url)  
    html =page.text  
    return html

def getImg(html):
    soup = BeautifulSoup(html, 'html.parser')  
    img_info = soup.find_all('img', class_='BDE_Image')
    global index 
    for index,img in enumerate(img_info,index+1):
        print ("正在下载第{}张图片".format(index))
        urllib.request.urlretrieve(img.get("src"),'%s.jpg' % index)

def getMaxPage(url):
    html = getHtml(url)
    reg  = re.compile(r'max-page="(\d+)"')
    page = re.findall(reg,html)
    page = int(page[0])
    return page
    
        
if __name__=='__main__':
    url   = "https://tieba.baidu.com/p/5113603072"
    page  = getMaxPage(url)
    index = 0
    for i in range(1,page):
        url = "%s%s"  % ("https://tieba.baidu.com/p/5113603072?pn=",str(i))
        html = getHtml(url)
        getImg(html)
        
    print ("OK!All DownLoad!")

总结：BeautifulSoup功能真是太强大了。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Python，爬虫

python

Python爬虫实战(五) :下载百度贴吧帖子里的所有图片的相关文章

在 Python 2.7 中出现“ImportError：无法导入名称 HTTPSConnection”错误

我正在尝试在 AWS ElasticBeanstalk 中部署 django 当我按照所示步骤操作时here http docs aws amazon com elasticbeanstalk latest dg create deploy
如何在 Debian 上的 virtualenv 中安装 numpy？

注参见这另一篇文章 https stackoverflow com questions 6442754 how to install h5py numpylibhdf5 as non root on a debian linux syst
scipy.optimize on pandas dataframe

我试图搜索它但结果很差有人可以向我解释一下如何在 Pandas DataFrame 上执行 optimize minimize 以便最小化 DataFrame 中的类别和结果列之间的错误考虑这个例子 import pandas as
为什么在访问 Python 对象属性时使用 getattr() 而不是 __dict__ ？

在具有一定程度的 Python 对象自省的源代码示例和 SO 答案中常见的模式是 getattr some object attribute name string 是否有理由优先选择这种模式 some object dict attri
将 Python Pandas DataFrame 写入 Word 文档

我正在努力创建一个使用 Pandas DataFrames 的 Python 生成的报告目前我正在使用DataFrame to string 方法但是这会作为字符串写入文件有没有办法让我实现这一目标同时将其保留为表格以便我可以使
类型错误：“datetime.datetime”和“str”的实例之间不支持“>”

我是 python 日期和时间类型的新手我有一个日期值 date 2018 11 10 10 55 31 00 00 我需要检查该日期值是否超过 90 天我试过 from datetime import datetime from da
django 模板 - 如何动态访问变量？

假设我有一个具有以下上下文的 django 模板 data1 this is data1 data2 this is data2 data name data2 现在我知道了data name 假设它是 data2 是否可以用它来访问变量d
正在使用 PIL 保存损坏的图像

我遇到一个问题操作图像像素导致保存损坏的图像因此我使用 PIL 打开图像然后将其转换为 NumPy 数组 image Image open myimage png np image np asarray image 然后我转置图像
将 window.location 传递给 Flask url_for

我正在使用 python 在我的页面上当匿名用户转到登录页面时我想将一个变量传递到后端以便它指示用户来自哪里发送 URL 因此当用户单击此锚链接时 a href Sign in a 我想发送用户当前所在页面的当前 URL
使用 if 语句的网格网格和用户定义函数的真值不明确

假设我有一个函数f x y 足够光滑然而有些值仅在有限的意义上存在以sin x x的价值x 0只存在于极限 x gt 0 中在一般情况下我用一个来处理这个问题if陈述如果我在情节中使用它meshgrid我收到一条错误消息 Val
无法使用 python rasterio、gdal 打开 jp2 （来自哨兵）

我试图在 python 中将 jp2 栅格产品作为栅格打开但当我们使用 raterio 和 gdal 包时没有成功我收到此错误 RasterioIOError b4 jp2 not recognized as a supported f
如何按 pandas 中的值对系列进行分组？

我现在有一只熊猫Series与数据类型Timestamp 我想按日期对其进行分组并且每组中有许多行具有不同的时间看似显而易见的方法类似于 grouped s groupby lambda x x date 然而熊猫的groupby按索
如何在matplotlib中调整x轴

I have a graph like this x轴上的数据表示小时所以我希望x轴设置为0 24 48 72 而不是现在的值很难看到 0 100 之间的数据 fig1 plt figure ax fig1 add subplot 11
从迭代器外部将 StopIteration 发送到 for 循环

有几种方法可以打破一些嵌套循环他们是 1 使用中断继续 for x in xrange 10 for y in xrange 10 print x y if x y gt 50 break else continue only exec
Python 2.7 缩进错误[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案这个问题是由拼写错误或无法再重现的问题引起的虽然类似的问题可能是on topic help on topic在这里这个问题的解决方式不
如何创建用于霍夫曼编码和解码的树？

对于我的作业我将对霍夫曼树进行编码和解码我在创建树时遇到问题并且陷入困境不要介意打印语句它们只是让我测试并查看函数运行时的输出是什么对于第一个 for 循环我从主块中用于测试的文本文件中获取了所有值和索引在第二个 for 循
无需访问 Internet 即可部署 Django 的简单方法？

我拥有的是使用 Django 开发的 Intranet 站点的开发版本以及放置在 virtualenv 中的一些外部库它运行良好我可以在任何具有互联网连接的计算机上使用相同的参数使用 pip 轻松设置 virtualenv 但是不幸
Python 读取未格式化的直接访问 Fortran 90 给出不正确的输出

这是数据的写入方式它是一个二维浮点矩阵我不确定大小 open unit 51 file rmsd nn output form unformatted access direct status replace recl Npoints
Python 相当于 Scala 案例类

Python 中是否有与 Scala 的 Case Class 等效的东西就像自动生成分配给字段而无需编写样板的构造函数一样当前执行此操作的现代方法从 Python 3 7 开始是使用数据类 https www python org
如何同时接受int和float类型的输入？

我正在制作一个货币转换器如何让 python 同时接受整数和浮点数我就是这样做的 def aud brl amount From to ER 0 42108 if amount int if From strip aud and to

随机推荐

【Apache Spark 】第 4 章Spark SQL 和 DataFrames：内置数据源简介

大家好我是Sonhhxg 柒希望你看完之后能对你有所帮助不足请指正共同学习交流个人主页 Sonhhxg 柒的博客 CSDN博客欢迎各位点赞收藏留言系列专栏机器学习 ML 自然语言处理 NLP 深度学习 DL fore
深度学习之图像的数据增强

在图像的深度学习中为了丰富图像训练集更好的提取图像特征泛化模型防止模型过拟合一般都会对数据图像进行数据增强数据增强常用的方式就是旋转图像剪切图像改变图像色差扭曲图像特征改变图像尺寸大小增强图像噪音一般使用高斯噪音
【计算机网络】RPC框架简介

文章目录 RPC框架 RPC简介什么是 RPC RPC原理 RPC 解决了什么问题常见的 RPC 框架 HTTP和RPC比较 RPC框架参考文档 RPC框架 RPC简介什么是 RPC RPC Remote Procedure Cal
Python 打印网页为图片(基于edge)

首先如果你还没有安装Edge WebDriver 可以前往此处下载 https developer microsoft com en us microsoft edge tools webdriver 使用Chrome的话一样的下载但是
linux基础（超级详细小白入门篇）

1 基础介绍 1 1 unix 与 linux 区别 1 2 内核 Ubuntu 主要界面视图因为窗口也是需要消耗资源的 CentOS 主要运用在服务器 linux启动时我们会看到许多启动信息 Linux 系统的启动过程并不是大家想象中的
渗透初识之DVWA靶场搭建及使用（详细图文）

目录环境搭建一下载DVWA 二安装DVWA 三 DVWA 使用环境搭建我将环境搭在win7 漏洞环境建议还是在虚拟机上搭建一下载DVWA 下载地址 Buy Steroids Online UK Anabolic Steroi
shell 学习记录（一）-Orange Pi Linux 5.4 SDK启动脚本build.sh

前言完全shell菜鸟以Orange Pi Linux 5 4 SDK编译启动脚本build sh学习shell 对不懂的语法命令记录一获取当前文件夹绝对路径 SRC dirname realpath BASH SOURCE 0
带你玩转Visual Studio

带你玩转Visual Studio 带你新建一个工程工程目录下各文件的含义解决方案与工程在这之前先了解一个概念解决方案与工程解决方案 Solution 一个大型项目的整体的工作环境工程 Project 一个解决方案下的一个子工程
小程序中如何将页面生成图片？

记一次开发一款小程序遇到的需求根据用户填写的商品信息生成一张可分享的购买海报简单的看了一下小程序的canvas组件是可以满足这个需求的实现所以就开始规划组织代码了 1 小程序组件 canvas 是可以实现的这里我就不多说了但
英语怎么学

我是怎么从零开始学英语的哈哈哈在很多人眼里英语难和我以前的认为一样其实英语是最好学的一个语言很有规则远比我们的母语中文好学多数不要一年就能够过关了但要友技巧很多人一定会认为我晕了头不要急等我说完了你再说这话也不迟
MySQL 利用UDF执行命令

UDF即User Defined Functions lib mysqludf sys 在github的介绍 A UDF library with functions to interact with the operating syste
Openwrt-搭建一个Git服务器

简介对于Git文件的管理一直是一个比较困扰的问题目前是流行的Github是一个不错的选择但是默认是开源的如果是一些不愿共享出来的文件代码我们最好是搭建一个自己的服务器在git官方网站有git服务器的搭建方法今天我要说的是在
PYQT5表格及样式设置方法

PYQT5遇到的问题和解决 1 给table添加样式 table 透明度设置构造一个含图片的label 再用setCellWidget把label插入单元格 1 给table添加样式 1 qApp setStyleSheet font s
《因果学习周刊》第6期：因果推荐系统

No 06 智源社区因果学习组因果学习研究观点资源活动关于周刊因果学习作为人工智能领域研究热点之一其研究进展与成果也引发了众多关注为帮助研究与工程人员了解该领域的相关进展和资讯智源社区结合领域内容撰写了第6期
【GeekUninstaller】卸载程序

软件介绍删除不了的文件或者软件可以下载试试不需要安装文章目录前言一如何下载二使用步骤 1 安装完之后自动打开前言 GeekUninstallers是一款高效快速小巧免费的软件卸载与清理工具旨在帮助用户删除系统上安装
caffe源码追踪--syncedmem

首先来看看caffe include caffe syncedmem hpp ifndef CAFFE SYNCEDMEM HPP define CAFFE SYNCEDMEM HPP include
深度学习之 python pandas

在数据科学领域 pandas是非常有用的工具在数据科学细分领域大数据通常和深度学习有关这部分本篇博客从pandas重要函数开始到数据变换以及数据分析 pandas提供了数据变换数据清理数据可视化以及数据提取等主要数据处理功能
tar -xf_linux 解压缩命令tar

linux环境下常见的压缩文件格式 tar tar gz tar bz2 tar xz 参数 c create create a new archive 创建文件 x extract get extract files from an ar
静态资源上传七牛云

一七牛云SDK function 请参考demo的index js中的initQiniu 方法若在使用处对options进行了赋值则此处config不需要赋默认值 init options 即updateConfigWithOptio
Python爬虫实战(五) :下载百度贴吧帖子里的所有图片

准备工作目标网址 https tieba baidu com p 5113603072 目的下载该页面上的所有楼层里的照片第一步分析网页源码火狐浏览器 gt 在该页面上右击查看页面源代码会打开一个新的标签页第二步查找图片源

Python爬虫实战(五) :下载百度贴吧帖子里的所有图片

Python爬虫实战(五) :下载百度贴吧帖子里的所有图片 的相关文章

随机推荐

热门标签

Python爬虫实战(五) :下载百度贴吧帖子里的所有图片的相关文章