通过关键字从百度中爬取相匹配图片，可以爬取多种也可以爬取一种图片

2023-11-07

通过re、requests、urlib、BeautifulSoup、os模块实现从百度下载指定类别图片。包含代码逐行解析。

import re
# 进行http请求的第三方库
import requests
from urllib import error
# 解析HTML和XML文档的库
from bs4 import BeautifulSoup
import os
 
num = 0
numPi = 0
file = ''
List = []
 
def makefile(word):
    file = word + '文件'
    file_na = os.path.exists(file)
    if file_na == 1:
        print('该文件已存在，请重新输入')
        file = input('请建立一个存储图片的文件夹，输入文件夹名称即可: ')
        os.mkdir(file)
    else:
        os.mkdir(file)
    return file

 
# 根据地址去查找 对应的图片的信息
# 获取网页中图片URL函数
# url是目标网页的URL，A是用来发送http请求的类，通常是Request对象
def Find(url, A):
    global List  # 保存信息的列表，保存获取图片的URL
    t = 0           # 请求时间
    i = 1           # 请求次数
    s = 0           # 当前获取到的图片总数
    while t < 60000:
        # 时间戳 不间断刷新访问网址
        # 目标网页的URL与当前时间戳t拼接，形成一个新的url
        Url = url + str(t)
        try:
            # get获取数据，访问拼接后的url
            Result = A.get(Url, timeout=7, allow_redirects=False)
        # 捕获所有请求超时、URL错误等异常
        except BaseException:
            # 每一页有60张图片所以
            t = t + 60
            continue
        else:
            # 拿到网站的数据，捕获到的网页内容给result变量
            result = Result.text
            # 找到图片url，使用正则表达式从网页内容中提取图片url，并将结果赋值给pic_url变量
            pic_url = re.findall('"objURL":"(.*?)",', result, re.S)
            # 图片总数
            # 提取到的图片url数量加到s变量上
            s += len(pic_url)
            # 如果提取到的图片URL数量为 0，表示网页中没有图片，跳出循环
            if len(pic_url) == 0:
                break
            else:
                # 将提取到的图片 URL 添加到 List 列表中。
                List.append(pic_url)
                #  将时间戳 t 增加 60 秒，然后继续循环
                t = t + 60
    return s
 
 
# 记录相关数据
def recommend(url):
    Re = []
    try:
        # 向网页发送一个请求并返回响应
        html = requests.get(url, allow_redirects=False)
    except error.HTTPError as e:
        return
    else:
        html.encoding = 'utf-8'
        # html文件解析，解析响应的文件内容，html.text 是 HTML 文档的源代码，
        # 'html.parser' 是解析器，用于指定如何解析 HTML 文档
        bsObj = BeautifulSoup(html.text, 'html.parser')
        # 找到页面中id为topsRS的div元素
        div = bsObj.find('div', id='topRS')
        # 从该div元素中找到所有a的标签，并提取其中文本内容
        if div is not None:
            listA = div.findAll('a')
            for i in listA:
                if i is not None:
                    Re.append(i.get_text())
        return Re
 
 
# 下载图片
def dowmloadPicture(html, keyword):
    # 记录已经下载的图片数量
    global num
    # 找到图片url
    # 正则表达式从 HTML 中提取所有包含图片 URL 的字符串。re.S 参数表示使正则表达式对大小写不敏感。
    # (.*?)：这是一个捕获组，用于匹配括号内的内容。点号（.）表示匹配任意字符，*? 表示匹配任意数量的字符，匹配一个引号、匹配一个逗号
    # 查找 html 中所有以 "objURL" 开头，并且以双引号和逗号结尾的字符串，并将这些字符串作为匹配结果返回
    pic_url = re.findall('"objURL":"(.*?)",', html, re.S)
    print('找到:' + keyword + '的图片，开始下载....')
    # 遍历图片的url
    for each in pic_url:
        print('正在下载第' + str(num + 1) + '张图片，图片地址:' + str(each))
        # 处理异常，主要处理图片下载失败的情况
        try:
            if each is not None:
                # 请问时间不能超过7s
                pic = requests.get(each, timeout=7)
            else:
                continue
        except BaseException:
            print('错误，当前图片无法下载')
            continue
        else:
            # 构建图片保存路径
            string = file + r'\\' + str(num) + '.jpg'
            # 以二进制写入模式打开新建文件
            fp = open(string, 'wb')
            # 将下载的图片内容写入文件
            fp.write(pic.content)
            # 关闭文件
            fp.close()
            # 已经下载一张图片加1
            num += 1
        # 检查是否已经下载所有需要下载的图片
        if num >= numPi:
            return
 
 
if __name__ == '__main__':  # 主函数入口
    # 模拟浏览器 请求数据 伪装成浏览器向网页提取服务,有的网站识别出你是python就会拒绝
    # 请求头是在发送http请求时，由客户端向服务器发送一些元数据，描述请求的特性和客户端的能力
    # 请求头通常由浏览器自动设置，也可由程序（python）脚本手动设置
    # 返回的文档语言，客户端和服务端建立一个持久的连接，客户端的身份，客户端是否愿意升级不安全的请求
    headers = {
        'Accept-Language': 'zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2',
        'Connection': 'keep-alive',
        'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64; rv:60.0) Gecko/20100101 Firefox/60.0',
        'Upgrade-Insecure-Requests': '1'
    }
 
    # 创建一个请求的会话
    A = requests.Session()
    # 设置头部信息
    A.headers = headers
    choice = int(input("请问需要搜索多类图片还是单类图片？如果是单类请输入0,如果是多类请输入1:"))
    if choice == int(0):
        word = input("输入要搜索的关键词:")
        numPi = int(input('输入要下载的数量:'))
        # 拼接路径
        url = 'https://image.baidu.com/search/flip?ct=201326592&cl=2&st=-1&lm=-1&nc=1&ie=utf-8&tn=baiduimage&ipn=r&rps=1&pv=&fm=rs1&word=' + word
 
        # 根据路径去查找
        total = Find(url, A)
        # 记录相关推荐图片
        Recommend = recommend(url)
        print('经过检测%s类图片共有%d张' % (word, total))
        file = makefile(word)

        t = 0
        tmp = url
    
        while t < numPi:
            try:
                url = tmp + str(t)
                result = requests.get(url, timeout=10)
                print(url)
            except error.HTTPError as e:
                print('网络错误，请调整网络后重试')
                t = t + 60
            else:
                dowmloadPicture(result.text, word)
                t = t + 60

    else: 
        tm = int(input('请输入每类图片的下载数量 '))
        numPi = tm
        line_list = []
        with open('./name.txt', encoding='utf-8') as file:
            line_list = [k.strip() for k in file.readlines()]  # 用 strip()移除末尾的空格
        for word in line_list:
            #url = 'https://image.baidu.com/search/flip?ct=201326592&cl=2&st=-1&lm=-1&nc=1&ie=utf-8&tn=baiduimage&ipn=r&rps=1&pv=&fm=rs1&word=' + word
            url = 'https://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word=' + word + '&pn='
            tot = Find(url,A)
            Recommend = recommend(url)  # 记录相关推荐
            print('经过检测%s类图片共有%d张' % (word, tot))
            file = makefile(word)
            
            t = 0
            tmp = url
            while t < numPi:
                try:
                    url = tmp + str(t)
                    result = A.get(url, timeout=10, allow_redirects=False)
                    print(url)
                except error.HTTPError as e:
                    print('网络错误，请调整网络后重试')
                    t = t + 60
                else:
                    dowmloadPicture(result.text, word)
                    t = t + 60

            numPi = numPi + tm

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

爬虫

python

beautifulsoup

通过关键字从百度中爬取相匹配图片，可以爬取多种也可以爬取一种图片的相关文章

numba 函数何时编译？

我正在研究这个例子 http numba pydata org numba doc 0 15 1 examples html multi threading http numba pydata org numba doc 0 15 1 ex
Spark 请求最大计数

我是 Spark 的初学者我尝试请求允许我检索最常访问的网页我的要求如下 mostPopularWebPageDF logDF groupBy webPage agg functions count webPage alias cntW
围绕 readline 构建的 python 批处理的触发器选项卡完成

背景我有一个 python 程序它导入并使用 readline 模块来构建自制的命令行界面我有第二个 python 程序围绕 Bottle 一个 Web 微框架构建充当该 CLI 的前端第二个 python 程序向第一个程序打开
如何在序列化器创建方法中获取 URL Id？

我有以下网址 url r member P
Python模块可以访问英语词典，包括单词的定义[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我正在寻找一个 python 模块它可以帮助我从英语词典中获取单词的定义当然有enchant 这可以帮助我检查该单词是否存在于英语中
Python逻辑运算符优先级[重复]

这个问题在这里已经有答案了哪个运算符优先4 gt 5 or 3 lt 4 and 9 gt 8 这会被评估为真还是假我知道该声明3 gt 4 or 2 lt 3 and 9 gt 10 显然应该评估为 false 但我不太确定 pyth
如何使用 Plotly 中的直方图将所有离群值分入一个分箱？

所以问题是我可以在 Plotly 中绘制直方图其中所有大于某个阈值的值都将被分组到一个箱中吗所需的输出但使用标准情节Histogram类我只能得到这个输出 import pandas as pd from plotly import
如何使用 imaplib 获取“消息 ID”

我尝试获取一个在操作期间不会更改的唯一 ID 我觉得UID不好所以我认为 Message ID 是正确的但我不知道如何获取它我只知道 imap fetch uid XXXX 有人有解决方案吗来自 IMAP 文档本身 IMAP4消息号
Argparse nargs="+" 正在吃位置参数

这是我的解析器配置的一小部分 parser add argument infile help The file to be imported type argparse FileType r default sys stdin parser
如何在 pytest 中将单元测试和集成测试分开

根据维基百科 https en wikipedia org wiki Unit testing Description和各种articles https techbeacon com devops 6 best practices inte
从零开始的 numpy 形状意味着什么

好的我发现数组的形状中可以包含 0 对于将 0 作为唯一维度的情况这对我来说是有意义的它是一个空数组 np zeros 0 但如果你有这样的情况 np zeros 0 100 让我很困惑为什么这么定义呢据我所知这只是表达空数组的
忽略 Mercurial hook 中的某些 Mercurial 命令

我有一个像这样的善变钩子 hooks pretxncommit myhook python path to file myhook 代码如下所示 def myhook ui repo kwargs do some stuff 但在我的例子中
使用 OLS 回归预测未来值（Python、StatsModels、Pandas）

我目前正在尝试在 Python 中实现 MLR 但不确定如何将我找到的系数应用于未来值 import pandas as pd import statsmodels formula api as sm import statsmodels
Python urllib.request.urlopen：AttributeError：'bytes'对象没有属性'data'

我正在使用 Python 3 并尝试连接到dstk 我收到错误urllib包裹我对SO进行了很多研究但找不到与这个问题类似的东西 api url self api base street2coordinates api body jso
从 python 发起 SSH 隧道时出现问题

目标是在卫星服务器和集中式注册数据库之间建立 n 个 ssh 隧道我已经在我的服务器之间设置了公钥身份验证因此它们只需直接登录而无需密码提示怎么办我试过帕拉米科它看起来不错但仅仅建立一个基本的隧道就变得相当复杂尽管代码示例将受
首先对列表中最长的项目进行排序

我正在使用 lambda 来修改排序的行为 sorted list key lambda item item lower len item 对包含元素的列表进行排序A1 A2 A3 A B1 B2 B3 B 结果是A A1 A2 A3 B
Pandas 根据 diff 列形成簇

我正在尝试使用 Pandas 根据表示时间以秒为单位的列中的差异来消除数据框中的一些接近重复项例如 import pandas as pd numpy as np df pd DataFrame 1200 1201 1233 1555
将 2D NumPy 数组按元素相乘并求和

我想知道是否有一种更快的方法专用 NumPy 函数来执行 2D NumPy 数组的元素乘法然后对所有元素求和我目前使用np sum np multiply A B 其中 A B 是相同维度的 NumPy 数组m x n 您可以使用np
如何为每个屏幕添加自己的 .py 和 .kv 文件？

我想为每个屏幕都有一个单独的 py 和 kv 文件应通过 main py main kv 中的 ScreenManager 选择屏幕设计应从文件 screen X kv 加载类等应从文件 screen X py 加载 Screens
Ubuntu 上的 Python 2.7

我是 Python 新手正在 Linux 机器 Ubuntu 10 10 上工作它正在运行 python 2 6 但我想运行 2 7 因为它有我想使用的功能有人敦促我不要安装 2 7 并将其设置为我的默认 python 我的问题是如

随机推荐

吸水间最低动水位标高_对《消水规》关于消防水池最低有效水位确定的理解

消防水池是人工建造的供固定式或移动式消防水泵吸水的储水设施根据消防给水及消火栓系统技术规范 GB 50974 2014第4 3 9条规定消防水池的出水管应保证消防水池的有效容积能全部被利用消防水池的有效水深是设计最高水位至消防水池最
[1175]hive函数greatest、least多列取最大最小值

文章目录 greatest函数 least函数用多了 max min 今天刚好遇到了需要取连续6年中营收最大的逻辑 6列 greatest函数取多列最大值 select greatest 99 0 73 73 存在 null 或者字符串
ld.exe: cannot find -l?eclipse上用C/C++时，如何链接静态库？

对g 和静态库不熟悉的人可能会搞不清楚问题所在因为我自己在网上很久找不到直接的解决方案为了方便各大g 初学者学习我将我的犯错经历和解决办法写在这里节约时间可以直接看最后的结果犯错和解决经历学习socket的使用的时候想自己在
Canvas 原生实现图片涂抹打马赛克功能

先看效果上图是一段打码过后的代码截图简单说一下实现思路就是通过创建多个canvas 一个用来绘制原图一个用来绘制全马赛克图一个用来绘制笔迹或者叫打码的区域最后一个canvas用来将三个canvas绘制到一个canvas之上主要
关于解决IDEA中git的commit无效的解决方法

关于解决IDEA中git的commit无效的解决方法在开发中我们偶尔会遇到点击idea中commit无效的情况点击完commit后进度条一闪而过缺没有将代码提交上去下面是本人总结的几种方法一重启IDEA 重启大法俗话说的好重
算法与数据结构技术书籍从入门到进阶推荐适合大神小白附技术书阅读方法论【附网盘链接】

转载自某大佬博客 https pymlovelyq github io 2018 10 06 Algorithm 前言技术书阅读方法论一速读一遍最好在1 2天内完成人的大脑记忆力有限在一天内快速看完一本书会在大脑里留下深刻印象
ubuntu安装英伟达显卡驱动

文章目录 1 通过PPA安装 2 手动安装 3 通过ubuntu官方方法安装 4 相关命令 1 通过PPA安装 1 卸载系统里低版本的英伟达驱动 sudo apt get purge nvidia 2 把显卡驱动加入PPA sudo add
redis 五种数据类型的底层数据结构

为了拿捏 Redis 数据结构我画了 40 张图完整版 Redis 数据结构并不是指 String 字符串对象 List 列表对象 Hash 哈希对象 Set 集合对象和 Zset 有序集合对象因为这些是 Redis 键值对
Docker安装RabbitMQ

1 首先确保自己的虚拟机安装了Docker环境可以通过docker v 查看自己的docker是否安装了 docker v Docker未安装可以通过下面的教程安装Docker CentOS7安装Docker教程 2 通过命令安装Rabb
现代文翻译成古文_把现代文翻译成古文诗词,太雅致了!

1 今文身不由己古译向来心是看客心奈何人是剧中人 2 今文我们越来越陌生了古译相達何必曾相识再看君卿已陌路 3 今文我也不想你你也就别想我了古译我断不思量你莫思量我 4 今文物是人非我们回不去了古译柳絮随风各西
关于计算机视觉中的深度信息概念

引用 https blog csdn net a1059682127 article details 80503378 https www zhihu com question 406919125 answer 1338670936 单独使
kettle抽取数据中文乱码

kettle如何解决也有一两篇谈到在建数据库连接时加characterEncoding来解决在kettle中数据链接中添加属性数据源和目标都要添加
使用Vue创建一个商品展示首页

使用Vue创建项目实现一个商品展示首页在这篇博客中我们将使用Vue来创建一个简单的商品展示首页我们已经有一个后端API提供了商品信息接口地址为 http localhost 8080 api products 返回的数据格式是JSO
C++猜数字小游戏-通过循环实现

C 猜数字小游戏通过循环实现题目系统随机生成一个1到100之间的数字玩家进行猜测如果猜错提示玩家数字过大或过小如果猜对恭喜玩家胜利并且退出游戏每局游戏只能猜5次实现通过循环和if判断源码 include
基于SUSAN算法的边缘检测方法研究（Matlab代码实现）

个人主页研学社的博客欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 1 1 SUSAN算子原理 1 2 SUSAN边缘检测算法 2 运行结果 3 Ma
Temporary failure in name resolution

在启动nexus war包时出现以下提示错误 2016 05 04 13 50 12 ERROR main net sf ehcache Cache Unable to set localhost This prevents creatio
路径搜索问题

之前碰到的很多问题都可以归结为路径搜索问题就是求两点之间的路经 1 是否存在路径 2 求任意一条路径 3 求所有路径求是否有路径和任意一条路径的时候和正常遍历一样一个点被mark之后不再访问因为如果这个结点到终点有路径之前就应该
Word里如何打出带有上下横杠的大写字母i

换成新罗马就行了
Linux系统中关于/etc/rc.d/rc.local中部分命令不执行的问题

最近遇到了个奇怪的问题费了一番周折才最终解决在此给遇到类似问题的同学提供一条思路在Linux系统中我们有可能需要某些命令在系统启动的时候自动运行此时我们会想到利用文件 etc rc d rc local 按照正常逻辑只需要将相应的
通过关键字从百度中爬取相匹配图片，可以爬取多种也可以爬取一种图片

通过re requests urlib BeautifulSoup os模块实现从百度下载指定类别图片包含代码逐行解析 import re 进行http请求的第三方库 import requests from urllib import

通过关键字从百度中爬取相匹配图片，可以爬取多种也可以爬取一种图片

通过关键字从百度中爬取相匹配图片，可以爬取多种也可以爬取一种图片 的相关文章

随机推荐

热门标签

通过关键字从百度中爬取相匹配图片，可以爬取多种也可以爬取一种图片的相关文章