wallhaven.cc网站图片超清壁纸爬虫

2023-11-10

测试时间:2021-02-16

- 1.参考博客
- 2.python代码

1.参考博客

From（侵删）：
https://blog.csdn.net/qq_41849471/article/details/89607706

2.python代码

图片保存路径：
save_dir = ‘C:/Users/Administrator/Pictures/wallpaper/’
缩略图

pycharm直接运行即可下载到该目录，其他参数可参考上述博客。

import requests
from lxml import etree
import re
import os
import time

def get_pictures(url,folder_name,dest_count,c):
    html = requests.get(url)
    res = etree.HTML(html.content)
    img_url = res.xpath('//img[@id="wallpaper"]/@src')[0]
    img_name = img_url.split('/')[-1]
    try:
        img_html = requests.get(img_url)
        save_dir = 'C:/Users/Administrator/Pictures/wallpaper/' + folder_name
        if not os.path.exists(save_dir):
            os.mkdir(save_dir)
        
        with open(save_dir +'/'+img_name,'wb') as f:
            f.write(img_html.content)
        print("正在下载第 {} 张图片=====> ".format(c+1)+img_name+' -----success!')
        return 1
    except:
        print("正在下载第 {} 张图片=====> ".format(c+1)+img_name+' -----failure!')
        return 0


def get_next_url(url,folder_name,stars_num,dest_count,all):
    html = requests.get(url)
    res = etree.HTML(html.content)
    next_urls = res.xpath("//a[@class='preview']/@href")
    stars = res.xpath("//div[@class='thumb-info']/a[1]/text()")
    res_url = []
    sum = all
    for i in range(0,len(stars)):
        if int(stars[i])>=int(stars_num):
            res_url.append(next_urls[i])
    for i in res_url:
        sum += get_pictures(i,folder_name,dest_count,sum)
        if sum >= dest_count:
            exit("目标已达成！")
    if len(next_urls) == 0:
        print("无更多图片！")
        time.sleep(3)
        exit("0")
    return sum

if __name__ == "__main__":
    print("请选择获取方式：1.范围选择 2.关键词搜索 3.二者结合")
    # style = input()
    style = '1'
    categories = ['0','0','0']
    purity = ['0','0','0']
    url = ""
    keyword = ""
    sort_list = [
                 # 'https://wallhaven.cc/search?categories=101&purity=110&atleast=2560x1080&topRange=1M&sorting=toplist&order=desc&page={}',
                'https://wallhaven.cc/search?categories={}&purity={}&atleast=2560x1080&ratios=16x9&topRange=1M&sorting=toplist&order=desc&page={}'
                # ,'https://wallhaven.cc/search?q={}&categories={}&purity={}&sorting=date_added&order=desc&page={}'
        #, 'https://alpha.wallhaven.cc/search?q={}&categories={}&purity={}&resolutions=1920x1080&topRange=1M&sorting=toplist&order=desc&page={}',
        # 'https://alpha.wallhaven.cc/search?q={}&categories={}&purity={}&resolutions=1920x1080&sorting=random&order=desc&page={}',
        # 'https://alpha.wallhaven.cc/search?q={}&search_image=&page={}'
                 ]
    if style == '1' or style == '3':
        if style == '3':
            print("请输入搜索关键词(建议英文)：")
            keyword = input().replace(' ','+')
        print("请选择图片类型：1.General 2.Anime 3.People (可多选,默认全选,空格分割选项)")
        # selection_str = input()
        selection_str = ''
        selection = selection_str.split()
        for i in selection:
            try:
                categories[int(i)-1] = '1'
            except:
                categories = ['1','1','1']

        print("图片附加选项：1.SFW 2.Sketchy (可多选，默认选择1，空格分隔选项，建议选择SFW)")
        # selection_str = input()
        selection_str = ''
        selection = selection_str.split()
        
        for i in selection:
            try:
                purity[int(i)-1] = '1'
            except:
                purity = ['1','0','0']
            purity[2] = '0'
        if selection_str == "":
            purity = ['1','1','0']

        print("请选择排序方式：1.Latest 2.Toplist 3.Random (单选，默认Random)")
        # selection_str = input()
        selection_str = '2'
        count = 1
        while selection_str != '1' and selection_str != '2' and selection_str != '3' and count <= 3 and selection_str != "":
            print("请正确选择(多次错误则默认选择)")
            selection_str = input()
            count += 1
        if count == 4:
            url = sort_list[2]
        elif selection_str == "":
            url = sort_list[2]
        else:
            # url = sort_list[int(selection_str)-1]
            url = sort_list[0]
    elif style == '2':
        print("请输入搜索关键词(建议英文)：")
        keyword = input().replace(' ','+')
        url = sort_list[3]

    print("请输入文件夹的名称：")
    # folder_name = input()
    folder_name = 'wallhaven_wallpaper'
    while folder_name == "":
        folder_name = input()

    print("请输入最低的点赞数：")
    # stars_num = input()
    stars_num = 20

    print("请输入目标图片数量：")
    # dest_count = input()
    dest_count = 200

    all = 1 # 目前爬取的张数，用来控制下载张数

    for i in range(1,999):
        print('get the page: {}'.format(i))
        if style != '2':
            # print("getting from " + url.format(keyword,"".join(categories),"".join(purity),i))
            print("getting from " + url.format("".join(categories),"".join(purity),i))
            # all = get_next_url(url.format(keyword,"".join(categories),"".join(purity),i),folder_name,stars_num,int(dest_count),all)
            all = get_next_url(url.format("".join(categories),"".join(purity),i),folder_name,stars_num,int(dest_count),all)
        else:
            print("getting from " + url.format(keyword,i))
            all = get_next_url(url.format(keyword,i),folder_name,stars_num,int(dest_count),all)```

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

编程

python

算法

wallhaven.cc网站图片超清壁纸爬虫的相关文章

如何删除django中级联的一对一相关模型？

背景我在 Django 1 8 5 中定义了以下模型 class PublishInfo models Model pass class Book models Model info models OneToOneField Publis
如何将base64字符串直接解码为二进制音频格式

音频文件通过 API 发送给我们该文件是 Base64 编码的 PCM 格式我需要将其转换为 PCM 然后再转换为 WAV 进行处理我能够使用以下代码解码 gt 保存到 pcm gt 从 pcm 读取 gt 保存为 wav decod
JavaScript 相当于 Python 的参数化 string.format() 函数

这是 Python 示例 gt gt gt Coordinates latitude longitude format latitude 37 24N longitude 115 81W Coordinates 37 24N 115 81W
Python在postgresql表中查找带有单引号符号的字符串

我需要从 psql 表中查找包含多个单引号的字符串我当前的解决方案是将单引号替换为双单引号如下所示 sql query f SELECT exists SELECT 1 FROM table name WHERE my column m
TF map_fn 或 while_loop 用于不同形状的张量列表

我想处理不同形状的张量序列列表并输出另一个张量列表考虑每个时间戳上具有不同隐藏状态大小的 RNN 就像是输入 tf ones 1 2 2 tf ones 2 2 3 tf ones 3 2 1 输出 tf zeros 1 2 4 t
登录网站并使用 python 请求下载文件

我有一个带有 HTML 表单的网站登录后它会将我带到 start php 站点然后将我重定向到overview php 我想从该服务器下载文件当我单击 ZIP 文件的下载链接时链接后面的地址是 getimage php path
如何将 self 传递给装饰器？

我该如何通过self key下面进入装饰器 class CacheMix object def init self args kwargs super CacheMix self init args kwargs key func Cons
WindowsError：[错误 126] 使用 ctypes 加载操作系统时

python代码无法在Windows 7平台上运行 def libSO lib ctypes cdll LoadLibrary ConsoleApplication2 so lib cfoo2 1 3 当我尝试运行它时得到来自python
Apache Spark 中的高效字符串匹配

我使用 OCR 工具从屏幕截图中提取文本每个大约 1 5 句话然而当手动验证提取的文本时我注意到时不时会出现一些错误鉴于文本你好我真的很喜欢 Spark 我注意到 1 像 I 和 l 这样的字母被替换 2 表情符号未被正确提
PySide6.1 与 matplotlib 3.4 不兼容

当我只安装PySide6时 GUI程序运行良好但是一旦我安装了matplotlib及其依赖包包括pyqt5 则GUI程序将无法运行并输出以下错误消息 This application failed to start because no
`list()` 被认为是一个函数吗？

list显然是内置类型 https docs python org 3 library stdtypes html list在Python中我看到底下有一条评论this https stackoverflow com a 53645813
如何使用 Django 项目设置 SQLite？

我已阅读 Django 文档仅供参考 https docs djangoproject com en 1 3 intro tutorial01 https docs djangoproject com en 1 3 intro tutor
如何使用 sys.path.append 在 Python 中导入文件？

我的桌面上有两个目录 DIR1 and DIR2其中包含以下文件 DIR1 file1 py DIR2 file2 py myfile txt 这些文件包含以下内容 file1 py import sys sys path append s
将文本注释到轴并对齐为圆

我正在尝试在轴上绘制文本并将该文本与圆对齐更准确地说有一些具有不同坐标 x y 的点位于该圆内并使用以下命令创建 ax scatter x y s 100 我想用圆圈连接并标记每个点 Cnameb 文本的坐标由 xp yp 定义因此
在 Sphinx 中，有没有办法在声明参数的同时记录参数？

我更喜欢在声明参数的同一行记录每个参数根据需要以便应用D R Y http en wikipedia org wiki Don t repeat yourself 如果我有这样的代码 def foo flab nickers a ser
解析根元素内元素之间的 XML 文本

我正在尝试用 Python 解析 XML 以下是 XML 结构的示例 a aaaa1 b bbbb b aaaa2 a
如何使用 Keras ImageDataGenerator 预测单个图像？

我已经训练 CNN 对图像进行 3 类分类在训练模型时我使用 keras 的 ImageDataGenerator 类对图像应用预处理功能并重新缩放它现在我的网络在测试集上训练得非常准确但我不知道如何在单图像预测上应用预处理功能如
是否可以将 pd.Series 分配给无序 pd.DataFrame 中的列而不映射到索引（即不重新排序值）？

在 Pandas 中创建或分配新列时我发现了一些意外的行为当我对 pd DataFrame 进行过滤或排序从而混合索引然后从 pd Series 创建新列时 Pandas 会重新排序该系列以映射到 DataFrame 索引例如 d
Python 通过从现有 csv 文件中过滤选定的行来写入新的 csv 文件

只是一个问题我试图将 csv 文件中的选定行写入新的 csv 文件但出现错误我试图读取的 test csv 文件是这样的两列 2013 9 1 2013 10 2 2013 11 3 2013 12 4 2014 1 5 2014
Python：高精度time.sleep

你能告诉我如何在 Win32 和 Linux 上的 Python 2 6 中获得高精度睡眠函数吗您可以在中使用浮点数sleep http docs python org library time html time sleep 该参数可以

随机推荐

计算机网络八股文

浏览器输入一个网站后具体发生了什么进行DNS解析操作根据DNS解析结果查找到服务器IP地址通过IP寻址找到服务器并利用三次握手建立TCP连接浏览器生成HTTP保温发送HTTP请求等待服务器响应服务器处理请求返回服务器根
高速USB 2.0的CMSIS-DAP调试器：CMSIS-DAP正确打开方式（3月18日更新速度和稳定性）

3月18日注修改USB最大包长度到1024 HS支持 USB初始化前增加等待100ms CMSIS DAP Debugger 是 ARM 发布的面向 Cortex 系列 MCU 的开源 Apache 2 0协议 JTAG 与 SWD 调试
解决github长期未登录，ssh keys过期的问题——git@github.com: Permission denied (publickey).

首先声明在我的PC端同时存在着github与gitlib的ssh keys 今天想看一个github上的项目发现git pull的时候又permission denied了如下图所示处理办法很简单只要把ssh key再加一遍就好了
用于python环境下的数据操作_写给非计算机相关专业的同学——从零开始如何用python处理数据（包括如何安装环境）...

文章目录 1 使用语言和包 1 2 pandas包的安装这里只是一个例子 2 要做的一个数据处理 2 1 数据处理的需求 2 2 代码实现 2 2 1 思路 2 2 2 读入原来的表 2 2 3 找到速度为零的所有记录 2 2 4 找到对
8、 Mac iTerm2 优化

Mac iTerm2 优化一悬浮窗口首先我们来解决第一个问题如何在任何界面呼入呼出 iTerm2 的窗口并且悬浮在界面的顶部相信每个人都会有这样的使用场景你正在全屏浏览器浏览网页或者正在全屏编辑器写代码写文章之类的突然想到
使用ansible中的playbook

1 Playbook 的功能 playbook 是由一个或多个 play 组成的列表 Playboot 文件使用 YAML 来写的 2 YAML 简介 YAML 是一种表达资料序列的格式类似XML Yet Another Markup L
MySQL修改密码的3种方式以及启动方式

在使用数据库时我们也许会遇到 MySQL 需要修改密码的情况比如密码太简单需要修改等本节主要介绍了 3 种修改 MySQL 数据库密码的方法使用 SET PASSWORD 命令步骤 1 输入命令mysql u root p指定 r
xp无法访问查找工作组计算机,一招教你搞定XP“网上邻居”、“查看工作组计算机”打不开的情况...

作者杜超 2号 ID 16058 城市江阴摘要一招教你搞定XP 网上邻居查看工作组计算机打不开的情况正文在一些被优化过的XP系统或刚安装好的系统中有时我们要访问局域网上的其他共享打印机或文件夹需要用到网上邻居可是
TCP协议疑难杂症全景解析

原文地址 http blog csdn net dog250 article details 6612496 说明 1 本文以TCP的发展历程解析容易引起混淆误会的方方面面 2 本文不会贴大量的源码大多数是以文字形式描述我相信文字看起
multiset和set，map和multimap的区别

一 set和multiset的差异和相同 set是一个集合容器其中所包含的元素是唯一的集合中的元素按一定的顺序排列元素插入过程是按排序规则插入所以不能指定插入位置 set采用红黑树变体的数据结构实现红黑树属于平衡二叉树在插入操作
查看GPU使用的最佳方式

1 watch n 1 nvidia smi 最有名没有之一 nvidia自带了一个nvidia smi的命令行工具会显示GPU使用情况作为监控 GPU 的工具就显得有点过于简陋了比如 Process name 栏只显示命令行的程序
Redis布隆过滤器详解

目录一前言二 RedisBloom 安装与使用三 RedisBloom 常用命令汇总四通过 Jedis 使用 RedisBloom 五 Redisson 封装的布隆过滤器六使用哪种方式的过滤器比较好一前言布隆过滤器 B
【数据结构与算法】时间复杂度与空间复杂度

目录一前言二时间复杂度 1 概念二大O的渐进表示法概念总结三常见时间复杂度计算举例例1 例2 例3 例4 例5 计算冒泡排序的时间复杂度例6 二分算法的时间复杂度例7 阶乘递归Fac的时间复杂度例8 斐波那契递归
js异步提交form表单之serialize()方法及FormData对象

serialize 和FormData对象都可将表单数据序列化后通过ajax异步提交但二者有实质区别 1 serialize serialize 是JQuery方法可序列化表单值创建 URL 编码文本字符串就是将表单数据以字符串的形
浏览器的工作原理

浏览器可以被认为是使用最广泛的软件本文将介绍浏览器的工作原理我们将看到从你在地址栏输入google com到你看到google主页过程中都发生了什么将讨论的浏览器今天有五种主流浏览器 IE Firefox Safari Chr
java.lang.UnsatisfiedLinkError: No implementation found for

E AndroidRuntime FATAL EXCEPTION main Process com example pimr PID 20314 java lang UnsatisfiedLinkError No implementatio
leecode刷题笔记-数组

数组题注意事项 1 切记while循环的循环条件一定要判断遍历长度是否越界且要先判断该条件否则就会报错例如 while j
50道编程小题目之【分解质因数】

题目将一个正整数分解质因数例如输入90 打印出90 233 5 python解题代码 ii int input 请输入一个正整数 jj 2 ii b ii fj while jj lt ii if ii jj 0 if ii jj f
linux下安装helm

我这里使用的系统是centos7 6 Helm是一个kubernetes应用的包管理工具用来管理charts 预先配置好的安装包资源有点类似于Ubuntu的 apt 和CentOS中的 yum 方式一使用官方提供的脚本一键安装点击查
wallhaven.cc网站图片超清壁纸爬虫

测试时间 2021 02 16 1 参考博客 2 python代码 1 参考博客 From 侵删 https blog csdn net qq 41849471 article details 89607706 2 python代码图片保

wallhaven.cc网站图片超清壁纸爬虫

测试时间:2021-02-16

1.参考博客

2.python代码

wallhaven.cc网站图片超清壁纸爬虫 的相关文章

随机推荐

热门标签

wallhaven.cc网站图片超清壁纸爬虫的相关文章