JSOUP爬取4K高清壁纸

2023-10-26

jsoup jar包 1.11.2

链接: https://pan.baidu.com/s/1pe3-r5_YB-pGEsosfRLbsA?pwd=41w5

提取码: 41w5

效果：
在这里插入图片描述

代码：

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import java.io.File;
import java.io.FileOutputStream;
import java.io.InputStream;
import java.net.URL;
import java.net.URLConnection;

public static void main(String[] args) {
try {

        String parentUrl = "XXXX"; 

        URL indexUrl = new URL("XXXX");

        Document indexHtml = Jsoup.parse(indexUrl, 10000);
        //获取分类节点
        Elements fenleis = indexHtml.getElementsByClass("classify clearfix");

        for (Element fenLei : fenleis) {
            Elements fenLeiA = fenLei.select("a");
            for (int i = 0; i < fenLeiA.size(); i++) {
                Element fenLeiA1 = fenLeiA.get(i);
                Elements a1 = fenLeiA1.select("a");
                String fenLeiHref = a1.select("a").attr("href");
                String fenLeiName = a1.select("a").attr("title");
                try {
                    //本地盘符
                    File file = new File("E:\\worm\\" + fenLeiName + "\\1.txt");
                    //创建文件夹
                    file.mkdirs();
                } catch (Exception e) {

                }

                //每个类别爬取10页
                for (int j = 1; j < 10; j++) {
                    URL fenLeiIndexUrl = new URL("https://xxxxxxx");
                    if (j != 1) {//第二页开始的url规则
                        fenLeiIndexUrl = new URL(parentUrl + fenLeiHref + "index_" + j + ".html");
                    } else {
                        fenLeiIndexUrl = new URL(parentUrl + fenLeiHref + "index.html");
                    }
                    Document doc = Jsoup.parse(fenLeiIndexUrl, 10000);
                    Elements clearfixList = doc.getElementsByClass("clearfix");
                    for (Element e : clearfixList) {
                        Elements lis = e.getElementsByTag("li");
                        for (Element li : lis) {
                            Elements a = li.select("a");
                            String href = a.select("a").attr("href");
                            URL url2 = new URL(parentUrl + href);
                            Document doc1 = Jsoup.parse(url2, 10000);
                            Elements img = doc1.getElementsByClass("photo-pic");
                            Element first = img.first();
                            Elements imgUrla = first.select("img");
                            String imgsrc = imgUrla.select("img").attr("src");
                            String title = imgUrla.select("img").attr("title");
                            title = title.replace(" ", "");
                             //文件名过滤
                            title = title.replaceAll("[*]", "");
                            title = title.replaceAll(" ", "");
                            title = title.replaceAll("[?]", "");
                            title = title.replaceAll("[|]", "");
                            download(parentUrl + imgsrc, fenLeiName, title);
                        }
                    }
                }
            }

        }


    } catch (Exception e) {
        e.printStackTrace();
    }

}

public static void download(String urlString, String dirsName, String imgName) throws Exception {

    // 构造URL

    URL url = new URL(urlString);

    // 打开连接

    URLConnection con = url.openConnection();

    // 输入流

    InputStream is = con.getInputStream();

    // 1K的数据缓冲

    byte[] bs = new byte[1024];

    // 读取到的数据长度

    int len;

    // 输出的文件流

    String filename = "E:\\worm\\" + dirsName + "\\" + imgName + ".jpg";  //下载路径及下载图片名称

    File file = new File(filename);

    FileOutputStream os = new FileOutputStream(file, true);

    // 开始读取

    while ((len = is.read(bs)) != -1) {

        os.write(bs, 0, len);

    }


    // 完毕，关闭所有链接

    os.close();

    is.close();

}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Java基础

Java

爬虫

JSOUP爬取4K高清壁纸的相关文章

Java中的整数除法[重复]

这个问题在这里已经有答案了这感觉像是一个愚蠢的问题但我在 Java 文档中找不到答案如果我声明两个 int 然后将它们相除到底发生了什么他们是否转换为floats doubles首先划分然后投射回integer 或者除法是作为
Java中printf左对齐

当我运行该程序时阶乘值右对齐有没有办法让它左对齐同时保持中间 50 个空格 public class Exercise 5 13 public static void main String args int numbers 1 2
具有多字符替换的字符串组合（产生返回Java的替代重写）[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案还有另一篇 Stack Overflow 帖子是为与车辆登记号相关的算法创建的根据输入的车牌例如ABC123 和列表替换值例如
如何在同一个项目中连接两个数据库MySQL和MongoDB？是否可以？

目前我正在使用 Hibernate MySQL 和 Spring 配置对我来说运行良好但是一旦我配置了另一个配置 mongo config xml 文件并尝试使用 mongodb 运行测试用例它就显示创建名为的 bean 时出错从第一
Java：使用类型参数访问私有构造函数

这是后续这个关于java私有构造函数的问题 https stackoverflow com questions 2599440 accessing the private constructor 假设我有以下课程 class Foo
将分区扩展到另一级

根据下图来自春季批量文档 http docs spring io spring batch reference html scalability html partitioning 主步骤被划分为六个从步骤它们是主步骤的相同副本我的问题
如何从属性中获取枚举值

我有一个带有值的枚举VALID and INVALID 它们有一个与之关联的布尔属性我想根据我提供的布尔值获取枚举值如果是true我应该得到VALID 如果是false我应该得到INVALID 我想根据成员变量的值在如下所示的 get
更新（合并）时缺少 Spring Data JPA 验证

我正在使用 Spring Boot 1 5 4 RELEASE 和 Spring Data JPA 进行项目遇到更新实体时未执行 Hibernate 验证器或至少在某些情况下未验证的问题 For Person如下所示禁止使用空名称并且
0x0A 和 0x0D 之间的区别

我正在研究蓝牙我试图编写代码以在连接时继续监听输入流我遇到了以下代码片段 int data mmInStream read if data 0x0A else if data 0x0D buffer new byte arr byte
有人使用 Hibernate 使用 Elasticache 作为二级缓存吗？

我发现一些线程说这是可行的但没有找到具体的说明或配置信息我也想从 Beanstalk 执行此操作应用程序应该部署到 beanstalk 并使用将 hibernate 指向 elasticache 实例的配置是的我们能够使用二级缓存
JPA Criteria API 任意数量的联接/子查询

我需要使用以下实体构建相交类型查询为了清楚起见减少了实体 Entity and other stuff public class Member Id private Long id private String name Entity
序列化/反序列化 LinkedHashMap (android) java

所以我想将 LinkedHashMap 传递给意图 SEND THE MAP Intent singlechannel new Intent getBaseContext singlechannel class singlechannel
使用 JSeperator - Java 时出现异常间隙

我一直在开发 Swing GUI 并在添加后出现一些不寻常和不需要的间隙JSeperator 知道如何删除它们吗或者任何其他选择来很好地实现这一目标视觉描述之前差距就很明显了JLabel 速度及之后JSlider 相关代码 cont
使用 Java 重新启动 Tomcat

我需要从 Java 代码重新启动 tomcat 例如如果某个查询在一段时间内没有执行那么它将自动重新启动 tomcat 我已经尝试了以下关闭和启动代码但是当我们关闭tomcat时 java代码将不会运行并且tomcat不会启动注意
如何在 Java 中以编程方式获取接口的所有实现的列表？

我可以通过反思或类似的方式来做到这一点吗我已经搜索了一段时间似乎有不同的方法这里总结一下反思 https github com ronmamo reflections如果您不介意添加依赖项该库非常受欢迎它看起来像这样 Refle
JToolBar 放回 GridBagLayout 时出现 IllegalArgumentException

为什么这段代码会抛出一个IllegalArgumentException当工具栏被拖离 GUI 然后关闭将其返回到 GUI 时我可以理解为什么在没有约束的情况下添加组件可能是不合适的但在这种情况下工具栏最初添加到面板使用GridB
Java 中的引用变量里面有什么？

我们知道对象引用变量保存表示访问对象的方式的位它不保存对象本身但保存诸如指针或地址之类的东西我正在阅读 Head First Java 第 2 版一书书中写道第 3 章第 54 页在 Java 中我们并不真正知道什么是在引用
使用 Java 8 时间将时间从一个时区转换为另一时区

我正在尝试将日期转换为GMT 5 30 to EST与java 8ZonedDateTime String inputDate 2015 04 30 13 00 DateTimeFormatter sourceFormatter DateT
在 WildFly 10 中添加 jar 作为部署

有没有办法我们可以将 jar 部署为库部署WildFly 10就像我们可以做到的那样weblogic服务器或者我们可以将 jar 放在服务器的任何文件夹中并将这些依赖项定义为provided 我得到了什么部署方式jars on Wil
如何使用 GWT 2.4 在服务器端动态创建 UI

我正在尝试使用 Google Web Toolkit v2 4 创建用户界面由于多种原因我需要在运行时指定服务器上接口的内容我的意思不仅仅是按钮需要动态标签等而是整个 UI 需要在运行时创建我的大部分 UI 都可以指定为直接的 H

随机推荐

使用R语言绘制散点图

文章目录学习目标学习内容内容小结学习目标我们所采用的学习内容来自B站的Lizongzhang老师的R语言的学习分享今天学习的主要内容是关于绘制散点图学习内容下面是学习的主要内容直接上代码大家可以查看视频我也的注释也比
求阶乘的三种方法

方法一递归算法 include
【手把手带你用pid算法控制电机】——（4）串级PID控制电机

前言 1 该系列教程是基于stm32f103c8t6最小系统板的hal库开发用最通俗易懂的方式手把手带你学会使用Pid算法的速度环位置环以及速度位置串级pid 2 出这一期Pid系列教程的想法是前段时间我参加了一个比赛要用到串级Pid
第1课：三位一体定位法，让写作事半功倍

做最懂技术的传播者最懂传播的工程师课程内容分析本课程的目标是通过对一系列问题的梳理找到适合自己的输出状态确定与理想输出状态之间存在的差距以及采取什么办法减少差距知识要点 1 受众需要什么省时间的内容收敛看过就走教你
Netty源码剖析之HashedWheelTimer时间轮

版本信息 JDK1 8 Netty all 4 1 38 Final 时间轮的介绍我们知道钟表分为很多块每时钟滴答一次就往前走一个块而时间轮就是使用这个思想如下图上图总共分为8块每过100ms就往前走一块然后周而复始此时我
HC32L130单片机入坑记

解决问题的思路经验就可提高工作效率 1 调试中遇到的问题及解决思路 1 程序debug过程中进入hardware default中断中无限循环解决办法运用断点定位到程序debug出错的具体位置程序最终执行的位置即为程序出错的位置
alook浏览器哪个好夸克浏览器_夸克（Quark）浏览器的安装和使用

前面的文章我们大概介绍了一下夸克浏览器的本片将着重将一下夸克浏览器的使用下载安装去夸克的官方网站下载安装包上传到手机进行安装去各大应用商店去下载安装比如小米手机的小米应用商店华为的华为应用商店或者第三方的豌豆荚等应用商店去
flex & bison 基础概述

1 前言限于作者能力水平本文可能存在谬误因此而给读者带来的损失作者不做任何承诺 2 本文目标简单介绍 flex 和 bison 的基础使用方法简要分析 flex bison 生成代码的工作流程 3 flex bison 3 1
超详细讲解 H5 移动端适配方案

目录 REM适配方案 1 前言 2 原理 3 适配代码 4 总结 vw适配方案 1 原理 2 适配代码 3 适配方案对比 1px问题 1 简述 2 代码测试总结 REM适配方案 1 前言设计师交付给前端开发一张宽度为750px的视觉稿
重新安装ROG Armoury Crate

文章目录使用官方卸载工具卸载奥创安装奥创更新奥创之后 Aura Sync 坏了无法调整灯光打开 Aura Creator 提示服务运行异常在任务管理器中随便禁用了几个奥创 Asus的服务后再次打开 Aura Creator 提
【人工智能】SVM 分类器的设计与应用（QDU）

人工智能 Astar算法求解8数码问题 QDU 人工智能利用搜索的博弈树算法编写一字棋游戏 QDU 人工智能 Fisher 线性分类器的设计与实现 QDU 人工智能感知器算法的设计实现 QDU 人工智能 SVM 分类器的设计与应用 Q
Linux中查看socket状态

Linux中查看socket状态 cat proc net sockstat 这个是ipv4的 sockets used 137 TCP inuse 49 orphan 0 tw 3272 alloc 52 mem 46UDP inuse
响应式布局（媒体查询+%）

总结核心思想每一个最外层盒子给一个max width 盒子中的内容width全部使用表示使用元素全部写在盒子里当媒体查询满足情况是display block 注意精确的是需要一样的媒体查询相当于if 过渡的动画写在默认样式里
读书笔记-看见未来：改变互联网世界的人们

作者余晨推荐序二未来从来不会自动地发生世界正在重新造物它既是虚拟意义上的又同时是实物意义上的宙斯在假眠而诸神则各逞其能时代曾经刊登过的一篇文章认为今天的个人计算机革命和互联网之所以成为这样乃是继承了20世纪60年代
LLVM汇编语言指导手册之指令手册

下面是我对llvm汇编中一些不常用的指令的总结 shl 指令语法
wazuh日志审计--定制规则

日志审计定制规则目录布局规则集文件夹结构如下所示在接收到agent传来的日志后 manager会根据 var ossec ruleset decoders里面的各种规则对日志进行处理提取到了指定字段的值之后再根据 var osse
物理这一块真不好搞，

研究了一段PHYSX 发现真是寸步难行英文文档也不是很详细哎没人带着的话还是不搞为好继续封装软引擎吧没法干了心里泼凉泼凉的哎咋弄呢看来只能当个兴趣爱好了或许用下游戏引擎看看有没有集成好的
TensorFlow 深度学习笔记 Stochastic Optimization

Stochastic Optimization 转载请注明作者梦里风林 Github工程地址 https github com ahangchen GDLnotes 欢迎star 有问题可以到Issue区讨论官方教程地址视频字幕下载
adb移植到Android平台使用

adb移植到Android平台使用 1 工具源码所需源码 openssl git clone https github com openssl openssl git zlib 1 2 8 git clone https github c
JSOUP爬取4K高清壁纸

jsoup jar包 1 11 2 链接 https pan baidu com s 1pe3 r5 YB pGEsosfRLbsA pwd 41w5 提取码 41w5 效果代码 import org jsoup Jsoup import

JSOUP爬取4K高清壁纸

JSOUP爬取4K高清壁纸 的相关文章

随机推荐

热门标签

JSOUP爬取4K高清壁纸的相关文章