java小说目录提取_完整Java爬取起点小说网小说目录以及对应链接

2023-11-05

完整Java爬取起点小说网小说目录以及对应链接

(第一次使用markdown写，其中的排版很不好，望大家理解)

?? 因为最近有一个比赛的事情,故前期看了看黄大神的webmagic框架,无奈之时用时不会正则表达式的使用,临近交作品时间节点,突击看了看Java自带的一个框架,JSOUP框架，大概是三天就写好了这个小爬虫。具体如下：

?时间的安排：

周六看了一天jsoup文档

周日用Java的三大框架敲了一天打代码

周一课余时间内改了改其中的bug，周一晚上完美运行了

?下面说说具体的思路安排

采用传统项目的三大框架，层层相扣，具有很高的扩展性，对后期项目的改进很好，这三层分别是：

Entity层(实体层)

Dao层(数据访问层)

Service层(业务逻辑层)

?用到的工具分别是：

eclipse

Maven

Mysql

? Entity层定义需要爬到的一些属性，比如小说中的id、小说的章节以及章节名、小说各个章节的链接等等。

package xuf.entity;

public class NovelAttribute {

private String id; // id

private String FictionName; // 小说名

private String FictionChapter; // 小说章节以及章节名

private String FictionUrl; // 章节链接

public String getId() {

return id;

}

public void setId(String id) {

this.id = id;

}

public String getFictionName() {

return FictionName;

}

public void setFictionName(String fictionName) {

FictionName = fictionName;

}

public String getFictionChapter() {

return FictionChapter;

}

public void setFictionChapter(String fictionChapter) {

FictionChapter = fictionChapter;

}

public String getFictionUrl() {

return FictionUrl;

}

public void setFictionUrl(String fictionUrl) {

FictionUrl = fictionUrl;

}

public String toString() {

return "NovelAttribute [id=" + id + ",FictionName=" + FictionName + ", FictionChapter=" + FictionChapter + ","

+ " FictionUrl=" + FictionUrl + "]";

}

? dao层则是一些数据处理的内容，通过dao层将数据持久化到mysql数据库中．

package xuf.dao;

import java.sql.Connection;

import java.sql.DriverManager;

import java.sql.PreparedStatement;

import java.sql.ResultSet;

import java.sql.SQLException;

import java.util.List;

//封装数据持久化类

public class NovelDao {

public static final String driver_class = "com.mysql.jdbc.Driver";

public static final String driver_url = "jdbc:mysql://127.0.0.1/tarantula?useunicode=true&characterEncoding=utf8";

public static final String user = "root";

public static final String password = "root";

private static Connection conn = null;

private PreparedStatement pst = null;

private ResultSet rst = null;

/**

* Connection

public NovelDao() {

try {

conn = NovelDao.getConnInstance();

} catch (Exception e) {

e.printStackTrace();

}

/**

* 单例模式线程同步

private static synchronized Connection getConnInstance() {

if (conn == null) {

try {

Class.forName(driver_class);

conn = DriverManager.getConnection(driver_url, user, password);

} catch (ClassNotFoundException e) {

e.printStackTrace();

} catch (SQLException e) {

e.printStackTrace();

}

System.out.println("连接数据库成功");

}

return conn;

}

/**

* close

public void close() {

try {

if (conn != null) {

NovelDao.conn.close();

}

if (pst != null) {

this.pst.close();

}

if (rst != null) {

this.rst.close();

}

System.out.println("关闭数据库成功");

} catch (SQLException e) {

e.printStackTrace();

}

/**

* query

public ResultSet executeQuery(String sql, List sqlValues) {

try {

pst = conn.prepareStatement(sql);

if (sqlValues != null && sqlValues.size() > 0) {

setSqlValues(pst, sqlValues);

}

rst = pst.executeQuery();

} catch (SQLException e) {

e.printStackTrace();

}

return rst;

}

/**

* update

public int executeUpdate(String sql, List sqlValues) {

int result = -1;

try {

pst = conn.prepareStatement(sql);

if (sqlValues != null && sqlValues.size() > 0) {

setSqlValues(pst, sqlValues);

}

result = pst.executeUpdate();

} catch (SQLException e) {

e.printStackTrace();

}

return result;

}

/**

* sql set value

private void setSqlValues(PreparedStatement pst, List sqlValues) {

for (int i = 0; i < sqlValues.size(); i++) {

try {

pst.setObject(i + 1, sqlValues.get(i));

} catch (SQLException e) {

e.printStackTrace();

}

?Service层则是对涉及到的业务逻辑的封装。保存以及处理爬取到的需要的内容。service层包括两个类，分别是：

INovel类:

package xuf.service;

import xuf.entity.NovelAttribute;

public interface INovel {

public int SaveAttribute(NovelAttribute attribute);

}

NovelImpl类:

package xuf.service;

import java.util.ArrayList;

import java.util.List;

import xuf.dao.NovelDao;

import xuf.entity.NovelAttribute;

public class NovelImpl implements INovel {

public int SaveAttribute(NovelAttribute attribute) {

NovelDao novelDao = new NovelDao();

StringBuffer sql = new StringBuffer();

sql.append("insert into novel (`id`,`FictionName`,`FictionChapter`,`FictionUrl`)")

.append("VALUES (? , ? , ? , ?)");

List sqlValues = new ArrayList();

sqlValues.add(attribute.getId());

sqlValues.add("" + attribute.getFictionName());

sqlValues.add("" + attribute.getFictionChapter());

sqlValues.add("" + attribute.getFictionUrl());

int result = novelDao.executeUpdate(sql.toString(), sqlValues);

return result;

}

? 最后还得有一个主函数来启动整个爬虫。

package xuf.main;

import java.util.Date;

import org.jsoup.Jsoup;

import org.jsoup.nodes.Document;

import org.jsoup.nodes.Element;

import org.jsoup.select.Elements;

import xuf.entity.NovelAttribute;

import xuf.service.INovel;

import xuf.service.NovelImpl;

public class SpiderNovel {

public static void main(String[] args) {

// 数据持久化对象，用于将信息存入数据库

INovel iNovel = new NovelImpl();

Long startTime, endTime;

System.out.println("小爬虫开始了。。。。。。。。。。。");

startTime = new Date().getTime();

Document document;

try {

document = Jsoup.connect("http://book.qidian.com/info/1006141474#Catalog").get();

//document = Jsoup.connect("http://book.qidian.com/info/1006693964#Catalog").get();

NovelAttribute novelAttribute = new NovelAttribute();

String fictionName = document.select("h1>em").text();

novelAttribute.setFictionName(fictionName);

Elements results = document.select("a[data-cid]");

for (Element e : results) {

String fictionChapter = e.text();

String fictionUrl = e.attr("abs:href");

novelAttribute.setFictionUrl(fictionUrl);

novelAttribute.setFictionChapter(fictionChapter);

iNovel.SaveAttribute(novelAttribute);

}

} catch (Exception e) {

e.printStackTrace();

}

endTime = new Date().getTime();

System.out.println("小爬虫结束了，用时" + (endTime - startTime) + "ms");

}

?最后给出爬到的数据库截图：

?完美的一次项目。最短时间，从接触到写出来，只要了三天时间，事实证明，一件事情，只要你想去做，完全是可以做出来的。这个项目还有一个不足的就是爬取的目标网址被写在代码里面写死了，不具有灵活性。最好是将这个部分的代码写在页面里面，然后通过dao层来处理页面输入的url。

完整Java爬取起点小说网小说目录以及对应链接相关教程

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

java小说目录提取

java小说目录提取_完整Java爬取起点小说网小说目录以及对应链接的相关文章

cmake安装更新（解决cmake报错：CMake 3.8 or higher is required. You are running version 3.5.1）

ubuntu16 04在安装libfreenect过程中出现cmake报错 CMake 3 8 or higher is required You are running version 3 5 1 cmake3 5 1是在安装ubunt
Linux查看用户UID和所属组

使用以下命令查看 id 用户名如省略用户名代表查看当前用户的
SQL注入1——显注（重学）

SQL注入学习自文章 201 A3 SQL注入上视频农夫安全201 A3 sql注入技巧上2 SQL注入 SQL注入前言一显注 1 判断 2 判断字段数量 3 获取数据库信息 4 获取表信息 5 获取列信息 6 获取表信息
配置虚拟机，查看主机cpu个数

打开任务管理器性能资源监视器 CPU 即可查看根据自身cpu个数不同分配虚拟机处理器个数我这里是有8个cpu
LeetCode 高级 - 矩阵中的最长递增路径

矩阵中的最长递增路径给定一个整数矩阵找出最长递增路径的长度对于每个单元格你可以往上下左右四个方向移动你不能在对角线方向上移动或移动到边界外即不允许环绕示例 1 输入 nums 9 9 4 6 6 8 2 1 1 输出 4
Idea+git push时候出现HTTP 413 错误

Delta compression using up to 4 threads Compressing objects 100 2364 2364 done Writing objects 100 4329 4329 1 15 MiB 11
【java】计算员工工资

案例介绍任务描述某公司有多个部门员工信息包含姓名 name 类型 type 部门 department 和底薪 basicSalary 其中员工的类型有三种管理员销售员和工人公司财务部门工作人员每月要计算员工的实发工资实发工资
Windows端高仿超级逼真Mac系统方法

简介 MyDock是一款完全免费的高仿Mac桌面的主题软件软件仿造Mac系统桌面高达95 以上的相似度不管是主题样式界面功能操作方式都达到了仿造Mac系统的效果 Mac系统有的功能这里基本上都有如Dock图标的鱼眼放大效果
idea显示连接https://start.spring.io连接问题

表示尴尬 jar包没有打出来还给我弄了个错误用spring initializr方式创建一个spring boot项目给我来个当时就懵逼了在网上看到说吧https改成http 看了好几种方式但对我有用的是在idea里的settin
flex写Java词法分析_如何用flex+bison写语法分析器

背景这个星期项目中要使用C 或C语言解析JSON格式的数据把解析的结果放到一个通用的数据结构这个通用的数据结构实际上是作为web服务层这一层大家可以认为是类似于PHP服务器或webpy的服务器容器到web页面层这一层是语法类
Java使用list集合remove需要注意的事项

在实际开发中有时候会碰到这样的场景需要将一个list集合中的某些特定的元素给删除掉这个时候用可以用List提供的remove方法来实现需求 List中的remove方法传入的参数可以是集合的下标也可以是集合中一个元素也可以是一个集合
我的专业我做主ppt计算机,我的专业我做主(会计专业入门知识).ppt

我的专业我做主会计专业入门知识 ppt 由会员分享可在线阅读更多相关我的专业我做主会计专业入门知识 ppt 13页珍藏版请在装配图网上搜索 1 会计学原理姓名池泽周学院经济管理学院班级会计092班会计学原理是会计学
对于制造业来说，MES上线前后有哪些变化？

对于制造业来说 MES软件系统未上线前的现状具体如下 1 目前制造业产品的批次记录仍然是手工录入并且每批都需要去打印除此之外生产过程中的投料量计算结果产品测试的申请单月生产计划表产品所需浓度的计算都需要人工填写不仅需要耗费
python包管理-pip

镜像列表官方已默认添加豆瓣清华大学中国科技大学阿里网易镜像腾讯镜像华为镜像北京外国语大学哈尔滨工业大学百度 https pypi python org simple http pypi doubanio com si
基于爱奇艺HCDN视频分发网络的开放缓存

为通过Internet向海量用户传输高清晰度高码率的视频节目爱奇艺融合CDN和P2P技术开发出一套适合多终端的混合分发传输网络 HCDN 本文来自爱奇艺高级技术总监庹虎在LiveVideoStackCon 2018大会中的演讲由Li
CTF-8 靶场夺旗

兵无常势水无常形能因敌而致胜者谓之神环境准备 VMware Workstation Pro12 Kali Linux IP 10 10 16 128 CTF 8 虚拟机 NAT 网络连接 1 主机发现 fping asg 10 10
ubuntu10上安装万能五笔

我听同事说ubuntu上运行eclipse会比window上快我抱着好奇就安装了ubuntu来试玩玩安装完毕上网找资料的时候发现我需要中文输入尤其是五笔后来返回到window上上网搜索找到了些资料知道如何通过ibus来使用拼
java泛型里能放多个类吗,具有多个类的Java泛型通配符

小编典典实际上你可以做你想做的事如果要提供多个接口或一个类加接口则必须使通配符看起来像这样请参见sun com上的泛型教程特别是页面底部的绑定类型参数部分实际上如果需要你可以列出多个接口并 InterfaceName
Spring Boot 3.0学习笔记

什么是Spring Boot Spring Boot是一个基于Spring Framework的快速开发Web应用的工具它使用了约定优于配置的方式来快速构建应用使得开发人员能够专注于业务逻辑的实现而不用过多关注配置和框架集成问题 Sp

随机推荐

iostat 工具分析I/O性能

iostat命令用途主要用于监控系统设备的IO负载情况 iostat首次运行时显示自系统启动开始的各项统计信息之后运行iostat将显示自上次运行该命令以后的统计信息用户可以通过指定统计的次数和时间来获得所需的统计信息 iostat有
若依框架密码验证环节修改（三方登录时改为跳过密码验证，但正常登录保留密码验证）

当用到三方登录时例如微信登录等没法验证密码又找不到若依密码的解密方式套用此方法跳过密码验证并且为可选的想让哪个方法登录时要密码或者不要写上即可我使用的是若依不分离版但参考自官方文档大差不差具体见个人情况参考地址若
【学习笔记】数据获取之爬虫笔记

概述疫情期间在风变编程 https www pypypy cn 上学习了爬虫的相关知识风变编程是一个交互式学习网站目前开的模块还不是很多但是交互式在线教学实验的形式还是十分有趣交互式的形式教一个读书顺序督催一行一行读书告诉什么时
网页唤起QQ在线聊天

免费版详见 https shang qq com v3 widget html 示例 a href http wpa qq com msgrd v 3 uin 1078363295 site qq menu yes 在线客服 a 目前还能
【华师】C++简答题汇总

简答题斜体和代码块都是了解即可面向对象四大特征封装抽象继承多态对象客观世界中的任何一个事物都可以视作一个对象任何一个对象都己有两个要素属性和行为属性是对象本身的性质而行为是对象的功能 C 中每个对象都是由数据和函数组
unity 项目强制退出通知服务器,MonoBehaviour.OnApplicationQuit() 当应用程序退出 - Unity5 中文 API 手册...

Description 描述 Sent to all game objects before the application is quit 在应用退出之前发送给所有的游戏物体 In the editor this is called wh
FTP实现文件夹上传

package com supcon orchid ChuanHuaCostom util import java io BufferedInputStream import java io BufferedOutputStream imp
TCP实现客户端和服务器端连接、文件上传，UDP发送消息、实现多线程在线咨询

TCP实现客户端和服务器端连接客户端连接服务器Socket 发送消息 import java io IOException import java io OutputStream import java net InetAddress
python面对对象编程

什么是面对对象编程程序设定的范式面对对象编程可以是代码程序更加的可控更加让人理解面对对象编程就是把现实世界变得抽象并建立起对象模型程序就是不同对象之间相互调用的逻辑例人动物车这些都是现实世界的东西那就可以在这段代码中抽象出
UVM-寄存器模型

目录 1 什么是寄存器 2 寄存器块 3 UVM寄存器模型 3 1 期望值 3 2 镜像值 3 3 创建寄存器类 3 4 定义寄存器块 3 5 寄存器env 4 完整例子 4 1设计 4 2 interface 4 3 寄存器 4 4 寄存
vscode不能选择python解释器

command python select interpreter resulted in an error 解决方法会看到左下角会有restricted mode这几个字然后点这几个字再选择Trust就可以了
计算机网络（自顶向下）学习笔记——网络层

第四章网络层 4 1 概述转发功能和路由选择功能的区别转发涉及在单个的路由中从一条入链路到一条出链路的传送路由选择涉及一个网络的所有路由器他们经路由选择协议共同交互决定分组从源到目地结点所采用的的路径 4 1 1 转发和路由选择
springmvc的常用注解

1 RequestParam 1 作用在方法传递的参数前用于接收所传参数是springmvc中接受普通参数的注解 2 属性 value 请求参数中的名称 required 请求参数中是否提供此参数默认为true defaultValu
HTTPS 安全原理建立安全连接经过5次握手 SSL(Secure Socket Layer)/TLS(Transport Layer Security)

文章目录安全通信的几个方面机密性报文完整性端点鉴别 SSL Secure Socket Layer TLS Transport Layer Security SSL的加密过程握手密钥导出数据传输 SSL记录格式 HTTPS建立
vue+element 在table 中使用vue-qrcode动态生成二维码

安装 npm install xkeshi vue qrcode save 在需要的页面中引入 import QRcode from xkeshi vue qrcode components qrcode QRcode 在el table中
strcmp(const char *s1,const char * s2)比较字符串s1和s2函数

原型 extern int strcmp const char s1 const char s2 所在头文件 string h 功能比较字符串s1和s2 一般形式 strcmp 字符串1 字符串2 说明当s1
word2vec的词向量&&神经网络的embedding层的关系

自己之前学习了一波word2vec的词向量神经网络的embedding 关于这2者的原理和实践可以参看我之前的博客利用神经网络的embedding层处理类别特征一理解word2vec 原理篇二理解word2vec 实践篇这篇
seaborn可视化统计关系/散点图/折线图

While you should make use of the flexibility afforded by scatterplot and relplot always try to keep in mind that several
ubuntu16.04 安装ros kinetic(orbslam_semantic_nav_ros依赖库3)

参考 https blog csdn net weixin 42623382 article details 106251330 使用中科大的源 sudo sh c etc lsb release echo deb https mirror
java小说目录提取_完整Java爬取起点小说网小说目录以及对应链接

完整Java爬取起点小说网小说目录以及对应链接完整Java爬取起点小说网小说目录以及对应链接第一次使用markdown写其中的排版很不好望大家理解因为最近有一个比赛的事情故前期看了看黄大神的webmagic框架无奈之时用时不会

java小说目录提取_完整Java爬取起点小说网小说目录以及对应链接

java小说目录提取_完整Java爬取起点小说网小说目录以及对应链接 的相关文章

随机推荐

热门标签

java小说目录提取_完整Java爬取起点小说网小说目录以及对应链接的相关文章