java爬虫,提供链接直接爬取网页代码

2023-11-06

其实我只想要爬到整个网页的源代码的就好.通过java的一个包jsoup,就可以直接爬取了,后面有下载源代码(含jsoup包)的链接.

输入:网页链接

输出:网页源代码

代码比较简单,解析都在代码中:

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;

import java.io.FileOutputStream;

public class Main {

    public static void main(String[] args) {

        //在这里输入所有想要爬取的网址
        String[] urlPath = new String[]{
                "http://daily.zhihu.com/"
        };

        for (String anUrlPath : urlPath) {
            try {
                Document document = Jsoup.connect(anUrlPath)
                        .userAgent("Mozilla/4.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0)")
                        .get();
                //此时document.html()就是全部网页信息,如果想要让程序酷炫一些,可以把这些内容打印在控制台

                String pathname = anUrlPath;
                //将url作为文件名,下面是消除不能在文件名中出现的非法字符
                pathname = pathname.replace("http://", "");
                pathname = pathname.replace('/', ' ');
                pathname = pathname.replace('\\', ' ');
                pathname = pathname.replace(':', ' ');
                pathname = pathname.replace('<', ' ');
                pathname = pathname.replace('>', ' ');
                pathname = pathname.replace('|', ' ');
                pathname = pathname.replace(" ", "");
                pathname = pathname + ".txt";

                //将内容保存到本地
                FileOutputStream os = new FileOutputStream(pathname, true);
                //在文件的第一行写入爬取的网页的url,方便以后用程序自动处理时识别url
                os.write(anUrlPath.getBytes("utf-8"));
                os.write("\r\n".getBytes());
                os.write(document.html().getBytes("utf-8"));
            } catch (Exception e) {
                //如果出现比如 DNS解析失败,或是拒绝访问等报错,将它们写在exception.txt文件中,并且保证程序继续运行
                try {
                    FileOutputStream os = new FileOutputStream("exception.txt", true);
                    os.write(e.toString().getBytes("utf-8"));
                    os.write("\r\n".getBytes());
                    System.out.println(e);
                } catch (Exception e1) {
                    System.out.println(e1);
                }
            }
        }
    }
}

只需要在urlPath中输入想要爬取的网页链接,就可以直接运行了.我这里就跟风,用"知乎日报"的网址做栗子了.

之后在当前目录中会出现一个文件来保存网页源代码:daily.zhihu.com.txt,如果出现任何报错,都不会使程序中断,而且会将报错的信息保存在一个文件:exception.txt中.

得到了网站的源代码,就可以通过自定义的方式来提取网页中的信息了,之后如果有时间我还会写一个爬取整站代码的博客,到时候输入多个链接,保存成文件夹,把它的整站代码爬下来.

如果有兴趣,可以下载我的源码,连jsoup的包都包含在里面了:http://download.csdn.net/download/weixin_35757704/10013327

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Java

网络

爬虫

源代码

java爬虫,提供链接直接爬取网页代码的相关文章

尝试使用 Eclipse 启动 Glassfish 服务器时出现 org.apache.catalina.LifecycleException

我一直忙于使用 angularjs 前端构建一个 REST 应用程序使用 MAVEN jersey quickstart webapp 使用 GLASSFISH Web 服务器在 Eclipse 上开发今天当我开始对项目进行一些开发时
使用选项卡式活动中的捆绑包将值从活动传递到片段

我是一个java文盲但仍在尝试开发一个供我个人使用的应用程序我从 android studio 的 Tabbed Activity 开始除了 MainActivity 中的一个片段和一个包之外大部分没有改变这是我的代码主要活动
Android NumberPicker 带字符串

I have customised the NumberPicker to show text The output is this 当我按确定时我想将 e x 鼠标添加到我的列表文章中我得到的是索引值 int 它由 array
JAVA - 带有特殊字符的 LDAP 密码不起作用

我试图在我的系统上创建一个登录屏幕在 Active Directory 中进行查询但是当用户的密码包含一些特殊字符如和时它不会验证我需要加密密码才能工作吗我该怎么做我使用 getPassword 通过 JPasswordF
以编程方式将 PEM 证书导入 Java KeyStore

我有一个由两个文件 crt 和 key 组成的客户端证书我希望将其导入到 java KeyStore 中然后在 SSLContext 中使用以通过 Apache 的 HTTPClient 发送 HTTP 请求但是我似乎找不到一种以
从 eclipse 运行时 java.io.FileNotFoundException: (没有这样的文件或目录)

我正在写入文件并想要控制台输出 TODO Create a game engine and call the runGame method public static void main String args throws Excepti
如何解决错误：java.lang.ClassNotFoundException：io.netty.util.concurrent.GenericFutureListener？

昨天我第一次尝试用 Java 制作 Prometheus 客户端从 Python 开始最后是 GoLang 是否找到示例 import io prometheus client Counter import io prometheus
Java：检查给定日期是否在当前月份内

我需要检查给定的日期是否在当前月份我编写了以下代码但 IDE 提醒我getMonth https docs oracle com javase 7 docs api java util Date html getMonth and ge
如何在具有动态列的表中插入值 Jdbc/Mysql

我想在具有动态列的表中添加值我设法创建一个包含动态列的表但我不知道如何插入数据 Create Table sql CREATE TABLE MyDB myTable level INTEGER 255 int columnNumber
如何模拟一个方面

我目前正在使用aspectj 开发一些监控工具因为这个工具应该是技术独立的尽可能所以我没有使用 Spring 进行注入但我希望我的方面能够经过单元测试方面示例 Aspect public class ClassLoadAspect
会话 bean 中的 EntityManager 异常处理

我有一个托管无状态会话 bean 其中注入了 EntityManager em 我想做的是拥有一个具有唯一列的数据库表然后我运行一些尝试插入实体的算法但是如果实体存在它将更新它或跳过它我想要这样的东西 try em persist
Vertx HttpClient getNow 不工作

我的 vertx HttpClient 有问题下面的代码显示使用 vertx 和纯 java 测试 GET Vertx vertx Vertx vertx HttpClientOptions options new HttpClientO
您能让 Tomcat 6 stdout.log 文件表现得像 log4j DailyRollingFileAppender 吗？

我们使用的是 Tomcat 6 的 Windows 安装默认情况下我们应用程序的 log4j 输出将转到 catalina base logs stdout log 文件该日志文件仅在我们重新启动 Tomcat 时滚动并且文件名始终
Java中的DRY原则[关闭]

Closed 这个问题需要细节或清晰度 help closed questions 目前不接受答案我一直在读关于DRY https en wikipedia org wiki Don 27t repeat yourself原则虽然看起来
当容器大小更改时，JTable 仅调整选定列的大小

对于面板内的 JTable 如果面板变大我如何将额外的空间仅分配给某些列在我的例子中分配给最后一列尽管提供第 3 4 列和8 将获得额外的空间我想允许用户手动更改所有列的列大小我尝试了 table setAutoResizeM
为什么在尝试使用 Java 连接到 RDS PostgreSQL 数据库时会收到 SocketTimeoutException？

我有一个 Spring 应用程序我试图在 AWS 上托管几天来我一直在努力配置我有一个 EC2 实例并且能够通过 SSH 连接到它我还在 AWS 中设置了 Postgres RDS 数据库但我无法使用 IDE 中的代码连接到它
java中的比较器链

正在阅读Oracle 关于接口的 Java 教程 https docs oracle com javase tutorial java IandI createinterface html其中给出了一个例子Card 打牌我试图理解接口中的
Mule/码头设置

我有一个正在运行的 Mule 应用程序我想在其上设置 Jetty 来响应 http 请求以下配置
Android 中的字符串加密

我正在使用代码进行加密和加密它没有给出字符串结果字节数组未转换为字符串我几乎尝试了所有方法将字节数组转换为字符但没有给出结果 public class EncryptionTest extends Activity EditText
监控 Java 应用程序上的锁争用

我正在尝试创建一个小基准在 Groovy 中以显示几个同步方法上的高线程争用当监控自愿上下文切换时应该会出现高争用在 Linux 中这可以通过 pidstat 来实现程序如下 class Res private int n s

随机推荐

Qt 关闭窗口时循环依旧运行的解决办法

在Qt中经常碰到关闭窗口之后程序中的循环依旧运行查资料知道跟线程和进程有关系比较麻烦以后再慢慢看线程和进程知识今天想到一个比较偷懒的方法具体方法如下部分代码 1 在类中设立判断循环的标志 isLooopFlag 以及槽函数s
学习笔记-正则表达式

https www runoob com regexp regexp tutorial html 正则表达式re Regular Expression 是一种文本模式包括普通字符例如 a 到 z 之间的字母和特殊字符称为元字符可
CSerialPort教程4.3.x (1) - CSerialPort项目简介

CSerialPort教程4 3 x 1 CSerialPort项目简介前言 CSerialPort项目是一个基于C C 的轻量级开源跨平台串口类库可以轻松实现跨平台多操作系统的串口读写同时还支持C Java Python Node
npm yarn pnpm命令

命令对比命令 npm yarn pnpm 安装 install add add 安装到dependencies save 默认默认安装到devDependencies D save dev D dev D save dev 安装到op
OpenCV-Python快速入门（十四）：模板匹配

OpenCV Python快速入门十四模板匹配前言前提条件实验环境模板匹配 cv2 matchTemplate 匹配单个结果匹配多个结果参考文献前言本文是个人快速入门OpenCV Python的电子笔记由于水平有限难
【C语言】C语言 atoi 函数解析

个人主页简料所属专栏 C语言个人社区越努力越幸运社区简介简料简料简单有料在校大学生一枚专注C C GO的干货分享立志成为您的好帮手 C C 学习路线点击解锁 C语言初阶数据结构与算法 C 高阶数据结构 Linux
万劫不复之地-云原生可观测性的几大误区

传统监控厂商正把可观测性引入万劫不复之地可观测性是当前讨论非常多的话题这个理念由来已久却在最近开始流行在20世纪60年代该理念首次由Rudolf E Kalman在其论文中提出论文题目是 on a general theory
Python中range()函数的用法

先列几个range 函数的几个用法函数原型 range start end scan 参数含义 start 计数从start开始默认是从0开始例如range 5 等价于range 0 5 end 技术到end结束但不包括end 例如
配置环境变量后，mysql依旧提示“'mysql' 不是内部或外部命令，也不是可运行的程序或批处理文件”

在启动菜单搜索 cmd 搜索到后不要点击运行右击选择以管理员的身份运行之后输入mysql u 用户名 p 密码就可以了在此输入 cmd 找到命令提示符右击选择以管理员的身份运行之后正常操作就可以了 ps 此外如果之前操作没问
Docker安装使用记录

Docker使用 Docker简介 Docker 架构 Docker安装 Docker CE 镜像源站使用官方安装脚本自动安装仅适用于公网环境手动安装帮助阿里云ECS可以通过内网安装见注释部分内容 Ubuntu 14 04 16
Linux笔记：命令进阶使用相关功能

文章目录目的通配符转义符流程控制管道符重定向环境变量总结目的使用linux时用户可以通过一个又一个的命令来完成各种操作除了基础的各个命令外linux还提供了各种便利的功能来协调使用这些命令这些功能让用户在使用linu
jenkins 持续集成/项目部署

前置操作可查阅 docker 安装 jenkins https xijia blog csdn net article details 127021367 spm 1001 2014 3001 5502 win安装及 jenkins 前置配
C5.0决策树算法及性能提升

C5 0算法是基于C4 5开发的新版本它能适用于很多类型的问题同神经网络支持向量机等复杂算法相比它几乎可以表现地一样优秀并且更容易理解和部署这里我们将用UCI机器学习网站http archive ics uci edu ml i
GPIO使用教程（学习笔记）

目录前言一 GPIO简介 1 1GPIO框图讲解二需驱动的寄存器 2 1时钟 2 2总线 2 3时钟配置 2 4寄存器配置三编程环境搭建 3 1完整程序四小结前言本文主要讲解如何驱动GPIO外设的相应寄存器搭建GPIO的
MyBatis 学习笔记：Java 中的数据持久化框架

MyBatis 学习笔记 Java 中的数据持久化框架数据持久化是大多数应用程序的关键需求之一在 Java 开发中 MyBatis 是一个流行的数据持久化框架它提供了一种简单而强大的方式来管理数据库访问本文将介绍 MyBatis 的
出门旅行懂链改这些问题都好解决

每到旅游热潮结束后各大平台都会纷纷晒出出游成绩单国内很多人都是报复式出游各大景区都是人山人海有些人旅游是为了修身养性放松身心有些人是为了观赏大自然风光享受一场视觉盛宴有些人是为了探索未知事物追求一种差异化个性化的旅游
环形队列设计思路

环形队列设计思路一数据结构数据存储在一段连续的内存空间通过写位置读位置来控制数据的输入输出二数据操作 1 判断空逻辑写位置读位置 2 判断满逻辑写位置 1 MAX SIZE 读位置 3 写数据逻辑判断数据不满在当前写
GPG error: http://debian.cn99.com testing Release: Unknown error executing gpgv

mail apt get updateGet 1 http debian cn99 com testing Release gpg 189B Hit http debian cn99 com testing ReleaseErr http
Servlet上传文件

一核心方法 1 HttpServletRequest类相关方法方法描述 Part getPart String name 获取请求中给定name的文件 Collection
java爬虫,提供链接直接爬取网页代码

其实我只想要爬到整个网页的源代码的就好通过java的一个包jsoup 就可以直接爬取了后面有下载源代码含jsoup包的链接输入网页链接输出网页源代码代码比较简单解析都在代码中 import org jsoup Jsoup

java爬虫,提供链接直接爬取网页代码

java爬虫,提供链接直接爬取网页代码 的相关文章

随机推荐

热门标签

java爬虫,提供链接直接爬取网页代码的相关文章