如何用 Java 以编程方式下载网页

2024-04-24

我希望能够获取网页的 html 并将其保存到String，这样我就可以对其进行一些处理。另外，我如何处理各种类型的压缩。

我将如何使用 Java 来做到这一点？

我会使用像样的 HTML 解析器Jsoup http://jsoup.org。那么就很简单：

String html = Jsoup.connect("http://stackoverflow.com").get().html();

它完全透明地处理 GZIP 和分块响应以及字符编码。它也提供了更多优点，如 HTML穿越 http://jsoup.org/cookbook/extracting-data/selector-syntax and 操纵 http://jsoup.org/cookbook/modifying-data/set-html通过 CSS 选择器，就像 jQuery 一样。你只需要把它抓住Document，不作为String.

Document document = Jsoup.connect("http://google.com").get();

你真的don't http://www.codinghorror.com/blog/2009/11/parsing-html-the-cthulhu-way.html想要在 HTML 上运行基本的 String 方法甚至正则表达式来处理它。

也可以看看：

Java 中领先的 HTML 解析器的优缺点是什么？ https://stackoverflow.com/questions/3152138/what-are-the-pros-and-cons-of-the-leading-java-html-parsers

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何用 Java 以编程方式下载网页的相关文章

初始化 FingerpringManager.Crypto 对象，获取 AndroidKeyStore 提供程序不支持的加密原语？

我使用的是安卓FingerPrintManagerAPI 并使用 KeyPairGenerator 创建密钥对我想用公钥加密密码然后在用户通过输入指纹进行身份验证时解密但是一旦我运行我的项目它就会崩溃并给出引起原因 java la
使用 BufferedImages 获取图像每个像素的颜色

我试图获取图像的每个像素的每种颜色我的想法如下 int pixels BufferedImage image image ImageIO read this getClass getResources image png int pixe
SQL错误：1054，SQLState：42S22“字段列表”中的未知列错误Java Spring Boot Mysql错误

基本上我正在尝试制作一个简单的促销页面我收到的错误是 SQL 错误 1054 SQLState 42S22 错误是字段列表中的未知列 promotion0 promo type id 这是模型类 package promotions
Spring Data Mongo 无法找到 Enum 的 PersistentEntity

编辑我发现了一个相关问题here https stackoverflow com questions 28972455 does spring data mongodb support enums 但仅有的两个答案相互矛盾并且没有足够的
基于接口的匿名类定义......也许？

我在书中看到了这个Java片段春天在行动但我不熟悉语言结构 new RowMapper public Object mapRow throws SQLException DataAccessException Motorist motor
Twitter Bootstrap 等前端技术的后端技术 [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案这是一个类似菜鸟的问题但我们开始吧我读过 Twitter Bootstrap 以及其他演示框架它为设计者程序员提供了轻松构建
返回 SOAP xml - Android

在处理 Web 服务时我使用适用于 Android 的 k2SOAP SoapObject request new SoapObject NAMESPACE METHOD NAME request addProperty ProjectI
为什么 Java 原始数据类型不称为 java 数据类型？

我有一个问题为什么 Java 原始数据类型不直接称为 Java 数据类型或类似的名称因为Java有更多的数据类型原语 http java sun com docs books tutorial java nutsandbolts da
如何使用 p2-maven-plugin 将插件和功能打包到 OSGI 包中

我已经创建了一个插件和功能项目用于插件我正在使用 tycho maven 来构建它我能够成功构建它现在我想打包成 osgi 包 plugin jar feature jar artifacts jar content jar 为此
使用服务器帐户模拟用户以访问其 Google 云端硬盘时出现 401 未经授权错误

我正在用 Java 编写一个后端进程它将模拟用户并在其 Google Drive 上添加删除文档服务器帐户似乎验证正确但是当我尝试冒充用户时我得到一个401 Unauthorized error 请参阅下面的详细信息配置我已配
如何对搜索引擎关键词进行聚类？

从 Google Analytics 中我有一个长关键字列表人们在搜索引擎中使用这些关键字来查找我的网站我想找到核心关键词假设的例子 java online training learning java scala train
如何在 JPQL 语句中使用类型转换？

我有两个Integer数据库中的列 derby 和 db2 我需要将它们彼此分开JPQL 两列都是类型Integer如果余数是十进制数则返回零例如0 25变成0等等这是可以理解的因为类型是 int In SQL例如我可以有这个 se
尽管 CRC 错误，仍强制 gzip 解压缩

我认为有办法做到这一点但我不确定如何做基本上我正在编写一个压缩程序当我尝试解压缩压缩数据时该程序导致了 crc 错误通常这意味着解压缩器实际上将我的数据识别为正确的格式并将其解压缩但是当它将结果与 CRC 指示的预期长度进行
使用 spring data mongodb 存储库添加可选查询参数

我想使用 spring data mongodb 添加可选查询参数控制器代码 RestController private final ActionService actionService RequestMapping value ac
Spring 4 web - java.lang.IllegalArgumentException：[0]没有匹配的常量

我在升级 spring 版本 3 2 6 到 4 2 1 时遇到一些问题尝试获取与登录页面相关的 css 和 js 文件时出现 500 内部服务器错误在服务器端我看到异常 java lang IllegalArgumentExcept
响应中的有效 JSON

我正在开发客户端和服务器应用程序遇到了一个有趣的问题我们正在创建一个 Restful API 并通过 JSON 响应与客户端进行通信执行 DELETE 时我们将返回 200 OK 和空白响应我们的客户收到 200 OK 但解析 J
如何在java中定期刷新ZipOutputStream

我正在尝试以 zip 格式存档文件列表然后即时为用户下载我在下载 1GB 大小的 zip 时遇到内存不足问题请帮助我如何在不增加 jvm 堆大小的情况下解决此问题我想定期冲洗流我正在尝试定期冲洗但这对我不起作用请在下面找到我的
如何将 java.util.Optional 与 REST API 一起使用？

我有一堂课看起来像 public class ActiveDirectorySetup implements Serializable private ActiveDirectoryDataSource activeDirectoryDat
2010 年的 java 并发修改异常灾难

绘制一些存储在 ArrayList 中的粒子这段代码工作正常 super paintComponent g for Particle b particleArr g setColor b getColor g fillOval b get
在不同的任务中启动一个新的 Android Activity

这是一个有点复杂的故事我有一个Activity A Activity A使用意图打开浏览器来进行一些身份验证完成此操作后网页将重定向到 URL Activity B使用意图过滤器将其设置为可浏览并且 URL 使得浏览器启动Activ

随机推荐

正则表达式：如何匹配包含重复模式的字符串？

是否有一个正则表达式模式可以匹配包含重复模式的字符串例如 a b c d y z 你有什么主意吗也许您正在寻找这样的东西这将匹配以逗号分隔的表单序列列表 where and 可以是任何字符
使自定义 monad 转换器成为 MonadError 的实例

我想让我的 monad 转换器成为一个实例MonadError如果转换后的单子是一个实例基本上我希望我的变压器的行为与内置变压器一样例如有一个MonadError实例为StateT MonadError e m gt MonadErro
如何从另一个 sbt 项目引用外部 sbt 项目？

我对 Scala 应用程序和通用核心库进行了以下设置根 gt ApplicationA gt project gt build sbt gt CoreLibrary gt project gt build sbt 我想将 Applicat
将 Yup 验证错误转换为可用对象

Problem 我有一个 formik 表单需要有 2 个不同的验证模式具体取决于用户使用哪个按钮提交我看到有些人说使用状态来决定哪个但我想避免使用状态因为在这种情况下感觉不对我看过是的文档 https www npmjs co
格式化整数时 printf 中的精度字段

当我执行这两行时 printf 5d n 3 use of precision filed printf 05d n 3 use of 0 flag to prepend with 0 我得到以下输出 00003 00003 结果相同所以
Google 字体无法在移动设备中加载

我读过类似的帖子但这个问题有点不同我有 rest of the code 在 css 样式文件中我有 body font family Source Sans Pro sans serif rest of the code 它在浏览器中
将新对象附加到 JSON 文件中的数组

如何将附加对象添加到现有 JSON 文件即对象数组中这是我的 JS 代码 const fs require fs let Human Name John age 20 Human JSON stringify Human null 2
自动完成搜索字符串的多个部分，然后返回最可能的部分

有点像这个问题 https stackoverflow com questions 824144 how do i use jquery autocomplete for multiple words 我有很多文本片段每天都会使用很多很多
使用 nokogiri 干式搜索网站的每个页面

我想搜索网站的每个页面我的想法是找到页面上保留在域内的所有链接访问它们然后重复我也必须采取措施避免重复努力所以开始很容易 page http example com nf Nokogiri HTML open page link
Azure Functions 中 PowerShell 脚本的选项在哪里

我想使用 PowerShell 创建 Azure Function 当我谈到 Azure 希望我选择要创建的函数类型时唯一可用的语言是 C F 和 JavaScript 我错过了什么吗如何使用 PowerShell 创建 Azure 函
尝试使用 Comparator 按名称排序、忽略大小写以及先处理空值

我在使用 Java 8 Comparator 类对项目列表进行排序时遇到问题我当前的工作比较器如下 comparator Comparator comparing Person getName Comparator nullsFirst
Android 中从时间戳获取日期名称

我有一个类当它初始化时它会使用公共 getter 在私有字段中记录初始化时间 public class TestClass private long mTimestamp public TestClass mTimestamp Syst
每个 ajax 请求都会调用 preRenderView

我正在使用 jquery waypoints 和 jsf 实现无限滚动link http kahimyang info kauswagan code blogs 1405 building a page with infinite scro
CSS自定义组合框问题

我需要一个自定义组合框所以我实施了ul 问题是我无法通过单击在顶部打开组合框列表button 展示的同时ul 它移动button到网页底部 Code ul width 100px background color rgb 224 224
在 Emacs 中定义新的工具提示

我想向 emacs 添加自定义工具提示更具体地说每当我将鼠标悬停在符号函数变量名称上时用我的鼠标我想看到带有符号定义的工具提示我知道我可以使用 cscope 这样的工具找到此类信息但我不知道如何找到将 cscope 的输出
运行烘焙命令时出现 SQLSTATE HY000 2002

我在运行烘焙命令时遇到问题我认为它与 mysql 有关但我在 Stackoverflow 上没有找到此错误的任何解决方案这是我的app php Datasources gt default gt className gt Cake D
Kafka的消息键有什么特别的地方吗？

我没有看到任何提及消息键 org apache kafka clients producer ProducerRecord key 除了它们可以用于主题分区我可以自由地将我喜欢的任何数据放入密钥中还是有一些我应该遵守的特殊语义该密钥似
分组时间序列（面板）数据的交叉验证

我使用面板数据随着时间的推移我观察许多单位例如人对于每个单元我都有相同固定时间间隔的记录当将数据分为训练集和测试集时我们需要确保这两个集是不相交的并且顺序的即训练集中的最新记录应该在测试集中最早的记录之前参见例如此博客文章
如何使用可用内存有效地比较 1,000 张图像

这是一个棘手的问题我的磁盘中存储了大约 1 000 张图像我想通过成对比较来找到彼此相似的图像所以我必须做周围1 000 999 2 https stackoverflow com questions 46958633 generat
如何用 Java 以编程方式下载网页

我希望能够获取网页的 html 并将其保存到String 这样我就可以对其进行一些处理另外我如何处理各种类型的压缩我将如何使用 Java 来做到这一点我会使用像样的 HTML 解析器Jsoup http jsoup org 那么就很

如何用 Java 以编程方式下载网页

也可以看看：

如何用 Java 以编程方式下载网页 的相关文章

随机推荐

热门标签

如何用 Java 以编程方式下载网页的相关文章