Jsoup SocketTimeoutException:读取超时

2024-02-09

I get a SocketTimeoutException当我尝试使用 Jsoup 解析大量 HTML 文档时。

例如,我得到了一个链接列表:

<a href="www.domain.com/url1.html">link1</a>
<a href="www.domain.com/url2.html">link2</a>
<a href="www.domain.com/url3.html">link3</a>
<a href="www.domain.com/url4.html">link4</a>

对于每个链接,我解析链接到 URL(来自 href 属性)的文档,以获取这些页面中的其他信息。

所以我可以想象这需要很多时间,但是如何关闭这个异常这是整个堆栈跟踪:

java.net.SocketTimeoutException: Read timed out
    at java.net.SocketInputStream.socketRead0(Native Method)
    at java.net.SocketInputStream.read(Unknown Source)
    at java.io.BufferedInputStream.fill(Unknown Source)
    at java.io.BufferedInputStream.read1(Unknown Source)
    at java.io.BufferedInputStream.read(Unknown Source)
    at sun.net.www.http.HttpClient.parseHTTPHeader(Unknown Source)
    at sun.net.www.http.HttpClient.parseHTTP(Unknown Source)
    at sun.net.www.protocol.http.HttpURLConnection.getInputStream(Unknown Source)
    at java.net.HttpURLConnection.getResponseCode(Unknown Source)
    at org.jsoup.helper.HttpConnection$Response.execute(HttpConnection.java:381)
    at org.jsoup.helper.HttpConnection$Response.execute(HttpConnection.java:364)
    at org.jsoup.helper.HttpConnection.execute(HttpConnection.java:143)
    at org.jsoup.helper.HttpConnection.get(HttpConnection.java:132)
    at app.ForumCrawler.crawl(ForumCrawler.java:50)
    at Main.main(Main.java:15)

我想你可以做

Jsoup.connect("...").timeout(10 * 1000).get(); 

将超时设置为 10 秒。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Jsoup SocketTimeoutException:读取超时 的相关文章

随机推荐

  • 套接字编程-setsockopt:协议不可用?

    我正在用 C 语言进行一些基本的套接字编程 并且在尝试运行代码的每台计算机上都会遇到此错误 代码编译得很好 但是当我尝试运行它时 我收到错误setsockopt 协议不可用 这似乎不是一个很常见的错误 但我尝试运行它的每台计算机上都会遇到这
  • 如何创建二维以上的 pandas 数据框?

    我希望能够创建n dimensional数据框 我听说过一种使用 3D 数据帧的方法panels in pandas但是 如果可能的话 我想通过将不同的数据集组合成一个 将维度扩展到超过 3 个维度超级数据框 我尝试了这个 但我不知道如何在
  • 是否可以从 vb.net dll 中的 dll 导入 c# 类?

    集成开发环境 VS2010 框架网 4 0 我在 Visual Studio 2010 下创建了一个 C dll 项目 其中包含几个公共类 我想在另一个 dll 项目中使用它的类 但用 vb net 编写 在vb net dll项目中 我引
  • 禁用所有 jquery datepicker 输入的自动完成功能

    我想禁用autocomplete对于使用 jquery ui datepicker 的所有输入 无需手动对每个输入执行此操作 这怎么可能做到呢 尝试这个 datepicker on click function e e preventDef
  • 两个字段的唯一约束及其相反

    我有一个数据结构 必须在其中存储元素对 每对恰好有 2 个值 因此我们使用一个表 其中包含字段 左值 右值 这些对应该是唯一的 如果密钥发生更改 它们将被视为相同 Example Fruit Apple is the same as App
  • 从 ASP.NET 应用程序获取入口程序集 [重复]

    这个问题在这里已经有答案了 可能的重复 用于 Web 应用程序的 GetEntryAssembly https stackoverflow com questions 4277692 getentryassembly for web app
  • 使用 int 13h 读取的扇区数量多于磁道上的扇区数量

    顺序是什么int 13h with ah 02h会读19部门起始于 C H S 0 0 1 提供了 2 个磁头 每磁道 18 个扇区 每面 80 个磁道的 软盘 磁盘几何结构 或者 更一般地说 当它到达磁道 0 的末尾 磁头 0 时会发生什
  • 如何处理数据透视表中的重复条目以及如何在 Excel 仪表板中填充查询

    我有两张桌子capacity and demand 容量表如下所示 RESOURCE NAME SKILL GROUP PROJECT START DATE END DATE COST PER HOUR CAPACITY Resource
  • 分片数据库的 ID 生成(Azure 联合数据库)

    我一直在寻找一些有关 Azure 联合数据库 id 生成 联合 主键 最佳实践的文章或指南 但没有发现任何引人注目的内容 联合表不支持标识列 因此在我看来唯一实用的 id 类型是 GUID 因为尝试集中创建和使用 BigInt 会在应用程序
  • 将 xib 文件替换为 App 委托类中的 Main.storyboard 文件

    现在项目正在应用程序委托类中使用 MainWindow xib 作为主 nib 文件 main m 文件中有此代码 int main int argc char argv NSAutoreleasePool pool NSAutorelea
  • Bootstrap 4 的数据表看起来很混乱

    当尝试将 Datatables 与 Bootstrap 4 一起使用时 它看起来不太好 我尝试遵循数据表网站上的基本示例 但它看起来仍然像这样 请参见下面的屏幕截图 我链接到 Datatables 在其自定义页面上提供的文件 这是我的 ht
  • GWT/GXT 标签编辑器? [复制]

    这个问题在这里已经有答案了 我正在寻找基于 GWT 或 GXT 的标签编辑器控件 类似于http tagedit webwork albrecht de http tagedit webwork albrecht de or http le
  • Bean 方法验证

    public class Register NotNull private String password NotNull private String passwordRepeat AssertTrue private boolean c
  • 使用 Java 1.6 和 Windows 7 操作系统进行深度递归时出现 java.lang.StackOverflowError

    我有一个程序 在执行时会遇到非常深的递归 在这中间 我得到java lang StackOverflowError我的应用程序冻结了 我使用的是 JDK 1 6 和 Windows 7 操作系统 奇怪的是 我不明白这个StackOverfl
  • 与内存相关的“竞技场”一词的含义是什么?

    我正在读一本关于内存作为编程概念的书 在后面的一章中 作者大量使用了这个词arena 但从未定义它 我搜索了这个词的含义以及它与记忆的关系 但一无所获 以下是作者使用该术语的一些上下文 序列化的下一个例子采用了一种称为 从特定的内存分配ar
  • iPhone 应用程序在后台运行 10 分钟后终止

    我正在开发一个需要在 iOS4 上后台运行的应用程序 我 希望它像常规的基于位置的应用程序一样 因此背景模式是 设置为位置 应用程序进入后台后运行良好 状态 但 10 分钟后 它不再响应 或许它 被暂停 终止 我想做的是永远在后台运行应用程
  • 为什么我不能在任何方法之外修改类成员变量? [复制]

    这个问题在这里已经有答案了 我有一个带有一些变量的类 当我在主类中实例化该类的对象时 我只能访问和修改一个方法中的成员变量 任何方法 不在他们之外 这是为什么 我被困住了 似乎无法在谷歌上找到答案 class SomeVariables S
  • 第一次尝试简单的 GUI

    我正在尝试自学如何使用 Java swing 和 Window Builder Pro 制作 GUI 在观看了几个 youtube 视频并阅读了一些教程后 我已经完成了以下任务 import javax swing JFrame impor
  • 按带有日期值的单个键对对象数组进行排序

    我有一个包含多个键值对的对象数组 我需要根据 updated at 对它们进行排序 updated at 2012 01 01T06 25 24Z foo bar updated at 2012 01 09T11 25 13Z foo ba
  • Jsoup SocketTimeoutException:读取超时

    I get a SocketTimeoutException当我尝试使用 Jsoup 解析大量 HTML 文档时 例如 我得到了一个链接列表 a href www domain com url1 html link1 a a href ww