wget 只下载一个 index.html 文件,而不是其他大约 500 个 html 文件

2024-03-16

使用 Wget 我通常只收到一个——index.html 文件。我输入以下字符串:

wget -e robots=关闭 -rhttp://www.korpora.org/kant/aa03 http://www.korpora.org/kant/aa03

唉,它只返回一个index.html 文件。

目录aa03暗示着康德的书,第3卷,里面肯定有大约560个文件(页)左右。这些页面可以在线阅读,但不能下载。有什么补救办法吗?!谢谢


通过该链接我们可以看到:

http://korpora.zim.uni-duisburg-essen.de/kant/aa03/ http://korpora.zim.uni-duisburg-essen.de/kant/aa03/

wget 不会跟踪指向用户未指定的域的链接。由于 korpora.zim.uni-duisburg-essen.de 不等于 korpora.org,wget 将不会跟踪索引页面上的链接。

要解决此问题,请使用 --span-hosts 或 -H。 -rH 是VERY危险的组合 - 组合起来,您可能会意外地抓取整个互联网 - 因此您需要非常严格地关注其范围。该命令将执行您想要执行的操作:

wget -e robots=off -rH -l inf -np -D korpora.org,korpora.zim.uni-duisburg-essen.dehttp://korpora.org/kant/aa03/index.html http://korpora.org/kant/aa03/index.html

(-np 或 --no-parent 将限制爬行至 aa03/。-D 将限制为仅这两个域。-l inf 将爬行无限深,受 -D 和 -np 约束)。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

wget 只下载一个 index.html 文件,而不是其他大约 500 个 html 文件 的相关文章

  • yum、apt-get、curl、wget你了解吗?

    在这里整理一些自己想要了解的一些概念 内容来自网络博客 一般来说著名的linux系统基本上分两大类 xff1a RedHat系列 xff1a Redhat Centos Fedora等Debian系列 xff1a Debian Ubuntu
  • wget curl post请求

    wget header 61 User Agents Chrome header 61 Content Type Application json post data 61 url https zcool cloud resource te
  • Linux 中的 Wget 命令及示例

    GNU Wget 是一个用于从网络下载文件的命令行实用程序 使用 Wget 您可以使用 HTTP HTTPS 和 FTP 协议下载文件 Wget 提供了许多选项 允许您下载多个文件 恢复下载 限制带宽 递归下载 后台下载 镜像网站等等 本文
  • wget: unable to resolve host address解决方法

    利用wget下载东西时 比如输入指令wget www baidu com 提示报错 wget unable to resolve host address wget 无法解析主机地址 这就能看出是DNS解析的问题 解决办法 修改 etc r
  • Linux wget下载指定目录及重命名

    Linux系统wget下载指定目录及重命名 假设目录为 happy page 假设下载网址为 http www baidu com 假设下载文件的原始文件名为 baidu html 1 指定下载目录 wget P happy page ht
  • 同时多个 wget -r 一个站点?

    任何带有选项的命令 wget 对于多线程递归地同时下载站点 我找到了一个不错的解决方案 阅读原文位于http www linuxquestions org questions linux networking 3 wget multi th
  • 如何用 C 语言制作自己的头文件?

    我尝试制作自己的头文件 但它不起作用vim says wget h 2 2 error invalid preprocessing directive ifndef WGET H wget h 3 2 error invalid prepr
  • 是否可以使 wget 的进度条适应多个文件?

    我通过执行或多或少的操作来下载某些目录的所有 htm 文件 wget http some url r accept htm nv show progress 其中我关闭了 wget 的打印 但保留了进度条 这对我的情况很有用 nv show
  • 如何在Python中使用asyncio和wget下载多个文件?

    我想从 dukaskopy 下载许多文件 典型的 url 如下所示 url http datafeed dukascopy com datafeed AUDUSD 2014 01 02 00h ticks bi5 我尝试了答案here ht
  • wget 与 python 时间限制

    我有一个很大的 URL 文本文件 必须通过 wget 下载 我编写了一个小的 python 脚本 它基本上循环遍历每个域名并使用 wget os system wget URL 下载它们 但问题是 如果远程服务器在连接后没有回复 wget
  • 为什么 wget 忽略 URL 中的查询字符串?

    我想使用wget下载以下18个HTML文件 http www ted com talks quick list sort date order desc page 18 http www ted com talks quick list s
  • 使用 url 重定向下载文件

    我可以通过 url 下载文件 但是当我从 bash 尝试时 我得到的是 html 页面而不是文件 如何使用curl wget 或其他方式下载带有url 重定向 301 永久移动 的文件 UPD 来自 url 请求的标头 curl I htt
  • 在 git bash 中找不到 wget 命令

    我已经在我的cmd中尝试过 pip install wget 它显示 gt pip install wget Requirement already satisfied wget in c users user python python3
  • wget :在发送后数据之前获取字段信息

    我使用 wget 以及 post data 和 save cookies 选项成功地通过了网站的登录表单 现在我尝试填写网页的某些字段 然后提交 问题是 网页上有一个 图灵 隐藏字段 每次都有不同的值 我尝试的是打开网页 加载我的cooki
  • wget 未被识别为内部或外部命令

    我正在开发一个程序 当我进行新的开发并添加新的补丁时 它会自动更新我的游戏 当我运行补丁更新时 它无法将 wget 识别为内部或外部命令 游戏 Checkforupdates cls cd C AirlineSim echo Checkin
  • wget ssl 警报握手失败

    我尝试从 https 站点下载文件并不断收到以下错误 OpenSSL error 14077410 SSL routines SSL23 GET SERVER HELLO sslv3 alert handshake failure Unab
  • 谷歌 Colab 上的 RVL-CDIP 数据集

    我正在尝试使用以下命令在 google colab 上下载 RVL CDIP 数据集 wget load cookies tmp cookies txt https docs google com uc export download co
  • httrack wget 卷曲抓取和获取

    互联网上有许多工具可用于下载网站的静态副本 例如 HTTrack 还有许多工具 其中一些是商业工具 用于从网站 抓取 内容 例如 Mozenda 还有一些显然内置于 PHP 和 nix 等程序中的工具 您可以在其中 file get con
  • 如何让 wget 在网页索引文件的工作本地副本中包含日期和时间戳

    我有一份报告需要每天下载 我想每天下载一次该文件 并让该文件以 report date time html 结尾 示例代码 wget k p O C Users user Desktop New report date time html
  • “wget -O”是什么意思?

    我的 shell 脚本中有一个像这样的 wget 命令 reponse wget O http localhost 8080 app index html 我不明白 O 选项 有人向我解释说 O 输出到某个地方 输出到当前流 我在 wget

随机推荐

  • 什么时候有必要规避 Rust 的借用检查器?

    我正在实施康威的生命游戏来自学 Rust 我们的想法是首先实现单线程版本 尽可能优化它 然后对多线程版本执行相同的操作 我想实现一种替代数据布局 我认为它可能对缓存更友好 这个想法是将板上每个点的两个单元的状态存储在向量中 一个单元用于读取
  • android 远程图像获取问题?

    我正在使用以下代码来显示带有下一个和上一个按钮的远程图像 单击下一个和上一个按钮两到三次 不会显示下一个图像 并且 DisplayLiveImage 的位图为空 任何人都可以检查这是缓冲区问题吗 或连接 ImageView img int
  • 如何在从 postasync http 请求下载数据时将数据加载到 recyclerview 中

    我正在开发一个android需要从我的下载数据 产品详细信息 图像 的应用程序server using httpclient问题是我需要等到所有数据下载完毕 我需要显示已经存在的数据downloaded而其他的还在继续downloading
  • 阴性检测前10名名单

    我进行了搜索 发现几乎没有关于负面测试的信息 这也是开发人员在工作中应该记住的非常重要的事情 为负面测试开发人员协作记住的前 10 个测试用例列表怎么样 Thanks 阴性测试的定义 在软件测试中 旨在确定系统在定义之外的响应的测试 它旨在
  • salt-stack highstate - 查找慢状态

    运行初始安装大约需要 20 分钟 运行salt call state highstate大约需要6分钟 这并非不合理 但我想加快速度 但我不知道如何找到最慢的状态 除了用秒表观看屏幕 6 分钟之外 还有什么方法可以找到每个状态运行需要多长时
  • ffmpeg 将一系列图像转换为视频 - 在每两帧之间使用交叉淡入淡出或任何其他过渡

    我目前可以将一系列图像转换为视频 但我还需要在它们之间添加过渡 动画 String ffmpegCommand data data mypackage app bin ffmpeg y qscale 1 r framerate i data
  • Python pandas,多行绘图选项

    我想从 pandas 数据框中绘制多条线 并为每条线设置不同的选项 我想做类似的事情 testdataframe pd DataFrame np arange 12 reshape 4 3 testdataframe plot style
  • Fresh Rails 4 应用程序无法识别“rails”命令,坚持要求我使用“rails new”

    我已经成功提交了新申请rails new来自 Rails master 分支克隆的命令 该应用程序看起来不错 并且绝对是 Rails 4 但是当我尝试运行任何其他应用程序时rails命令 提示符给我 Usage rails new APP
  • 如何从字符串中去除 HTML 标签、CSS?

    我有字符串如 p p p align left class western p
  • 如何将linkedin api集成到Android应用程序中

    如何将 linkedin api 集成到我的应用程序中 None
  • badref 是什么意思?

    IR线是什么意思 define i32
  • 加载时时区返回 Uncaught TypeError 的时刻

    我正在努力将 Moment Timezone 实现到 Django 应用程序中 以便纠正从不同时区访问它的用户 并且在通过 Require js 导入文件时遇到错误 moment js moment timezone js 和 moment
  • 如何在 coinbase api 中导入转换?

    目前 Coinbase 支持所谓的 转换 允许从一种货币转换为另一种货币 例如 您可以将部分 BTC 转换为 XRP 在 CSV 中 它们在备注字段中返回买入和卖出金额 笔记 将 0 27235696 BTC 转换为 3 731 32313
  • HTML 名称标签

    是否可以使用标签for元素的属性name代替id 我们的应用程序存在一个错误 两个复选框具有相同的 id 单击一个复选框的标签会检查另一个复选框 由于 HTML 生成逻辑丑陋且复杂 更改 id 会很痛苦 但是 这两个复选框都有唯一的名称属性
  • javascript 中的 Math.random 如何实现随机性?

    javascript 中的 Math random 如何实现随机性 我做了一个可以从大约 50 个不同选项中随机选择的东西 我想知道使用 Math random 来获得随机性应该有多舒服 从规格来看 随机的 返回一个正数数值 符号 大于或等
  • 在容器中心添加面板

    我有一个JPanel这是一个BorderLayout我在顶部和容器中设置了一个新面板 JDesktopPane 位于中心 另一个面板位于底部 现在我想在容器中心动态设置面板 卡片布局 因为我在下面显示层次结构 top gt panel pa
  • jQuery html() 和换行符

    我使用 jQuery 和 Rails 并有以下代码 related html 我在浏览器中遇到问题 只有当部分中没有换行符时 才会替换 lated 元素的内容 这没什么大不了的 我可以将所有内容放在一行上 但这使代码非常难以阅读 有没有办法
  • 使用重命名替换文件名

    我想通过替换从 开始的所有字符后跟八个大写字母来重命名文件名 并仅保留扩展名 4585 10 148 H2A119Ub GTCTGTCA S51 mcdf mdup ngsFlt fm 4585 10 148 H3K27me3 TCTTCA
  • 通过 chrome.runtime.sendMessage 发送带有函数的对象

    我正在开发一个 chrome 扩展 我想用 chrome runtime sendMessage 发送一个对象 带有一些函数 现在做这样的事情 chrome runtime sendMessage something Funny 工作得很好
  • wget 只下载一个 index.html 文件,而不是其他大约 500 个 html 文件

    使用 Wget 我通常只收到一个 index html 文件 我输入以下字符串 wget e robots 关闭 rhttp www korpora org kant aa03 http www korpora org kant aa03