wget 只下载一个 index.html 文件，而不是其他大约 500 个 html 文件

2024-03-16

使用 Wget 我通常只收到一个——index.html 文件。我输入以下字符串：

wget -e robots=关闭 -rhttp://www.korpora.org/kant/aa03 http://www.korpora.org/kant/aa03

唉，它只返回一个index.html 文件。

目录aa03暗示着康德的书，第3卷，里面肯定有大约560个文件（页）左右。这些页面可以在线阅读，但不能下载。有什么补救办法吗？！谢谢

通过该链接我们可以看到：

http://korpora.zim.uni-duisburg-essen.de/kant/aa03/ http://korpora.zim.uni-duisburg-essen.de/kant/aa03/

wget 不会跟踪指向用户未指定的域的链接。由于 korpora.zim.uni-duisburg-essen.de 不等于 korpora.org，wget 将不会跟踪索引页面上的链接。

要解决此问题，请使用 --span-hosts 或 -H。 -rH 是VERY危险的组合 - 组合起来，您可能会意外地抓取整个互联网 - 因此您需要非常严格地关注其范围。该命令将执行您想要执行的操作：

wget -e robots=off -rH -l inf -np -D korpora.org,korpora.zim.uni-duisburg-essen.dehttp://korpora.org/kant/aa03/index.html http://korpora.org/kant/aa03/index.html

（-np 或 --no-parent 将限制爬行至 aa03/。-D 将限制为仅这两个域。-l inf 将爬行无限深，受 -D 和 -np 约束）。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Wget

wget 只下载一个 index.html 文件，而不是其他大约 500 个 html 文件的相关文章

yum、apt-get、curl、wget你了解吗？

在这里整理一些自己想要了解的一些概念内容来自网络博客一般来说著名的linux系统基本上分两大类 xff1a RedHat系列 xff1a Redhat Centos Fedora等Debian系列 xff1a Debian Ubuntu
wget curl post请求

wget header 61 User Agents Chrome header 61 Content Type Application json post data 61 url https zcool cloud resource te
Linux 中的 Wget 命令及示例

GNU Wget 是一个用于从网络下载文件的命令行实用程序使用 Wget 您可以使用 HTTP HTTPS 和 FTP 协议下载文件 Wget 提供了许多选项允许您下载多个文件恢复下载限制带宽递归下载后台下载镜像网站等等本文
wget: unable to resolve host address解决方法

利用wget下载东西时比如输入指令wget www baidu com 提示报错 wget unable to resolve host address wget 无法解析主机地址这就能看出是DNS解析的问题解决办法修改 etc r
Linux wget下载指定目录及重命名

Linux系统wget下载指定目录及重命名假设目录为 happy page 假设下载网址为 http www baidu com 假设下载文件的原始文件名为 baidu html 1 指定下载目录 wget P happy page ht
同时多个 wget -r 一个站点？

任何带有选项的命令 wget 对于多线程递归地同时下载站点我找到了一个不错的解决方案阅读原文位于http www linuxquestions org questions linux networking 3 wget multi th
如何用 C 语言制作自己的头文件？

我尝试制作自己的头文件但它不起作用vim says wget h 2 2 error invalid preprocessing directive ifndef WGET H wget h 3 2 error invalid prepr
是否可以使 wget 的进度条适应多个文件？

我通过执行或多或少的操作来下载某些目录的所有 htm 文件 wget http some url r accept htm nv show progress 其中我关闭了 wget 的打印但保留了进度条这对我的情况很有用 nv show
如何在Python中使用asyncio和wget下载多个文件？

我想从 dukaskopy 下载许多文件典型的 url 如下所示 url http datafeed dukascopy com datafeed AUDUSD 2014 01 02 00h ticks bi5 我尝试了答案here ht
wget 与 python 时间限制

我有一个很大的 URL 文本文件必须通过 wget 下载我编写了一个小的 python 脚本它基本上循环遍历每个域名并使用 wget os system wget URL 下载它们但问题是如果远程服务器在连接后没有回复 wget
为什么 wget 忽略 URL 中的查询字符串？

我想使用wget下载以下18个HTML文件 http www ted com talks quick list sort date order desc page 18 http www ted com talks quick list s
使用 url 重定向下载文件

我可以通过 url 下载文件但是当我从 bash 尝试时我得到的是 html 页面而不是文件如何使用curl wget 或其他方式下载带有url 重定向 301 永久移动的文件 UPD 来自 url 请求的标头 curl I htt
在 git bash 中找不到 wget 命令

我已经在我的cmd中尝试过 pip install wget 它显示 gt pip install wget Requirement already satisfied wget in c users user python python3
wget ：在发送后数据之前获取字段信息

我使用 wget 以及 post data 和 save cookies 选项成功地通过了网站的登录表单现在我尝试填写网页的某些字段然后提交问题是网页上有一个图灵隐藏字段每次都有不同的值我尝试的是打开网页加载我的cooki
wget 未被识别为内部或外部命令

我正在开发一个程序当我进行新的开发并添加新的补丁时它会自动更新我的游戏当我运行补丁更新时它无法将 wget 识别为内部或外部命令游戏 Checkforupdates cls cd C AirlineSim echo Checkin
wget ssl 警报握手失败

我尝试从 https 站点下载文件并不断收到以下错误 OpenSSL error 14077410 SSL routines SSL23 GET SERVER HELLO sslv3 alert handshake failure Unab
谷歌 Colab 上的 RVL-CDIP 数据集

我正在尝试使用以下命令在 google colab 上下载 RVL CDIP 数据集 wget load cookies tmp cookies txt https docs google com uc export download co
httrack wget 卷曲抓取和获取

互联网上有许多工具可用于下载网站的静态副本例如 HTTrack 还有许多工具其中一些是商业工具用于从网站抓取内容例如 Mozenda 还有一些显然内置于 PHP 和 nix 等程序中的工具您可以在其中 file get con
如何让 wget 在网页索引文件的工作本地副本中包含日期和时间戳

我有一份报告需要每天下载我想每天下载一次该文件并让该文件以 report date time html 结尾示例代码 wget k p O C Users user Desktop New report date time html
“wget -O”是什么意思？

我的 shell 脚本中有一个像这样的 wget 命令 reponse wget O http localhost 8080 app index html 我不明白 O 选项有人向我解释说 O 输出到某个地方输出到当前流我在 wget

随机推荐

什么时候有必要规避 Rust 的借用检查器？

我正在实施康威的生命游戏来自学 Rust 我们的想法是首先实现单线程版本尽可能优化它然后对多线程版本执行相同的操作我想实现一种替代数据布局我认为它可能对缓存更友好这个想法是将板上每个点的两个单元的状态存储在向量中一个单元用于读取
android 远程图像获取问题？

我正在使用以下代码来显示带有下一个和上一个按钮的远程图像单击下一个和上一个按钮两到三次不会显示下一个图像并且 DisplayLiveImage 的位图为空任何人都可以检查这是缓冲区问题吗或连接 ImageView img int
如何在从 postasync http 请求下载数据时将数据加载到 recyclerview 中

我正在开发一个android需要从我的下载数据产品详细信息图像的应用程序server using httpclient问题是我需要等到所有数据下载完毕我需要显示已经存在的数据downloaded而其他的还在继续downloading
阴性检测前10名名单

我进行了搜索发现几乎没有关于负面测试的信息这也是开发人员在工作中应该记住的非常重要的事情为负面测试开发人员协作记住的前 10 个测试用例列表怎么样 Thanks 阴性测试的定义在软件测试中旨在确定系统在定义之外的响应的测试它旨在
salt-stack highstate - 查找慢状态

运行初始安装大约需要 20 分钟运行salt call state highstate大约需要6分钟这并非不合理但我想加快速度但我不知道如何找到最慢的状态除了用秒表观看屏幕 6 分钟之外还有什么方法可以找到每个状态运行需要多长时
ffmpeg 将一系列图像转换为视频 - 在每两帧之间使用交叉淡入淡出或任何其他过渡

我目前可以将一系列图像转换为视频但我还需要在它们之间添加过渡动画 String ffmpegCommand data data mypackage app bin ffmpeg y qscale 1 r framerate i data
Python pandas，多行绘图选项

我想从 pandas 数据框中绘制多条线并为每条线设置不同的选项我想做类似的事情 testdataframe pd DataFrame np arange 12 reshape 4 3 testdataframe plot style
Fresh Rails 4 应用程序无法识别“rails”命令，坚持要求我使用“rails new”

我已经成功提交了新申请rails new来自 Rails master 分支克隆的命令该应用程序看起来不错并且绝对是 Rails 4 但是当我尝试运行任何其他应用程序时rails命令提示符给我 Usage rails new APP
如何从字符串中去除 HTML 标签、CSS？

我有字符串如 p p p align left class western p
如何将linkedin api集成到Android应用程序中

如何将 linkedin api 集成到我的应用程序中 None
badref 是什么意思？

IR线是什么意思 define i32
加载时时区返回 Uncaught TypeError 的时刻

我正在努力将 Moment Timezone 实现到 Django 应用程序中以便纠正从不同时区访问它的用户并且在通过 Require js 导入文件时遇到错误 moment js moment timezone js 和 moment
如何在 coinbase api 中导入转换？

目前 Coinbase 支持所谓的转换允许从一种货币转换为另一种货币例如您可以将部分 BTC 转换为 XRP 在 CSV 中它们在备注字段中返回买入和卖出金额笔记将 0 27235696 BTC 转换为 3 731 32313
HTML 名称标签

是否可以使用标签for元素的属性name代替id 我们的应用程序存在一个错误两个复选框具有相同的 id 单击一个复选框的标签会检查另一个复选框由于 HTML 生成逻辑丑陋且复杂更改 id 会很痛苦但是这两个复选框都有唯一的名称属性
javascript 中的 Math.random 如何实现随机性？

javascript 中的 Math random 如何实现随机性我做了一个可以从大约 50 个不同选项中随机选择的东西我想知道使用 Math random 来获得随机性应该有多舒服从规格来看随机的返回一个正数数值符号大于或等
在容器中心添加面板

我有一个JPanel这是一个BorderLayout我在顶部和容器中设置了一个新面板 JDesktopPane 位于中心另一个面板位于底部现在我想在容器中心动态设置面板卡片布局因为我在下面显示层次结构 top gt panel pa
jQuery html() 和换行符

我使用 jQuery 和 Rails 并有以下代码 related html 我在浏览器中遇到问题只有当部分中没有换行符时才会替换 lated 元素的内容这没什么大不了的我可以将所有内容放在一行上但这使代码非常难以阅读有没有办法
使用重命名替换文件名

我想通过替换从开始的所有字符后跟八个大写字母来重命名文件名并仅保留扩展名 4585 10 148 H2A119Ub GTCTGTCA S51 mcdf mdup ngsFlt fm 4585 10 148 H3K27me3 TCTTCA
通过 chrome.runtime.sendMessage 发送带有函数的对象

我正在开发一个 chrome 扩展我想用 chrome runtime sendMessage 发送一个对象带有一些函数现在做这样的事情 chrome runtime sendMessage something Funny 工作得很好
wget 只下载一个 index.html 文件，而不是其他大约 500 个 html 文件

使用 Wget 我通常只收到一个 index html 文件我输入以下字符串 wget e robots 关闭 rhttp www korpora org kant aa03 http www korpora org kant aa03

wget 只下载一个 index.html 文件，而不是其他大约 500 个 html 文件

wget 只下载一个 index.html 文件，而不是其他大约 500 个 html 文件 的相关文章

随机推荐

热门标签

wget 只下载一个 index.html 文件，而不是其他大约 500 个 html 文件的相关文章