使用 Wget 我通常只收到一个——index.html 文件。我输入以下字符串:
wget -e robots=关闭 -rhttp://www.korpora.org/kant/aa03 http://www.korpora.org/kant/aa03
唉,它只返回一个index.html 文件。
目录aa03暗示着康德的书,第3卷,里面肯定有大约560个文件(页)左右。这些页面可以在线阅读,但不能下载。有什么补救办法吗?!谢谢
通过该链接我们可以看到:
http://korpora.zim.uni-duisburg-essen.de/kant/aa03/ http://korpora.zim.uni-duisburg-essen.de/kant/aa03/
wget 不会跟踪指向用户未指定的域的链接。由于 korpora.zim.uni-duisburg-essen.de 不等于 korpora.org,wget 将不会跟踪索引页面上的链接。
要解决此问题,请使用 --span-hosts 或 -H。 -rH 是VERY危险的组合 - 组合起来,您可能会意外地抓取整个互联网 - 因此您需要非常严格地关注其范围。该命令将执行您想要执行的操作:
wget -e robots=off -rH -l inf -np -D korpora.org,korpora.zim.uni-duisburg-essen.dehttp://korpora.org/kant/aa03/index.html http://korpora.org/kant/aa03/index.html
(-np 或 --no-parent 将限制爬行至 aa03/。-D 将限制为仅这两个域。-l inf 将爬行无限深,受 -D 和 -np 约束)。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)