爬虫学得好监狱进的早_比Python更狠毒的一种爬虫!

2023-05-16

爬虫:一段自动抓取互联网信息的程序,从互联网抓取对我们有价值的信息!

说起爬虫,可能你首先想起的就是Python,因为Python在爬虫方面是出了名的。但是希望你不要被误导,不只是Python可以写爬虫程序,其他高级语言也是可以的,比如Java。

那么,今天我们来讲一个比Python更狠毒的爬虫。它不是Java,也不是其他高级语言。这时候,你只需要默默的打开Kali Linux即可。我将开始新的爬虫之旅~

打开Kali之后,我们需要用到工具httrack。由于Kali本身不自带该工具,所以我们需要安装它,下面我一步一步来操作!

一、打开Kali,安装httrack

首先我们更新一下列表:

apt-get update

安装httrack:

apt-get install httrack

完成安装!

二、开始使用httrack爬取信息

首先我们可以创建一个目录用于存放爬取的信息。

接着我就拿我的个人网站来爬取一下信息:

httrack URL


上图显示正在爬取,将网站信息保存到本地。

完成之后,就如下图所示:

接着我们查看一下爬取的信息:

因为我个人网站没有动态页面,所以不会产生cookies.txt文件,等一下我将列出爬取的信息都包含什么。

我们先来看一下http://orgloft.com目录,这里存放的是网站源码、图片等信息。

要注意的是,蓝色字体的都是目录,即这些目录下包含的有文件,白色字体的是文件,可以直接使用vim打开。

我们打开一个源码文件看一下:

满满的源码展示在你眼前!

使用httrack爬取网站,我们能得到以下信息:

  • 网页源码
  • 网站所有图片
  • 所有下载文件
  • cookies.txt文件,包含用于下载站点的cookie信息
  • hts-cache目录包含由爬虫检测到的文件列表,这是httrack所处理的文件列表
  • hts-log.txt文件包含错误、警告和其他在爬取站点时的信息

除此之外,httrack还有许多其它选项可以使用,让我们自定义它的行为来完成我们的需求:

  • -rN : 将爬取的链接深度设置为N
  • -%eN: 设置外部链接的深度界限
  • -F[user-agent]: 用于下载站点的UA即浏览器标识符

三、除httrack之外的wget
我们已经知道,httrack可以爬取网站的信息。httrack直接将网站的所有内容都可以爬取到本地,但是我们只需要部分信息的时候呢?该怎么办?

这时候就需要wget,wget是kali自带的一种工具,所以你无需安装,直接打开终端使用即可。

下面还是以我个人网站为事例:

wget http://orgloft.com/

看这种情况和刚才的httrack有什么不同之处。

仔细看,在url最后我加了 / ,这是一个很重要的符号,有了 / ,就代表只需要爬取当前的页面信息,而不是全站点信息!

这时候你很容易发现跟刚才的httrack有着很大的区别,这时候就只爬取了主页面一个文件 index.html。

依据此原理,你可以转到其他页面后面加一个 / 。这时就只爬取该一页内容。如果没有 / ,那么爬取的将是所有内容。

注意:在使用wget时,它会自动将爬取的内容存放在当前目录下。当然,你也可以指定目录

wget -P 目录/ URL

这里参数 -P 就代表着允许设置目录并且文件存放在该目录里。

wget的另外一些参数:

  • -r : 该参数是将站点所有信息遍历爬取到本地。
  • -l : 在该参数后面我们可以加上遍历深度值,以便让其爬取有个界限
  • -k : 该参数能够指向本地文件,将你爬取的站点信息在本地浏览
  • -p : 爬取该站点所有图像

本篇爬虫到此就结束了,在你安装httrack时,可能会遇到一些问题,不要慌。你可以来找我咨询,公众号内可联系我,我帮你解答。如果你还没有Kali ,你可以在公众号内回复 Kali 获取。

温馨提示:各位在使用爬虫时,请注意自己的行为。不要触及法律规定的内容,不随意爬取别人的隐私,更不能贩卖数据!有句话说得好:

爬虫玩的好,监狱进的早;数据玩的溜,牢饭吃个够!

请文明使用爬虫!Over!

往期推荐:

  1. 《奇巧淫技》每个互联网公司都少不了的一个职能!
  2. sqlmap,扫描网站数据库并得到用户名及密码!
  3. 教你一招如何查看你访问的网站所使用的技术!硬核知识!!!

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

爬虫学得好监狱进的早_比Python更狠毒的一种爬虫! 的相关文章

随机推荐