一、
爬虫的目的 采集数据,为软件服务!!那么数据从那儿来?都是从生活中来的!! 1.手工采集:可以采集数据,但是操作效率低下 2.内部数据:公司内部数据,权限范围内尽情使用!:数据有限、较强的针对性 3. 数据交易:数据采集迅速、费用较高;-- 数据不能定制化! 4. 爬虫采集:定向数据采集;成本较高、数据定制化很强、数据针对性很强 二、抓包工具 我们发现进行数据采集的时候,经常需要查看请求的详情,这个就需要一些专业的抓包工具来辅助我们完成了,目前市场上有很多这类工具,如 fiddler、Wireshark、burpsuit、chrome浏览器的 network 插件等,这里我就选用 fiddler 为例给大家进行请求的抓取,因为 fiddler主要用于抓取 web 请求,也就是 http 或者 https 等请求,简单方便,而 wireshark 是所有的网络请求都可以抓取。请求伪造—用户代理对象我们使用 fiddler 来抓取我们之前运行的代码,发现我们发送请求的 UA(UserAgent)是Python-urllib/3.6,这就相当于告诉服务器,我使用 python 的 urllib 这个爬虫来获取你的数据了,现在一般的项目都会有反爬机制,这样的请求会被拦截不让访问数据的,所以一般我们需要伪造请求头对象。 三、请求类型 我们都知道,请求是有不同的请求类型的,如 GET、POST 这些,那么如果我们要爬取数据的接口规定了请求类型的话,我们就需要指定爬虫的请求类型。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)