fiddler中文_快速采集中文期刊网站丨数据、规则一起送

2023-05-16

采集地址:

http://lib.cqvip.com/Qikan/Search/Index?from=Qikan_Search_Index

采集字段:

标题,摘要、作者、出处、作者简介、邮箱。

采集结果:

使用“互联网”作为关键词进行搜索,采集搜索结果,并保存到Excel。

1、下载火车采集器输入网址 www.locoy.com 进入火车官网,随后点击下载来获取火车采集器最新版本

2、注册并登录火车采集器在网站进行注册,注册好账号直接登录即可。3、打开爬取网站,确定真实地址

首先先点击下一页,发现网址没有改变,说明这个网址需要通过抓包来获取真实地址。

打开fiddler,点击下一页进行抓包,使用Ctrl + F 查找有数据的网址,点击进去发现确实是我们需要的真实网址。

4、网址是POST类型的,查看POST提交的数据发现是编码过的,可以用工具转码,再点击下一页,进行抓包,对比两次抓包的数据,只有PageNum发生了变化,也就是分页,所以网址采集规则可如下设置。

5、接下来开始采内容,要采集的几个字段内容源码中都存在,直接从源码获取即可,这里标题标签可以先用h1截取,然后用内容替换和HTML标签过滤将不需要的内容去除,其他几个标签设置方法类似。

6、值得一提的是,邮箱是从作者简介里提取的,这里可以使用组合标签来获取作者简介的内容,在数据处理里使用智能提取邮箱功能来自动获取内容里的邮箱信息。

7、最后,保存到本地Excel。

本次每周一数赠送的是中文期刊数据+采集规则,仅限火车软件的商业版本用户。不符合领取条件的可参加正在进行的火车双十二年终回馈活动,活动还剩最后两天。消费达到1500元更是可以领取2019年整年每周一数的所有数据,赶紧参加吧!

本周每周一数领取时间:2019年12月18 日发文后5个工作日内(节假日除外)

领取方式:扫码加运营微信,运营会拉您进每周一数群,群内加:【火车数据咨询客服.雅】,经验证为商业用户后,即可领取。

长按二维码回复:资源感谢您抽出·来阅读此文做数据采集,我们是专业的!图片与部分资料来源网络,如有侵权请联系

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

fiddler中文_快速采集中文期刊网站丨数据、规则一起送 的相关文章

随机推荐