Spider(网络蜘蛛)之ajax爬取douban电影排行和kfc门店数据

2023-11-07

爬前注意：

首先douban的接口请求方式是get简单一点、寻找规律可以爬取数据；

kfc的接口方式是post,data所需要parse.urlencode(data).encode('utf-8')需要编码，编码和解码是两个相反的过程（字节<->字符串）编码：字符串->字节解码：字节->字符串

细节内容将会在具体的操作步骤中说道：创作不宜、记得三连啊兄弟们!!!

1、爬取douban电影的排行榜（前10页为例子）

打开chrome浏览器，搜索豆瓣来到电影排行榜右击鼠标查看网络寻找数据接口

一点经验：

看到文件带png，jepg(jpg),js一般都不是真正的接口；

找到数据接口后，打开标头

分析服务器请求方式：

这里的请求方式是get url="

https://movie.douban.com/j/chart/top_list?type=13&interval_id=100%3A90&action=&start=0&limit=20

https://movie.douban.com/j/chart/top_list?type=13&interval_id=100%3A90&action=&start=20&limit=20

https://movie.douban.com/j/chart/top_list?type=13&interval_id=100%3A90&action=&start=40&limit=20

上面是前三页的数据（每一页20条数据）不难看出 url中的start=开始就出现了不同我们现在要爬取前十页的数据，观察现象，得出规律。知识点设计：java中的分页 (page-1)每页条数

例如：第n页 1 2 3 ...n

从第几页开始0 20 40 ... (n-1)*20

找到规律后三步走就是...

注意该url的协议是https（比起http更加安全），一个常见的反爬手段UA 用户代理

解决方案：

我们在请求头里寻找ua 包装request对象即可

接着到了最后一步：

下载到当地，其实就是文件操作，将数据读到文件里面；

我们分析我们要爬取的数据是什么数据格式一般这些数据都是json数据（大括号套大括号）

显然，这些数据都是json数据，就这个鸟样。

接下来直接下载吧！！！

正在爬取数据：

爬取结果：

这样就得到电影排行的数据了。。。。

接下来，爬取肯德基门店信息试试：

List标签存有数据

X-Requested-With这就是ajax的标志：ajax就是一个加载项

寻找规律：

找到

数据展示：

还有一点值得注意的是：

使用文件操作时，write()方法默认编码是gbk ；需要和之前解码的编码一样。

这就是今天的分享，还是那句兄弟们三连啊，我会继续坚持创作的，与大家一起进步......

待续...

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

初始爬虫

AJAX

网络

python

爬虫

Spider(网络蜘蛛)之ajax爬取douban电影排行和kfc门店数据的相关文章

安装 Pillow 和 PIL

I have Ubuntu 12 04 http en wikipedia org wiki List of Ubuntu releases Ubuntu 12 04 LTS 28Precise Pangolin 29 Precise Pa
AttributeError：模块“keras.engine”没有属性“Layer”

当我试图运行时Parking Slot mask rcnn py文件我收到如下错误mrcnn model py文件我该如何解决 gt 2021 06 17 08 25 18 585897 W tensorflow stream execut
(Python) 我应该使用参数还是将其设为全局参数？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案我有许多共享相同参数的函数他们将多次输入和输出该参数例如 a foo a fun a a bar a def fun a return a
使用 Celery 时出现错误消息“无法找到记录器“多处理”的处理程序”

RabbitMQ http en wikipedia org wiki RabbitMQ现在似乎工作正常然而当我尝试 python m celery bin celeryd loglevel INFO 常规的celeryd不起作用我收
Cassandra：在 session.execute() 期间“无法完成对任何主机的操作”

卡桑德拉版本 1 2 2Thrift API 版本 19 35 0CQL支持的版本 2 0 0 3 0 1 默认 3 0 1 适用于 python 3 4 的 cassandra 驱动程序使用 sudo 运行 cassandra bin c
Python Pandas：返回连续缺失的工作日日期并为数据框中缺失的日期分配比率

Dates rates 7 26 2019 1 04 7 30 2019 1 0116 7 31 2019 1 005 8 1 2019 1 035 8 2 2019 1 01 8 6 2019 0 9886 8 12 2019 0 965
使用 lxml 和 xpath 解析 xml 文件时如何保留 &

我试图从输入 xml 文件中提取一些信息并使用 lxml 和 xpath 指令将其打印到输出文件中我在读取如下所示的 xml 标签时遇到问题
Pycharm 出现 Kivy 错误 [严重] [应用程序] 无法获取窗口，中止

我正在尝试让示例 Kivy 代码之一在我的机器上运行我使用的是 Pycharm 社区版 2017 1 安装了 anaconda python 2 7 和 Kivy 1 9 我已使用项目设置将 Kivy 模块和 Pygame 模块安装到项目
Django - 403 Forbidden CSRF 验证失败

我在 Django 中为我的网站提供了一个联系表单当我在本地测试它时它工作正常但现在当我尝试实时提交我的联系表单时它总是出现 403 禁止 CSRF 验证失败 view def contact request if reques
rpy2 传递 python 保留关键字参数

我试图通过 python 使用 r 的密度函数并且必须将 from to 参数传递给密度函数然而由于 from 这个词是Python中的保留关键字我该如何实现这一点呢谢谢这是到目前为止的代码 r density robjects
访问具有动态名称的变量的值

我发现了几个主题其中讨论了在循环中动态创建单个变量是不好的做法最好使用字典就我而言我不需要动态创建它们我想要access他们在循环中我不想用字典对于他们来说因为这些变量在代码中的很多地方使用并且只有一个地方我需要这种动态访问
如何获取 Flask 中当前的基本 URI？ [复制]

这个问题在这里已经有答案了在下面的代码中我想将 URL 存储在变量中以检查发生 URL 错误的错误 app route flights methods GET def get flight flight data mongo db fl
如何在Google可视化条形图中自定义工具提示（文本和格式）？

我在用谷歌可视化条形图 http code google com apis visualization documentation gallery barchart html我想自定义或更改工具提示文本和格式单击栏时出现的我已经阅读了文档
在 C++ 中运行 python [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我有一个用 C 编写的应用程序和一个测试系统也是用 C 编写的测试系统非常复杂并且很难改变我只想做一些小的改变我的班级是这样的
将2个暗淡数组“列表列表”输出到python中的文本文件

简单的问题我正在创建一个两个暗淡的数组 ddist 0 d for in 0 d 在下面的代码中使用列表它使用 gis 数据输出距离我只是想要一种简单的方法来获取数组列表的结果并将其输出到保持相同的 N N 结构的文本文件我过去曾
从 Keras 检查点加载

我正在 Keras 中训练一个模型我使用以下代码保存了所有内容 filepath project model hdh5 checkpoint ModelCheckpoint project model hdf5 monitor loss
在 Python 中将主题标头添加到 server.sendmail()

我正在编写一个 python 脚本来从终端发送电子邮件在我目前发送的邮件中它没有主题我们如何为此电子邮件添加主题我当前的代码 import smtplib msg From email protected cdn cgi l ema
为文件中的每个单词创建字典并计算其后面的单词的频率

我正在尝试解决一个难题却迷失了方向这就是我应该做的 INPUT file OUTPUT dictionary Return a dictionary whose keys are all the words in the file br
Django ALLOWED_HOSTS 与 CORS(django-cors-headers)

ALLOWED HOSTS 和 CORS 之间有什么区别如果我定义了 ALLOWED HOSTS 我还需要定义 CORS 吗我没有使用 django 模板我也有可能动态定义这两个吗我认为没有我使用 django 作为后端并在不同
python函数中的Return语句不返回任何内容[重复]

这个问题在这里已经有答案了我不明白退货和打印之间的区别有人告诉我应该在函数语句中使用 return 但它不会返回任何内容所以我一直在函数中使用 print 但我想了解为什么我的函数中的 return 语句不起作用 def triang

随机推荐

配置Windows10虚拟机并使用VMware tools共享文件

下载VMware workstation Download VMware Workstation Prohttps www vmware com products workstation pro workstation pro evalua
matlab 特征选择算法,特征选择、特征提取matlab算法实现(模式识别)

提供了模式识别特征选择和特征提取详尽的matlab算法代码实现 6 特征选择 6 1 问题对 threethreelarge m 数据采用任意一种特征选择算法选择2个特征 6 2 思路采用简单特征选择法 simple feature
MySQL基本概念、PyMySQL操作及数据库事务操作

目录一数据库概念及其分类 1 1数据库概念 1 2数据库分类 1 2 1关系型数据库 1 2 2 非关系型数据库二 SQL Structured Query Lanaguage结构化查询语言 2 1SQL语言分类 2 2 SQL语句常
学习记录（C语言）

一初识转义字符转义字符有哪些其中表示打印一个单独的单引号或者双引号 n表示换行 t相当于tab键 ddd ddd表示1 3个八进制数字例如打印 130 八进制的130相当于十进制的88再对照ASCII码表88对应的符号为X 同理 x
Python网络爬虫原理及实践

作者京东物流田禹 1 网络爬虫网络爬虫是一种按照一定的规则自动地抓取万维网信息的程序或者脚本网络爬虫相关技术和框架繁多针对场景的不同可以选择不同的网络爬虫技术 2 Scrapy框架 Python 2 1 Scrapy架构 2
windows 安装 yarn

windows 安装 yarn 下载node js http nodejs cn download 通过 Chocolatey 安装以管理员身份打开 cmd exe SystemRoot System32 WindowsPowerShel
时间数组传到数据库

1 数据库有数据想精确到时分秒就写datatime 不想要就写data 2 vue页面写一个数组可以放开始时间结束时间 3 把dataRange数组的索引 0 赋给workTimeBegin 1 赋给workTimeEnd 这
给exe添加管理员权限的几种方法&修改exe兼容性属性的方法

有些程序我们必须以管理员权限才能运行但是我们又不想右键 gt 以管理员权限运行那么我们就只有给exe增加管理员权限了 1 如果是vs编译的exe可以通过配置属性项目 XXX 属性配置属性链接器清单文件然后重新编译可以根据需
delphi .dfm文件汉字不显示_搞定Delphi模块化之Package

Package的优点应用程序可以被高度的模块化而且可以逐渐交付完成的功能给客户维护方便可以只更新单一的模块功能提升程序的载入速度 Package的缺点有些情形下使用Package只能间接的方式取得资料变量类 Package
springboot项目上传文件过大导致java heap space 的问题解决方案（windows和linux）

windows 点击项目 run as debug as Run Configuration Debug Configuration java application Arguments Xmx1024m Xms1024m XX NewRa
万物云原生下的服务进化

导读在万物云原生下的环境下 Java的市场份额也因耗资源启动慢等缺点导致在云原生环境里被放大而降低通过这篇文章读者可以更好地了解如何在云原生环境下通过升级相关版本和使用GraalVM打出原生镜像到方式优化Java应用的性能和资源
【详细齐全】FIO使用方法及参数解析（文章末尾）

linux 使用FIO测试磁盘iops 方法详解 FIO是测试IOPS的非常好的工具用来对硬件进行压力测试和验证支持13种不同的I O引擎包括 sync mmap libaio posixaio SG v3 splice null n
安装fastdfs及java操作

1 安装 libfastcommon git地址 https github com happyfish100 libfastcommon git 安装 git clone https github com happyfish100 libf
key-value数据库

传统的文件系统中需要维护目录的层次结构使用dentry inode directory等复杂结构保存元数据的信息而面对更多定制文件系统的需求越来越多的系统考虑使用key value形式保存文件系统中的元数据信息使用数据库来保存这些
Windows 安装完mysql 后配置环境变量、重置密码、开启远程连接

第一步配置环境变量系统变量 Path在最后一段添加 D ruanjian mysql 8 0 17 winx64 bin 这个是你安装mysql bin的位置第二步用临时密码登录并重置密码 mysql gt mysql u root
yum默认安装位置及被占进程运行:/var/run/yum.pid 已被锁定，PID 为 4032 的另一个程序正在运行。

yum install XX 默认安装位置是 usr lib64 在安装过程出现下面进程被占用解决 rm f var run yum pid
9个开源自动化测试框架，质量保证测试工程师用起来

自动化测试框架由一组最佳实践通用工具和库组成可帮助测试人员评估多个Web和移动应用的功能安全性可用性和可访问性而在软件开发世界中有很多的自动化测试框架该如何选择虽然技术团队可以构建复杂的自动化测试框架但是当可以选择现有的开
Git 补丁— diff 和 patch 使用详解

Git 补丁 diff 和 patch 使用详解 1 diff 和 patch 的区别 2 生成patch 2 1 git diff 3 git format patch 3 应用patch 4 冲突解决题外话 1 diff 和 patc
flutter 图片加载和预览实现

注本文只提供了思路并无完整性demo 使用的是cached network image 因为版本变革经常头大而且需要自己对源码做些修改建议github fork一下然后导入自己的地址类似 dependencies cached
Spider(网络蜘蛛)之ajax爬取douban电影排行和kfc门店数据

爬前注意首先douban的接口请求方式是get简单一点寻找规律可以爬取数据 kfc的接口方式是post data所需要parse urlencode data encode utf 8 需要编码编码和解码是两个相反的过程字节 lt

Spider(网络蜘蛛)之ajax爬取douban电影排行和kfc门店数据

Spider(网络蜘蛛)之ajax爬取douban电影排行和kfc门店数据 的相关文章

随机推荐

热门标签

Spider(网络蜘蛛)之ajax爬取douban电影排行和kfc门店数据的相关文章