爬虫毕设（三）：爬取动态网页

2023-11-04

动态网页分析

按照上一篇的分析，直接使用XPath找到该标签，然后通过parse提取出数据，在写入到item中就完事了。但是，当信心满满的写完代码后却发现，控制台输入了一个简简单单的[]。

小问号你是否有很多朋友。
小朋友，你是否有很多问号
一顿操作猛如虎，一看输出数据无。那么这到底是怎么回事呢？我们从头开始分析。

打开NetWork，找到tv/，点开Preview，结果发现只有一个框架，内容却是空白的。

这是由于网页执行js代码，通过Ajax请求数据来重新渲染页面的。所以我们需要找到有数据的那一个请求，然后再对该请求的目标url爬取。
在这里插入图片描述
可以在preview中看到这就是我们想要的数据。
异步请求数据
我们再找到该请求的header，找到Request URL。
真正的目标url
我们直接复制链接到地址栏中，看到我们想要的数据，这熟悉的格式，不就是json吗。
在这里插入图片描述
动手撸代码，爬取这个网页，处理json数据，拿到自己想要的数据。

class tvSpider(scrapy.Spider):
    name = "douban_tv"
    allowed_domain = ["movie.douban.com"]

    def __init__(self, *args, **kwargs):
        super(tvSpider, self).__init__(*args, **kwargs)
        self.start_urls = ["https://movie.douban.com/j/search_subjects?type=tv&tag=热门&sort=recommend&page_limit=20&page_start=0"]

    def parse(self, response):
        results = json.loads(response.body)['subjects']
        for result in results:
            tv_item = TvListItem()
            url = result['url']

            tv_item['url'] = url.strip()
            print(url)

这次我们的思路是先拿到每部电视剧的url，然后再回调二次解析的函数获取详细信息。运行爬虫，可以看到我们已经得到了自己想要的结果。
接下在就迭代使用scrapy.Request()请求每一个url，再使用二次解析函数parse_detait获取详细数据。

two years later。经过漫长的debug，终于得到以下代码代码：

    def parse_detail(self, response):
        tv_item = response.meta['tv_item']
        result = Selector(response)

        # 字符串前加u表示处理中文字符

        # 剧名
        title = result.xpath(u'//div[@id="content"]/h1/span[1]/text()').extract()[0] + result.xpath('//div[@id="content"]/h1/span[2]/text()').extract()[0]

        # 又名
        has_alias = result.xpath(u'//div[@id="info"]//span[text()="又名:"]').extract()
        if has_alias:
            alias = result.xpath(u'//div[@id="info"]//span[text()="又名:"]/following::text()[1]').extract()[0]
        else:
            alias = ''
        
        # 图片
        tv_img = result.xpath('//a[@class="nbgnbg"]/img/@src').extract()[0]

        # 导演
        has_dir = result.xpath('//div[@id="content"]//span[text()="导演"]')
        if has_dir:
            directors = result.xpath('//div[@id="info"]//span[@class="attrs"]//a[@rel="v:directedBy"]/text()')
            director_lsit = directors.extract()
            director = '/'.join(director_lsit)

        # 主演
        all_actors = result.xpath('//div[@id="info"]//span[@class="attrs"]//a[@rel="v:starring"]/text()')
        actors_list = all_actors[:5].extract()
        actors = '/'.join(actors_list)

        # 类型
        tv_types = result.xpath('//div[@id="info"]//span[@property="v:genre"]/text()')
        type_list = tv_types.extract()
        tv_type = '/'.join(type_list)

        # 制片地区或国家
        country_or_region = result.xpath(u'//div[@id="info"]//span[text()="制片国家/地区:"]/following::text()[1]').extract()[0]

        # 首播
        first_time = result.xpath('//div[@id="content"]//span[@property="v:initialReleaseDate"]/text()').extract()[0]

        # 集数 
        series = result.xpath(u'//div[@id="content"]//span[text()="集数:"]/following::text()[1]').extract()[0]

        # 单集
        has_single = result.xpath('//div[@id="content"]//span[text()="单集片长:"]')
        if has_single:
            single = result.xpath(u'//div[@id="content"]//span[text()="单集片长:"]/following::text()[1]').extract()[0]

        # 评分
        rate = result.xpath('//strong/text()').extract()[0]

        # 评分人数
        votes_num = result.xpath('//span[@property="v:votes"]/text()').extract()[0]

        # 简介
        synopsis = result.xpath('//span[@property="v:summary"]/text()').extract()[0].strip()

        tv_item['title'] = title.strip()
        tv_item['alias'] = alias.split()
        tv_item['tv_img'] = tv_img.strip()
        tv_item['director'] = director.strip()
        tv_item['actors'] = actors.strip()
        tv_item['tv_type'] = tv_type.strip()
        tv_item['country_or_region'] = country_or_region.strip() 
        tv_item['first_time'] = first_time.strip()
        tv_item['series'] = series.strip()
        tv_item['single'] = single.strip()
        tv_item['rate'] = rate.strip()
        tv_item['votes_num'] = votes_num.strip()
        tv_item['synopsis'] = synopsis

        print('电视剧信息>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>')
        print('剧名：' + title)
        print('又名：' + alias)
        print('海报：' + tv_img)
        print('导演：' + director)    
        print('主演：' + actors)       
        print('类型：' + tv_type)     
        print('制片国家或地区：' + country_or_region)
        print('首播：' + first_time)
        print('集数：' + series)
        print('单集时长：' + single)
        print('评分：' + rate)
        print('评分人数：' + votes_num)
        print('简介：' + synopsis)

然后整整二十部电视剧的简介疯狂刷屏：
电视剧刷屏
虽然经历了一番腰酸背痛，头眼昏花，问题好歹是解决了。

个人微信公众号

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

爬虫毕业设计

python

爬虫毕设（三）：爬取动态网页的相关文章

我如何在 python 2.6 中测试抽象方法

我有一个抽象类 import abc class Hello object metaclass abc ABCMeta abc abstractmethod def add self foo pass abc abstractmethod
如何在 Windows 10 上使用 python 3.7 的 anaconda 包？

我使用的是 Windows 10 Pro 64 位版本我从此页面下载Anaconda3 2019 03 Windows x86 64 exe https www anaconda com distribution https www an
只使用 Django 的某些部分？

我喜欢 Django 但对于一个特定的应用程序我只想使用它的一部分但我对 Django 的内部工作原理还不够熟悉所以也许有人可以指出我必须做什么的正确方向查看具体来说我想使用模型和数据库抽象 The 缓存API http doc
优化完美平方问题，类似于Python中的硬币找零

我这里有一个硬币兑换的解决方案 python 中的 leetcode 硬币兑换 https stackoverflow com questions 69517078 coin change leetcode in python 因为完全平方
如何使用 django (python) 和 s3 上传文件？

我正在寻找一种将文件上传到 s3 的方法我正在使用 django 我目前正在使用亚马逊的 python 库进行上传以及以下代码 View def submitpicture request fuser request session lo
如何为 Intellij/PyCharm 设置 PYTHONSTARTUP 脚本

我尝试添加PYTHONSTARTUP环境变量我还尝试了自定义启动脚本但更令人惊讶的是这also没有工作 npa别名无法识别出于一点绝望我什至尝试添加到interpreter options 那什么也没做实际上是什么Interpr
Python sqlite3参数化删除表

我在 python 中删除 sqlite3 表时遇到问题我正在使用标准sqlite3模块 self conn sqlite3 connect sql drop table self conn execute sql u table nam
Python grpc protobuf 存根生成问题：--grpc_out: protoc-gen-grpc: 插件失败，状态代码 1

正如问题所说我从源代码编译了 grpc 并且也做了sudo pip install grpcio 但是那which grpc python plugin不返回任何内容这是一个问题因为route guide的grpc python示例
蜘蛛内的Scrapyd jobid值

Scrapy 框架 Scrapyd 服务器我在获取蜘蛛内部的 jobid 值时遇到一些问题将数据发布到后http localhost 6800 schedule json http localhost 6800 schedule jso
如何从 Lua 调用 Python 函数？

我想从我的 lua 文件运行 python 脚本我怎样才能实现这个目标 Example Python代码 sum py file def sum from python a b return a b Lua code main lua f
OpenCV - 我需要将彩色图像插入黑白图像并且

我用以下代码将黑白图像插入彩色图像没问题 face grey cv cvtColor face cv COLOR RGB2GRAY for row in range 0 face grey shape 0 for column in ra
使用 boto3 从 s3 下载时使用 filename 作为文件名

我正在使用 boto3 上传文件如下所示 client boto3 client s3 aws access key id id aws secret access key key client upload file tmp test
是否有更矢量化的方法来沿轴执行 numpy.outer ？

gt gt gt x np array a0 a1 b0 b1 gt gt gt y np array x0 x1 y0 y1 gt gt gt iterable np outer x i y i for i in xrange x sha
python：是否有用于对输入流进行分块的库函数？

我想对输入流进行分块以进行批处理给定一个输入列表或生成器 x in 1 2 3 4 5 6 我想要一个能够返回该输入块的函数说如果chunk size 4 then x chunked 1 2 3 4 5 6 这是我一遍又一遍地做的事
如何在交互式绘图（Python）中获得鼠标指向的（x，y）位置？

我使用 ipython 笔记本带有魔法 matplotlib nbagg 我正在审查matplotlib widget Cursor但仅查看光标widgets Cursor http matplotlib org 1 4 3 exampl
如何绘制多类分类器的精度和召回率？

我正在使用 scikit learn 我想绘制精度和召回曲线我正在使用的分类器是RandomForestClassifier scikit learn 文档中的所有资源都使用二元分类另外我可以绘制多类的 ROC 曲线吗另外我只找到
如何使用 pygame.mixer 重复音乐？

我创建了以下使用 pygame mixer 播放 mp3 音乐的代码然而音乐不会重复有什么想法可以让音乐重复播放吗这是代码 playlist list playlist append put music here mp3 playl
在至少 7 天内连续三天登录该产品的用户

我有一个用于用户参与的数据框 df 如下所示 time stamp user id 2013 01 01 10 05 23 1 2013 01 03 16 35 23 1 2013 01 06 11 06 35 1 2013 01 10 1
在Python中从CSV文件中获取随机行并找到相应的单词，就像测验一样

抱歉标题含糊不清想不出更好的表达方式我有一个包含德语英语单词的 CSV 文件如下所示 Ja Yes Nein No Katze Cat 我希望我的 python 脚本从 CSV 文件中打印一个随机的德语单词并要求他们输入英语单词
部署 Flask 应用程序时如何检测额外文件的更改并重新加载应用程序？ [关闭]

Closed 这个问题需要调试细节 help minimal reproducible example 目前不接受答案我在 Flask 中构建了一个小型 Web 应用程序并尝试将其部署在 Pythonanywhere 上在开发过程中

随机推荐

C语言系列：2、数据类型、运算符和表达式

C语言系列 2 数据类型运算符和表达式文章目录 C语言系列 2 数据类型运算符和表达式 1 前言 2 变量名 3 数据类型和长度 3 1 基本数据类型 3 2 short和long限定符 3 3 signed 与unsigned限定符
（三）运行微信小程序：在主页加入扫码组件

制作了多个页面后我们试图在小程序中添加些其他功能比如实现扫码功能 1 在二维码生成网站上生成一张二维码或条形码照片百度二维码生成即可找到生成网站这里我们使用 2023你好吗数字加文字的形式生成如下二维码并保存到本地供后续
OpenCV获取摄像头编号及名称

欢迎使用Markdown编辑器你好这是你第一次使用 Markdown编辑器所展示的欢迎页如果你想学习如何使用Markdown编辑器可以仔细阅读这篇文章了解一下Markdown的基本语法知识方法 OpenCV的VideoCapt
Github 项目托管

为了方便代码的管理可以使用 github 来托管我们的项目把每次更新的代码放到 github 上还能够提高代码的共享性首先需要注册并登我们的 github 账号 https github com 新建仓库 New repository
DataPipeline如何实现数据质量管理

数据质量管理已经成为数据治理的重要组成部分高质量的数据是企业进行决策的重要依据 DataPipeline数据质量平台整合了数据质量分析质量校验质量监控等多方面特性以保证数据质量的完整性一致性准确性及唯一性帮助企业解决在数据集成
vue+webpack实现异步组件加载

8 9更新之前想搬迁到csdn的时候由于邀请码问题迟迟没把博客转过来所以跑去博客园了今天发现csdn已经帮我把文章搬过来有必要修正一下这篇文章写这篇文章的时候因为刚接触vue 所以捣鼓的时候有些迷糊以下可以跳过本来很简单的事情
Centos8 Failed to download metadata for repo ‘AppStream‘解决

1 这个问题主要原因是 CentOs Linux 8 从 2021 10 31 号后已经停止维护 CentOS 8 将不再从 CentOS 官方项目获得开发资源所以之后更新镜像需要通过 vault centos org来获取更新 2 进入
无向图的表示：邻接矩阵和邻接表

这里将一个无向图用邻接表和邻接矩阵表示输入顶底个数n 图中的各个边用两个顶点表示输出这个无线图的邻接矩阵和邻接表其中邻接表中的链接按元素大小升序排列先给出一个例子说明假设有无向图如下则其邻接矩阵和邻接表如提示框中所示其实
javaweb项目实战（附有源码)

这个代码是我做微信小程序的时候专门用java做的web项目主要是为前端提供接口便于前端调用数据如果有想要参考javaweb项目如何做的小伙伴可以到github上下载 github上有前端和后端代码在wiki上还有表结构和接口文档
VIM 点滴积累

删除列 1 光标定位到要操作的地方 2 CTRL v 进入可视块模式选取这一列操作多少行 3 d 删除插入列插入操作的话知识稍有区别例如我们在每一行前都插入 1 光标定位到要操作的地方 2 CTRL v 进入可视块模式
java stream SONObject和JSONArray操作

转自 https zhuanlan zhihu com p 36865573 1 取最后一条数据 stream对象存在方法findFirst 我们可以很方便的取到第一条数据但它却没有findLast方法需要取到最后一条数据我们可以将数
模型微调（Finetune）

参考 https zhuanlan zhihu com p 35890660 ppt下载地址 https github com jiangzhubo What is Fine tuning 一什么是模型微调给定预训练模型 Pre tra
IDDPM论文阅读

论文链接 Improved Denoising Diffusion Probabilistic Models 文章目录摘要引言去噪扩散概率模型定义实际训练对数似然改善可学习的
Linux-Shell技巧-参数化alias

shell脚本提供了改写命令方式 alias 但是alias改写常用的是直接改写方式比如如下操作 alias ll ls alt alias g gvim 但通常情况下有的明林需要传递参数或者用户可以自定义话一些常用的路径但有些文件
docker-/var/lib/docker数据迁移

docker默认目录是 var lib docker 位于系统盘上占用空间比较大计划迁移到新挂在的盘上第一步在新盘上创建文件夹 mkdir p data docker lib 第二步复制文件到新目录 rsync avz var l
数据结构与算法（二十）快速排序、堆排序(四)

数据结构与算法三软件设计十九 https blog csdn net ke1ying article details 129252205 排序分为稳定排序和不稳定排序内排序和外排序内排序指在内存里外排序指在外部存储空
electron-vue工程创建

创建工程创建一个工作文件夹用于存放所有Electron工程设为 D work 打开CMD cd到 D work 文件夹下然后执行命令创建 electron vue 工程创建过程会多次提示输入信息 vue init simulate
【2011集训队出题】Digit

Description 在数学课上小T又被老师发现上课睡觉了为了向全班同学证明小T刚才没有好好听课数学老师决定出一道题目刁难一下小T 如果小T答不出那么情节就按照俗套的路线发展下去了小T显然无法解决这么复杂的问题可怜的小T只能
联想拯救者系统重装？不求人教程

前阵子帮人重装了联想原装系统今天总结一下步骤造福那些想给女同志装联想原装系统而无从下手的工具人哈哈哈哈哈进入正题既然要重装系统就绕不开做启动盘要做一个玉洁冰清小声BB 纯净无插件的启动盘 U盘启动盘制作工具的选择就很关键
爬虫毕设（三）：爬取动态网页

动态网页分析按照上一篇的分析直接使用XPath找到该标签然后通过parse提取出数据在写入到item中就完事了但是当信心满满的写完代码后却发现控制台输入了一个简简单单的小问号你是否有很多朋友一顿操作猛如虎一看输出数据无

爬虫毕设（三）：爬取动态网页

动态网页分析

爬虫毕设（三）：爬取动态网页 的相关文章

随机推荐

热门标签

爬虫毕设（三）：爬取动态网页的相关文章