使用Python爬取不同类别的豆瓣电影简介

2023-10-29

使用Python爬取不同类别的豆瓣电影简介

之前做过一点文本分类的工作，从豆瓣上爬取了不同类别的数千条电影的简介。

爬取目标

我们爬取的目标是豆瓣影视，打开豆瓣网，随便点击一部电影，即可看到电影的介绍、评论等信息，我们需要爬取的是电影的简介部分。
在这里插入图片描述

思路

通过Chrome浏览器的调试工具中Network工具，我们可以看出在页面加载的同事，会发送一个Ajax请求查询指定类别的电影列表。
在这里插入图片描述
其中url字段即为详情页的链接。

在详情页，通过chrome调试器可以找到对应的标签，并且通过右键查看源代码，并使用ctrl+f （commond+f）可以发现当前页面有且仅有一个property="v:summary"的标签。

代码实现

由于爬取的数量相对较少，所以我在这里使用了轻量型爬虫工具 BeautifulSoup

$ pip install bs4

第一步是获取电影列表，以及其详情页的url

types = ['爱情', '动作', '恐怖']
for i in range(types):
    start = 0
    while start < 400:
        params = {
            "start": start,
            "genres": types[i]
        }
        targetUrl = url + 'start=' + str(start) + "&genres=" + types[i]
        try:
            r = requests.get(targetUrl)
        except:
            continue
        text = json.loads(r.text)
        movies = text['data']
        j = 0
        for movie in movies:
            j += 1
            info = getInfoByUrl(movie['url'])

第二步是根据电影的url获取简介

def getInfoByUrl(url):
    try:
        res = requests.get(url)
        html = res.text
        soup = BeautifulSoup(html, 'lxml')
        span1 = soup.find('span', attrs={'property': 'v:summary'})
        span2 = soup.find('span', attrs={'class': 'hideen'})
        if span2 != None:
            return span2.text
        return span1.text
    except:
        return " "

最后是将结果按照电影类别分别保存到不同的文件中

info = info.replace("\n", "")
info = info.replace("  ", "")
info = info.replace("　", "")
print(i, start, j)
with open(files[i] + '.txt', 'a+') as f:
    f.write(info + "\n")

爬取结果

python spider.py即可开始爬虫。最后查看当前目录下的txt信息即可得到结果
在这里插入图片描述
完整代码已上传至公众号【会编程的Z同学】，后台回复「豆瓣」即可获取。

公众号「HackDev」，心得与干货

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

HackDev

python

使用Python爬取不同类别的豆瓣电影简介的相关文章

如何读取通过追加行不断更新的文件？

在我的终端中我正在运行 curl user dhelm 12345 https stream twitter com 1 1 statuses sample json gt raw data txt curl 的输出是实时流式 Twitte
sphinx 中的分组方法文档字符串

是否可以使用 sphinx 的 autodoc 功能将多个方法文档字符串分组以便将它们列在一起 class Test object def a self A method of group foo def b self A method
使用 Python 的 optparse 模块时如何遵守 PEP 257 文档字符串？

根据PEP 257 http www python org dev peps pep 0257 multi line docstrings命令行脚本的文档字符串应该是它的使用消息脚本的文档字符串 a 独立程序应该可用作为其使用消息
Python Pandas 从宽到长的格式更改以及列标题拆分

我有一个包含以下列标题和行示例的表 Subject Test1 Result1 Test1 Result2 Test2 Result1 Test2 Result2 0 John 10 0 5 20 0 3 我想将其改造成 Subject l
如何在不破坏默认行为的情况下覆盖 __getattr__ ？

我如何覆盖 getattr https docs python org 3 reference datamodel html object getattr 类的方法而不破坏默认行为压倒一切 getattr 应该没事 getattr 仅作为
Python pandas：删除字符串中分隔符之后的所有内容

我有数据框其中包含例如 vendor a ProductA vendor b ProductA vendor a Productb 我需要删除所有内容包括两个以便我最终得到 vendor a vendor b vendor a 我尝
检查多维 numpy 数组的所有边是否都是零数组

n 维数组有 2n 个边 1 维数组有 2 个端点 2 维数组有 4 个边或边 3 维数组有 6 个 2 维面 4 维数组有 8 个边 ETC 这类似于抽象 n 维立方体发生的情况我想检查 n 维数组的所有边是否仅由零组成以下是边由零组
Highcharts 奇怪的分组行为

我正在使用延迟加载 http www highcharts com stock demo lazy loading加载 OHLC 数据的方法在服务器端我使用 Python MySQL 并有 4 个包含 OHLC 数据的表时间间隔为 5
__getitem__、__setitem__ 如何处理切片？

我正在运行 Python 2 7 10 我需要拦截列表中的更改我所说的更改是指在浅层意义上修改列表的任何内容如果列表由相同顺序的相同对象组成则列表不会更改无论这些对象的状态如何否则它会更改我不需要找出来how列表已经改变
使用Python进行图像识别[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我有一个想法就是我想识别图像中的字母可能是 bmp或 jpg 例如这是一个包含字母 S 的 bmp 图像我想做的是使用Pyth
使用 OpenCV 进行相机校准 - 如何调整棋盘方块大小？

我正在使用 OpenCV Python 示例开发相机校准程序来自 OpenCV 教程 http opencv python tutroals readthedocs io en latest py tutorials py calib3d
比较两个文本文件并计算差异

我一直在尝试在Python中比较两个文本文件本质上我想打开它们并一次比较一个字符如果字符不同则向计数器添加1 然后显示该值这是我到目前为止所拥有的 usr bin env python diff 0 import random im
什么时候用==，什么时候用is？

奇怪的是 gt gt gt a 123 gt gt gt b 123 gt gt gt a is b True gt gt gt a 123 gt gt gt b 123 gt gt gt a is b False Seems a is b
如何将一串Python代码编译成一个可以调用函数的模块？

在 Python 中我有一串 Python 源代码其中包含以下函数 mySrc def foo print foo def bar print bar 我想将这个字符串编译成某种形式类似模块的对象这样我就可以调用代码中包含的函数这是我
获取 HTML 代码的结构

我正在使用 BeautifulSoup4 我很好奇是否有一个函数可以返回 HTML 代码的结构有序标签这是一个例子 h1 Simple example h1 p This is a simple example of html page
使用 .map() 在 pandas DataFrame 中高效创建附加列

我正在分析形状与以下示例类似的数据集我有两种不同类型的数据 abc数据和xyz data abc1 abc2 abc3 xyz1 xyz2 xyz3 0 1 2 2 2 1 2 1 2 1 1 2 1 1 2 2 2 1 2 2 2 3
如何将列表中的每个项目转换为字符串，以便连接它们？ [复制]

这个问题在这里已经有答案了我需要加入一个项目列表列表中的许多项目都是从函数返回的整数值 IE myList append munfunc 我应该如何将返回的结果转换为字符串以便将其加入列表我是否需要对每个整数值执行以下操作 myLis
使用 plone.api 创建文件的 Python 脚本在设置文件时出现错误 WrongType

Dears 我正在创建一个脚本python来在Plone站点中批量上传文件安装是UnifiedInstaller Plone 4 3 10 该脚本读取了一个txt 并且该txt以分号分隔在新创建的项目中设置文件时出现错误下面是脚本 f
为什么 tesseract 无法从这个简单的图像中读取文本？

我在 pytesseract 上阅读了大量的帖子但我无法让它从一个简单的图像中读取文本它返回一个空字符串这是图像我尝试过缩放它灰度化它调整对比度阈值模糊以及其他帖子中所说的一切但我的问题是我不知道 OCR 想要更好地工作
将字典写入 csv 时遇到问题，其中键作为标题，值作为列

我有一本字典看起来像 mydict foo 1 2 bar 3 4 asdf 5 6 我正在尝试将其写入 CSV 文件使其看起来像 foo bar asdf 1 3 5 2 4 6 我花了最后一个小时寻找解决方案我发现的最接近的解决方

随机推荐

C/C++静态变量static详解

静态变量作用范围在一个文件内程序开始时分配空间结束时释放空间默认初始化为0 使用时可以改变其值静态变量或静态函数只有本文件内的代码才能访问它它的名字在其它文件中不可见用法1 函数内部声明的static变量可作为对象间的一种通信
数据挖掘 NO.1 数据挖掘入门

1 机器学习代价函数 m是样本数量直到最后得到的值收敛或者样本使用完 1 定义代价函数 2 对每个参数求偏导数 3 使用梯度下降算法更新数据集先开始进行划分解决OVERFITTING 1 在测试集评估模型 2 Regelizatio
Hibernate之多对多级联查询、新增、删除

以书籍与书籍类别为例一本书可以有多种类型一种类型也可以对应多本书书籍和书籍类别的关系是多对多的关系他们的关系是在中间表里面的多对多通过一个表找到另一个表的数据的条件为中间表中间表对应本表的外键中间表对应关联表的外键注多对
使用picgo配置图床使用

图床这种东西做博客是必须要的这里我记录目前我使用的几种图床方便以后使用以后有新的好用的也会相应的更新 sm ms图床免费的sm sm ms图床好用速度还可以下面图片是sm图可以感受一下速度 csdn图床 csdn这个社区
【裸机开发】I2C 通信接口（二）—— I2C 寄存器解析

目录一硬件原理图分析二 IO 复用寄存器解析三 I2C 寄存器解析 3 1 时钟配置 3 2 I2C1 IADR 设置从机地址 3 3 I2C1 IFDR 设置分频值 3 4 I2C1 I2CR I2C使能中断控制 3 5 I2C
ArcPy批量计算栅格数据平均值

遥感数据处理系列一些项目及科研中遇到的小需求一方面记录自己的学习历程另一方面帮助大家学习本系列文章的开发环境为 ArcGIS 10 2 2 Python 2 7 ENVI 5 3 IDL 8 5 ArcPy批量计算栅格数据平均值 G
Keil C51从汇编跳转到main函数编译器报错ERROR L127: UNRESOLVED EXTERNAL SYMBOL的解决办法

51单片机系列教程主仓库地址 https gitee com langcai1943 8051 from boot to application 遇到的问题1 如果你自建的汇编原文件不是以Keil默认的 A51或者 s S结尾而是以 as
华为手机连电脑当摄像头用_华为手机摄像头还能这样用！300页文档轻松电子化，堪称职场法宝...

华为手机摄像头还能这样用 300页文档轻松电子化堪称职场法宝我们生活中经常会使用相机记录一些美好的瞬间可是你知道吗华为手机摄像头还能这样用 300页的纸质文档可轻松电子化堪称职场法宝使用过华为手机的朋友们应该都知道华为手机的拍
三极管使用详解

扣扣技术交流群 460189483 PNP型的三极管使用方法常见的三极管为9012 s8550 9013 s8050 单片机应用电路中三极管主要的作用就是开关作用其中9012与8550为pnp型三极管可以通用其中9013与8050为
Ubuntu需要运行networkmanager的解决方法

问题在使用ubuntu时无法联网打开网络设置发现如下情况解决方法打开终端输入su 获取管理员权限然后输入systemctl start NetworkManager service 完成后即可正常联网了新问题每次开机后都需要
元器选型攻略之电感

电子元器件领域电阻电容电感被称为三剑客其中电感又被称为渣男什么是电感提到电感离不开电感线圈这个名词即用绝缘导线绕制而成的电磁感应元件要理解电感首先了解几个名词感生变化改变让我们回到高中课本 1 当一个导体相对磁
论文笔记：Deep Representation Learning for Trajectory Similarity Computation

ICDE 2018 1 intro 1 1 背景用于计算轨迹相似性的成对点匹配方法 DTW LCSS EDR ERP 的问题轨迹的采样率不均匀如果两个轨迹表示相同的基本路径但是以不同的采样率生成那么这些方法很难将它们识别为相似的轨
Qt 之 QSS（样式表语法）

简述 Qt样式表以下统称QSS 的术语和语法规则几乎和CSS相同如果你熟悉CSS 可以快速浏览以下内容样式规则 QSS包含了一个样式规则序列一个样式规则由一个选择器和声明组成选择器指定哪些部件由规则影响声明指定哪些属性应该在部件
以XML形式访问远程接口获得数据

JDK提供了供我们访问url获得数据的类核心类主要是URL URLConnection等详见JDK API 下面以XML形式实现两者通信 Servlet端发送信息 Java代码 protected void doGet HttpServ
Unity3D官方教程——Survival Shooter学习记录

unity 官方教程Survival Shooter 学习笔记 1 准备工作新建项目并导入官方商店的Survival Shooter资源在Assets下新建文件夹 Scence并在新文件夹内保存当前新场景命名为Main 2 背景和背景音
allegro设置禁止铺铜区的方法

allegro设置禁止铺铜区的方法 Cadence Allegro 16 6 关于shape分割的一种方法 Allegro 铺铜设置使用Shape Keepout设置禁止铺铜区操作方法是Setup Areas Shape Keepout
数据可视化python，绘制饼图，代码和解析

饼图样式使用matplotlib pyplot pie绘制代码描述 import matplotlib pyplot as plt import pandas as pd 定义饼状图的标签标签是列表 timeData pd read
Leetcode刷题（14. 最长公共前缀）

Leetcode刷题 14 最长公共前缀一题目二代码 C 三提交记录四备注一题目编写一个函数来查找字符串数组中的最长公共前缀如果不存在公共前缀返回空字符串示例 1 输入 flower flow flight 输出
延长线段ab到c的画法有几种_垂直与平行的画法

点击蓝字关注我们垂直与平行的画法现在中考对作图要求越来越高作图是对我们应用数学基本定理性质以及动手能力的一种考察问题的关键在于学生平时忽视了定理性质的重要性甚至初三念完了书还是新的通过作图对定理和性质进行理解记忆问题1
使用Python爬取不同类别的豆瓣电影简介

使用Python爬取不同类别的豆瓣电影简介之前做过一点文本分类的工作从豆瓣上爬取了不同类别的数千条电影的简介爬取目标我们爬取的目标是豆瓣影视打开豆瓣网随便点击一部电影即可看到电影的介绍评论等信息我们需要爬取的是电影的简介

热门标签