利用xpath解析器爬取豆瓣电影top250

2023-11-11

首先声明需要用的库，当然我还用到了os库，将工作路径修改到了我指定的路径。os.chdir(r"C:\Users…")

from lxml import etree
import requests 
import time
import json

豆瓣top250总共有10页，每页25部电影，每页的url都是有规律的，第一页的url是“https://movie.douban.com/top250”，第二页的url是“https://movie.douban.com/top250?start=25&filter=”也就是start参数会随着页码变化，首页就是start=0，我们首先实现get_page()方法并传入参数url

def get_page(url):
	headers={"User-Agent":'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3741.400 QQBrowser/10.5.3863.400'}
	#请求头可以通过F12快捷键获得
	response=requests.get(url,headers=headers)
	response.encoding=response.apparent_encoding
	#由于网站的编码很多都不同，使用response.apparent_encoding获取网站的编码格式。
	return response.text

这样运行后就获得了首页的源代码了，接下来就是解析网页，提取信息。
我们使用Xpath来进行相应信息的抽取。

def get_message(text)
""":parse text 是页面返回的源代码

使用xpath提取我们需要的电影名字，排名，影评等信息"""
html=etree.xpath(text)
rank=html.xpath('//div[@class="pic"]/em/text()')
name=html.xpath('//div[@class="hd"]/a/span[1]/text()')
score=html.xpath('//div[@class="star"]/span[contains(@class,"rating_num")]/text()')
words=html.xpath('//p[@class="quote"]/span/text()')
for items in range(len(rank)):
	yield {"rank":rank[items],"name":name[items],
	"score":score[items],"words":words[items]}

这样就提取了电影名字、评分、排名、影评等内容。并赋值为一个字典，形成数据化结构。随后我们就要将提取的结果写入文件。由于字典形式无法直接写入txt，所以要用JSON库的dumps()方法。

def write_file(content):
	with open("result.txt","a",encoding="gb18030") as f:
		f.write(json.dumps(content,ensure_ascii=False)+'\n')

接下来就是构建网址,豆瓣top250总共有10页，每页25部电影，每页的url都是有规律的，第一页的url是“https://movie.douban.com/top250”，第二页的url是“https://movie.douban.com/top250?start=25&filter=”也就是start参数会随着页码变化，首页就是start=0。

def change_url(start):
	url="https://movie.douban.com/top250?start="+str(start)+"&filter="
	return url
def main(start):
	url=change_url(start)
	text=get_page(url)
	for i in get_message(text):
		print(i)
		write_file(i)
if __name__=="__main__":
	for i in range(10):
		start=25*10
		main(start)
		time.sleep(3) #防止反爬虫，如果速度过快可能会无响应，设置延时等待

全部代码，如下：

from lxml import etree
import requests 
import time
import json
def get_page(url):
	headers={"User-Agent":'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3741.400 QQBrowser/10.5.3863.400'}
	response=requests.get(url,headers=headers)
	response.encoding=response.apparent_encoding
	return response.text
def get_message(text)：
	html=etree.xpath(text)
	rank=html.xpath('//div[@class="pic"]/em/text()')
	name=html.xpath('//div[@class="hd"]/a/span[1]/text()')
	score=html.xpath('//div[@class="star"]/span[contains(@class,"rating_num")]/text()')
	words=html.xpath('//p[@class="quote"]/span/text()')
	for items in range(len(rank)):
		yield {"rank":rank[items],"name":name[items],"score":score[items],"words":words[items]}
def write_file(content):
	with open("result.txt","a",encoding="gb18030") as f:
		f.write(json.dumps(content,ensure_ascii=False)+'\n')
def change_url(start):
	url="https://movie.douban.com/top250?start="+str(start)+"&filter="
	return url
def main(start):
	url=change_url(start)
	text=get_page(url)
	for i in get_message(text):
		print(i)
		write_file(i)
if __name__=="__main__":
	for i in range(10):
		start=25*10
		main(start)
		time.sleep(3) #防止反爬虫，如果速度过快可能会无响应，设置延时等待

目前发现问题就是如果某部电影没有影评就会出现影评错乱的现象导致列表长度无法匹配，求大神指教。个人博客，小白一个，勿喷。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

利用xpath解析器爬取豆瓣电影top250 的相关文章

使用 python requests 模块时出现 HTTP 503 错误

我正在尝试发出 HTTP 请求但当前可以从 Firefox 浏览器访问的网站响应 503 错误代码本身非常简单在网上搜索一番后我添加了user Agent请求参数但也没有帮助有人能解释一下如何消除这个 503 错误吗顺便说一句
为什么从 Pandas 1.0 中删除了日期时间？

我在 pandas 中处理大量数据分析并每天使用 pandas datetime 最近我收到警告 FutureWarning pandas datetime 类已弃用并将在未来版本中从 pandas 中删除改为从 datetime 模块
Pandas/Google BigQuery：架构不匹配导致上传失败

我的谷歌表中的架构如下所示 price datetime DATETIME symbol STRING bid open FLOAT bid high FLOAT bid low FLOAT bid close FLOAT ask open
删除flask中的一对一关系

我目前正在使用 Flask 开发一个应用程序并且在删除一对一关系中的项目时遇到了一个大问题我的模型中有以下结构 class User db Model tablename user user id db Column db String
独立滚动矩阵的行

我有一个矩阵准确地说是 2d numpy ndarray A np array 4 0 0 1 2 3 0 0 5 我想滚动每一行A根据另一个数组中的滚动值独立地 r np array 2 0 1 也就是说我想这样做 print np
立体太阳图 matplotlib 极坐标图 python

我正在尝试创建一个与以下类似的简单的立体太阳路径图 http wiki naturalfrequent com wiki Sun Path Diagram http wiki naturalfrequency com wiki Sun Pa
Pandas Merge (pd.merge) 如何设置索引和连接

我有两个 pandas 数据框 dfLeft 和 dfRight 以日期作为索引 dfLeft cusip factorL date 2012 01 03 XXXX 4 5 2012 01 03 YYYY 6 2 2012 01 04 XX
为什么 PyYAML 花费这么多时间来解析 YAML 文件？

我正在解析一个大约 6500 行的 YAML 文件格式如下 foo1 bar1 blah name john age 123 metadata whatever1 whatever whatever2 whatever stuff thi
Python beautifulsoup 仅限 1 级文本

我看过其他 beautifulsoup 得到相同级别类型的问题看来我的有点不同这是网站我正试图拿到右边那张桌子请注意表的第一行如何展开为该数据的详细细分我不想要那个数据我只想要最顶层的数据您还可以看到其他行也可以展开但在本例
在Python中检索PostgreSQL数据库的新记录

在数据库表中第二列和第三列有数字将会不断添加新行每次每当数据库表中添加新行时 python 都需要不断检查它们当 sql 表中收到的新行数低于 105 时 python 应打印一条通知消息警告数量已降至 105 以下另一方面
当 contains() 工作正常时，xpath 函数ends-with() 工作时出现问题

我正在尝试获取具有以特定 id 结尾的属性的标签 like span 我想获取 id 以国家地区结尾的跨度我尝试以下xpath span ends with id Country 但我得到以下异常需要命名空间管理器或 XsltCon
Cython 和类的构造函数

我对 Cython 使用默认构造函数有疑问我的 C 类 Node 如下 Node h class Node public Node std cerr lt lt calling no arg constructor lt lt std e
import matplotlib.pyplot 给出 AttributeError: 'NoneType' 对象没有属性 'is_interactive'

我尝试在 Pycharm 控制台中导入 matplotlib pyplt import matplotlib pyplot as plt 然后作为回报我得到 Traceback most recent call last File D Pr
为什么 Pickle 协议 4 中的 Pickle 文件是协议 3 中的两倍，而速度却没有任何提升？

我正在测试 Python 3 4 我注意到 pickle 模块有一个新协议因此我对 2 个协议进行了基准测试 def test1 pickle3 open pickle3 wb for i in range 1000000 pickle
如何在 pygtk 中创建新信号

我创建了一个 python 对象但我想在它上面发送信号我让它继承自 gobject GObject 但似乎没有任何方法可以在我的对象上创建新信号您还可以在类定义中定义信号 class MyGObjectClass gobject GO
python import inside函数隐藏现有变量

我在我正在处理的多子模块项目中遇到了一个奇怪的 UnboundLocalError 分配之前引用的局部变量问题并将其精简为这个片段使用标准库中的日志记录模块 import logging def foo logging info fo
实现 XGboost 自定义目标函数

我正在尝试使用 XGboost 实现自定义目标函数在 R 中但我也使用 python 所以有关 python 的任何反馈也很好我创建了一个返回梯度和粗麻布的函数它工作正常但是当我尝试运行 xgb train 时它不起作用然后我
Pandas 每周计算重复值

我有一个Dataframe包含按周分组的日期和 ID df date id 2022 02 07 1 3 5 4 2022 02 14 2 1 3 2022 02 21 9 10 1 2022 05 16 我想计算每周有多少 id 与上周重
更改 Tk 标签小部件中单个单词的颜色

我想更改 Tkinter 标签小部件中单个单词的字体颜色我知道可以使用文本小部件来实现与我想要完成的类似的事情例如使单词 YELLOW 显示为黄色 self text tag config tag yel fg clr yellow s
cv2.VideoWriter：请求一个元组作为 Size 参数，然后拒绝它

我正在使用 OpenCV 4 0 和 Python 3 7 创建延时视频构造 VideoWriter 对象时文档表示 Size 参数应该是一个元组当我给它一个元组时它拒绝它当我尝试用其他东西替换它时它不会接受它因为它说参数不是

随机推荐

Multisim14基本介绍（上）

Multisim14是一种专门用于电路仿真和设计的软件之一是NI公司下属的ElectroNIcs Workbench Group推出的以Windows为基础的仿真工具是目前最为流行的EDA软件之一该软件基于PC平台采用图形操作界面虚
ValueError: Input contains NaN, infinity or a value too large for dtype('float64').

笔者在使用LogisticRegression模型进行预测时报错 Traceback most recent call last File D 软件学习 Python MachineLearing taitannike train py
Linux Docker容器镜像的详解与创建

一什么是docker 镜像就是把业务代码可运行环境进行整体的打包二如何创建docker镜像现在docker官方共有仓库里面有大量的镜像所以最基础的镜像我们可以在公有仓库直接拉取因为这些镜像都是原厂维护可以得到即使的更新和
响应式原理

vue响应式原理 vue2 vue2中使用了ES5里面的Object defineProperty方法给对应data中的数据的每个值添加了set和get方法当值被修改时就会触发对应的set方法 set方法里会通知独影的watcher
Python循环结构——for

for循环是循环结构中的另外一种基本使用方法 for 变量名 in 目标对象用于循环的子代码在for循环中必定存在一个变量作为游标且变量会在每次循环开始时自动发生变化如果没有特别设定变化的值则默认为 1 当目标对象为列表字典
redis学习：redisKey的基本命令

Redis是一个开源 BSD许可内存存储的数据结构服务器可用作数据库高速缓存和消息队列代理它支持字符串哈希表列表集合有序集合位图 hyperloglogs等数据类型内置复制 Lua脚本 LRU收回事务以及不同级别磁盘持
激光雕刻机：废旧光驱的涅槃之路

激光雕刻机废旧光驱的涅槃之路从 FeedzShare 1天最热有超过 100 人喜欢此条目来自 www guokr com FeedzShare 发布时间 2011年04月20日已有 5 人推荐 DIYer zieak 制作时间
ROS 安装详细教程 —— Ubuntu20.04 LTS 安装

ROS 安装详细教程 Ubuntu20 04 LTS 安装 ROS 简介官方文档对 ROS 的介绍如下 The Robot Operating System ROS is a set of software libraries and t
网站优化搜索引擎与关键词

网站优化搜索引擎与关键词人们不应该高估搜索引擎的智商这不利于seo的研究事实上搜索引擎是非常愚蠢的让我们举一个非常简单的例子你在搜索引擎中输入教师这个词搜索引擎就会给出一个准确的搜索列表我们不会给出教师一词的检索信息
使用Docker部署前后端分离项目

目录引言部署需要用到的镜像汇总 1 Redis部署 1 搜索Redis镜像 2 拉取Redis镜像 3 创建Redis容器 2 MySQL部署 1 拉取MySQL镜像 2 查看镜像 3 启动MySQL容器 4 使用本地Navicat测试
报错（内存溢出）：Exception in thread "Thread-8" java.lang.OutOfMemoryError: PermGen space

Exception in thread Thread 8 java lang OutOfMemoryError PermGen space 解决办法能正常使用但是偶尔会报下面这个错误从偶尔这个说法来看是你热部署次数太多了导致JVM
http协议访问网址的流程

http协议 http协议可以说是由三个部分组成的超文本 URL Http 超文本网页中的信息如文字图片视频 URL 统一资源定位符由三个部分组成协议主机端口文件名及路径使用http协议的访问流程例如我们想访问百度则
C# => Lambda表达式理解

本文参考网上的博客和找到的资料加上个人理解编写的主要的代码借鉴 http www cnblogs com knowledgesea p 3163725 html 百度百科希望能够帮助理解lambda表达式定义 Lambda表达式是一
阿里测开的性能测试技术笔记：如何快速上手压测工作

新年第一个工作日继续整理之前的技术笔记前面通过三篇的内容将自动化测试相关的技术笔记做了整理汇总这篇内容主要是我刚开始做性能测试时的一些记录对新手或者刚进入一个新项目的同学应该有所帮助一般我们在刚介入一个项目时我认为可以从如
基于视觉重定位的室内AR导航APP的大创项目思路（3）手机相机内参数据获取和相机标定

文章目录相机内参为什么要获取相机的内参数据获取相机内存数据的方法棋盘格标定自动相机标定前情提要是第一次做项目的小白文章内的资料介绍如有错误请多包含相机内参相机内参是本身的物理数据包括焦距f和缩放c 一般以矩阵K的形式
Lattice Diamond 3.12下载与安装（免费获取license.dat）

Lattice Diamond 3 12下载安装与激活免费获取license dat Lattice Diamond是LATTICE半导体公司推出的一款免费的FPGA开发软件其实这个软件具体的下载与安装过程在其配套文档里有比较详细的说
STM32Cube MX USB双设备MSC+CDC 实现虚拟U盘+虚拟串口

前言在上一篇文章实现USB虚拟U盘之后项目需要用同一个USB口同时实现MSC和CDC功能既能进行串口通信又能读取片外FLASH虚拟U盘对于USB通用串行总线如果要真正搞明白这个协议还是比较困难的需要用不少时间来了解驱动原代码但是
IDA动态调试动态注册native函数流程

安卓手游逆向交流群963612891 IDA动态调试动态注册native函数流程1 编写目的记录IDA动态调试步骤 2使用工具逆向工具 IDA 7 0 Jadx 运行环境 Nexus 5 Android 4 4 3 原字符串信息 4
Vue - 使用Lodash进行深拷贝

文章目录深浅拷贝的理解使用lodash 深浅拷贝的理解浅拷贝只是将数据中所有的数据引用下来依旧指向同一个存放地址拷贝之后的数据修改之后也会影响到原数据的中的对象数据例如 Object assign 扩展运算符深拷贝将数据
利用xpath解析器爬取豆瓣电影top250

首先声明需要用的库当然我还用到了os库将工作路径修改到了我指定的路径 os chdir r C Users from lxml import etree import requests import time import json 豆

利用xpath解析器爬取豆瓣电影top250

利用xpath解析器爬取豆瓣电影top250 的相关文章

随机推荐

热门标签