爬取豆瓣电影排行榜top 250

2023-11-02

# *-* coding:utf-8 *-*

import requests
import re,os

#爬取豆瓣250

def douban_ranking(start):
	
	#构建请求	
	param = {"start": start,
		"filter":"" 
			}
	respon = requests.get(url,headers=headers,params=param)
	page_content = respon.text
	respon.close()
	
	#re 正则
	obj = re.compile(r'<li>.*?<span class="title">(?P<video_name>.*?)</span>.*?导演:(?P<director>.*?)&nbsp.*?<br>(?P<year>.*?)&nbsp.*?property="v:average">(?P<score>.*?)</span>',re.S)
#	re_boj=obj.findall(page_content)
	re_boj=obj.finditer(page_content)
	
	return re_boj

if __name__ == '__main__':
	path = r'C:\Users\wyb\Desktop\python\BBtest\aa.html'
	if os.path.exists(path):
		os.remove(path)
		
	url = "https://movie.douban.com/top250"
	headers = {"User-Agent":"Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.72 Safari/537.36"}
	
	start = 0
	while start < 250:
		
		re_boj=douban_ranking(start)
		start = start+25
		with open(r'C:\Users\wyb\Desktop\python\BBtest\aa.html',mode='a',encoding="utf-8") as f:
			for i in re_boj:
#			print(i.group("video_name"),i.group("director"),i.group("year").strip(),i.group("score"))
				
				
				f.write(i.group("video_name")+' ')
				f.write(i.group("director")+' ')
				f.write(i.group("year").strip()+' ')
				f.write(i.group("score")+'\n')
#				dic = i.groupdict()
#				dic['year'] = dic['year'].strip()
#				f.write(str(dic))
		
	
	print("over")

生成结果：电影名字，导演，年份，评分

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python爬虫学习笔记

爬取豆瓣电影排行榜top 250 的相关文章

C++算术类型

算术类型分为两类整型 integral type 包含字符类型和布尔类型和浮点型算术类型的尺寸在不同机器有所差别 C 算术类型类型含义最小尺寸 bit 字节 byte bool 布尔类型未定义 1 char 字符型 8位 1
不相交的线

不相交的线在两条独立的水平线上按给定的顺序写下 nums1 和 nums2 中的整数现在可以绘制一些连接两个数字 nums1 i 和 nums2 j 的直线这些直线需要同时满足满足 nums1 i nums2 j 且绘制的直线不与任
解决VirtualBox只能安装32位系统的问题

安装VirtualBox虚拟机后发现只能安装32位系统如下图原因分析电脑未开启cpu虚拟化技术解决方式需要到电脑BIOS里设置一下方可安装 64位系统操作方式 1 进入BIOS设置根据电脑型号不同进入方式不一致可网上查找进
每天定时用爬虫爬取新闻发送给三爷

需求 1 获取前十条科技要闻 2 通过邮件发送给指定收件人 3 定时发送 1 获取要闻选的是新浪科技网https tech sina com cn 爬取前十名要闻 import requests from requests import
tensorlfow-yolov3训练

本帖纯粹记录个人开发过程服务器环境 V100服务器 ubuntu16 04 cuda10 0 tensorflow1 13 1 python3 5 tensorflow yolov3版本 https github com YunYang1
ThreadLocal理解及其内存泄露

ThreadLocal理解及其内存泄露 ThreadLocal可以理解为为一个线程隔离的变量他不是一个集合他只是一个类这个类可以set get remove set时使用的是哪个线程 get时也必需用哪个线程去获取才能获取到值
关于Proximal Methods，近端梯度下降的理解

本文介绍了两种Proximal Methods的证明方法以及实现内容主要来源于王然老师的 Proximal Methods 一文以及网络加入了部分个人理解由于水平有限如有不妥之处敬请指正为什么会有Proximal methods
C语言之结构体(Struct)

Struct 结构体的两种定义方法方法1 方法2 结构体的成员的初始化与访问应用举例结构体的两种定义方法方法1 定义一个结构体 struct Name int temp1 float temp2 1 1 定义一个结构体变量 stru
拿offer必须掌握的最全SpringCloud面试题（含答案）

今天公司的项目比较忙远程开会和办公的沟通效率总是差那么一点为了节约点时间就不介绍SpringCloud了我想只要是一名Java开发程序员提到微服务一定对SpringCloud的大名如雷贯耳我们直接来看它的高频面试题吧 1 什么
R绘制双坐标轴

目录方法一 ggplot中的sec axis函数方法二 plotrix包中的twoord plot 函数和twoord stackplot 函数方法一 ggplot中的sec axis函数 ggplot2支持直接显示在辅助轴上的数据的
机器学习——为什么逻辑斯特回归(logistic regression)是线性模型

问逻辑斯蒂回归是一种典型的线性回归模型答正确逻辑斯蒂回归是一种典型的线性回归模型它通过将线性回归模型的输出结果映射到 0 1 区间内表示某个事物发生的概率从而适用于二分类问题具体地说它使用sigmoid函数对线性回归模型的
Python的赋值与深浅拷贝

简要版本由于 Python 内部引用计数的特性对于不可变对象浅拷贝和深拷贝的作用是一致的就相当于复制了一份副本原对象内部的不可变对象的改变不会影响到复制对象浅拷贝的拷贝其实是拷贝了原始元素的引用内存地址所以当拷贝可变对象
FLEX开发人员中心部分下载

Adobe Application Modeling plug in download Adobe Application Modeling plug in download 点击进入 Flex MX Skin Design Extensi
C语言基础入门48篇_47_C语言操作文件（文件操作函数、打开文件fopen()、关闭文件fclose()、fclose规范程序、野指针的定义为：指针地址存在，但是指针指向的是一个已经释放的资源）

本篇主要介绍c语言中对文件的打开关闭操作 1 C语言文件操作函数 C标准库中提供了一系列的函数来操作文件因为C库函数做了这个中间层屏蔽掉了操作系统上对于文件的不同处理关于文件的常见基本操作有打开文件fopen 创建文件或打开文件载
2020-6次面试阿里，持续一个多月，终于拿到offer了!

从3月开始准备一直到5月22号终于拿到阿里的实习offer 这一路真的是一把辛酸泪下面细说之在这一路上坎坎坷坷跌跌宕宕期间面了阿里腾讯百度今日头条小米笔试网易美团携程爱奇艺不得不说阿里是持续周期最长的
视频爬虫逆向简单入门级

严禁用于学习交流之外的任何用途侵删只能说这个比较简单没什么难度很适合做js逆向入门下面就开始解析一下这个网站吧 aHR0cHM6Ly93d3cubWlndXZpZGVvLmNvbS9tZ3Mvd2Vic2l0ZS9wcmQvZGV
python中的爬虫基础工具介绍

一引入什么是爬虫网络爬虫按照一定的规则自动地抓取互联网信息的程序通俗的来讲模拟用户端向服务器发送请求批量获取数据的一种程序或工具方式二爬虫的分类 1通用爬虫通用网络爬虫是捜索引擎抓取系统 Baidu Google S

随机推荐

二进制部署k8s集群

二进制部署k8s集群 1 安装要求在开始之前部署 Kubernetes 集群机器需要满足以下几个条件一台或多台机器操作系统 CentOS7 硬件配置 2GB 或更多 RAM 2 个 CPU 或更多 CPU 硬盘 30GB 或更多集
【JavaSE】常用类库1

常用类库 1 对象清理对象的清理 JDK1 9以前使用Object中的finalize 方法 JDK1 9后 java lang ref Cleaner类基于AutoCloseable接口资源释放对象释放前启动对象清理线程 pub
20220128学习记录- 北交opencv基础

1 模拟图像空间采样与亮度量化数字图像空间分辨率与采样间隔有关亮度分辨率与灰度级有关 2 图像存储比特数面积x灰度级的量化级别注意是256灰度级不是乘256而是乘8 2的8次方 3 各类图像格式的特点与区别 4 灰度直方图
什么是数据挖掘技术，基本概念是什么？

随着计算机技术的发展各行各业都开始采用计算机及相应的信息技术进行管理和运营这使得企业生成收集存贮和处理数据的能力大大提高数据量与日俱增企业数据实际上是企业的经验积累当其积累到一定程度时必然会反映出规律性的东西对企业来堆积
JavaWeb-使用cookie完成两周内免登录功能

欢迎页面 h2 欢迎页面 h2 br
一文看懂异步 FIFO 架构（三) 双时钟的异步 FIFO

目录工作原理方向标志方向标志的实现计算满和空结论往期系列博客在本系列的第一篇文章中我们看到了 FIFO 的一般架构并分析了一个时钟的简单情况该系列的第二部分描述了一种可能的双时钟设计的架构在第三部分中我们将探索另一种
Window操作系统基本知识

windows系统 kernel32 dll是Windows 系统中非常重要的32位动态链接库文件属于内核级文件它控制着系统的内存管理数据的输入输出操作和中断处理当Windows启动时 kernel32 dll就驻留在内存中特定的写
【CSS】滚动条样式详解

只总结webkit的 IE与firefox暂不做记录呼出与关闭滚动条 1 如果是浏览器的滚动条其依赖的是html标签我们不需要设置内容溢出会自动出现对html标签的溢出样式隐藏即可 html overflow x hidden 隐
集合竞价规则及集合竞价的产生条件

了解一下集合竞价规则对于股民来说是非常重要的否则连一些基本的定义都了解不清楚的话那么就麻烦了下面为你介绍一下集合竞价规则以及集合竞价的产生条件如果想要了解更多集合竞价方面的知识敬请关注QR量化投资社区下面让我们了解一下集合竞
引入flutter module，运行时flutter_webview_plugin报错：Unhandled Exception: MissingPluginException

异常信息 Android原生项目引入了一个flutter module flutter module用到了一个flutter写的sdk sdk需要使用webview来执行js代码因此sdk引用了flutter webview plugin
mysql 分区表合并_MySQL 合并表、分区表

合并表合并表示一种早期的简单的分区实现在未来可能被淘汰不推荐使用限制合并表和子表的字段索引要完全相同即使子表上有主键限制合并表中仍然会出现重复值如果删除其中一个子表表可能还存在带只能通过合并表访问视操作系统而定合
@GetMapping 接多个参数的写法

后面拼接接着拼接上去就行了此上方面针对于接收多个未知参数但是针对有很多需要模糊查询的方面如果我们所需要的接收的参数是我们实体类对象的话就不需要这么麻烦了直接带入实体类对象用即可
qt 串口通信

qt串口通信需要用到QSerialport类 1 pro文件中添加QT serialport 2 获取当前有哪些串口设备 QSerialPortInfo availablePorts 3 设置要打开的串口 setPortName 然后打开
前端人员学习postman

前端人员使用postman postman介绍下载安装 posman的基本操作主要进的是如何新建一个文件夹然后新建请求 postman发送不同请求讲的是如何发送不同类型的请求发送get请求发送post请求 body里面数据类型的
人工智能科技成熟的11个Github上免费开源项目，很多电影中才有的场景应用到现实颠覆普通人的认知和想象

人工智能科技成熟的11个Github上免费开源项目很多电影中才有的场景应用到现实颠覆普通人的认知和想象全文大纲 PULSE 该开源项目可以通过给图片增加像素点来实现去马赛克或高清化 Depix 给打了马赛克的文字去码 TecoGAN 给
Wireshark数据抓包分析之ARP协议

目录预备知识 1 知识储备 2 什么是ARP 3 ARP工作流程 4 ARP缓存表实验目的实验环境实验步骤一实验步骤二实验步骤三预备知识 1 知识储备推荐两本好书 TCP IP详解卷1 http www pc6 com so
两相混合步进电机（简单驱动器）simulink仿真

1 目的主要是控制步进电机的正反转以及周期性的转动一个步距角度驱动模式为整步4拍不涉及到对转速的控制比较基础其次比较着重于对模型的分析如有错误这里欢迎大佬们指出推荐先看一下以下的论文基于simulink的步进电机控制系统仿真
MySQL 删除表中的数据记录

文章目录前言一删除表中的数据记录 1 删除特定数据记录 2 删除所有数据记录总结前言删除数据记录是数据操作中常见的操作可以删除表中已经存在的数据记录在MySQL中可以通过DELETE语句来删除数据记录该SQL语句可以通过以
JAVA中extends 与implements区别

http www cnblogs com hnrainll archive 2011 10 11 2207773 html JAVA中extends 与implements有啥区别 1 在类的声明中通过关键字extends来创建一个类的子
爬取豆瓣电影排行榜top 250

coding utf 8 import requests import re os 爬取豆瓣250 def douban ranking start 构建请求 param start start filter respon requests

爬取豆瓣电影排行榜top 250

爬取豆瓣电影排行榜top 250 的相关文章

随机推荐

热门标签