爬取豆瓣电影排行榜top 250

2023-11-02

 

# *-* coding:utf-8 *-*

import requests
import re,os

#爬取豆瓣250

def douban_ranking(start):
	
	#构建请求	
	param = {"start": start,
		"filter":"" 
			}
	respon = requests.get(url,headers=headers,params=param)
	page_content = respon.text
	respon.close()
	
	#re 正则
	obj = re.compile(r'<li>.*?<span class="title">(?P<video_name>.*?)</span>.*?导演:(?P<director>.*?)&nbsp.*?<br>(?P<year>.*?)&nbsp.*?property="v:average">(?P<score>.*?)</span>',re.S)
#	re_boj=obj.findall(page_content)
	re_boj=obj.finditer(page_content)
	
	return re_boj

if __name__ == '__main__':
	path = r'C:\Users\wyb\Desktop\python\BBtest\aa.html'
	if os.path.exists(path):
		os.remove(path)
		
	url = "https://movie.douban.com/top250"
	headers = {"User-Agent":"Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.72 Safari/537.36"}
	
	start = 0
	while start < 250:
		
		re_boj=douban_ranking(start)
		start = start+25
		with open(r'C:\Users\wyb\Desktop\python\BBtest\aa.html',mode='a',encoding="utf-8") as f:
			for i in re_boj:
#			print(i.group("video_name"),i.group("director"),i.group("year").strip(),i.group("score"))
				
				
				f.write(i.group("video_name")+' ')
				f.write(i.group("director")+' ')
				f.write(i.group("year").strip()+' ')
				f.write(i.group("score")+'\n')
#				dic = i.groupdict()
#				dic['year'] = dic['year'].strip()
#				f.write(str(dic))
		
	
	print("over")

生成结果: 电影名字,导演,年份,评分

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

爬取豆瓣电影排行榜top 250 的相关文章

  • C++算术类型

    算术类型分为两类 整型 integral type 包含字符类型和布尔类型 和浮点型 算术类型的尺寸在不同机器有所差别 C 算术类型 类型 含义 最小尺寸 bit 字节 byte bool 布尔类型 未定义 1 char 字符型 8位 1
  • 不相交的线

    不相交的线 在两条独立的水平线上按给定的顺序写下 nums1 和 nums2 中的整数 现在 可以绘制一些连接两个数字 nums1 i 和 nums2 j 的直线 这些直线需要同时满足满足 nums1 i nums2 j 且绘制的直线不与任
  • 解决VirtualBox只能安装32位系统的问题

    安装VirtualBox虚拟机后发现只能安装32位系统 如下图 原因分析 电脑未开启cpu虚拟化技术 解决方式 需要到电脑BIOS里设置一下 方可安装 64位系统 操作方式 1 进入BIOS设置 根据电脑型号不同进入方式不一致 可网上查找进
  • 每天定时用爬虫爬取新闻发送给三爷

    需求 1 获取前十条科技要闻 2 通过邮件发送给指定收件人 3 定时发送 1 获取要闻 选的是新浪科技网https tech sina com cn 爬取前十名要闻 import requests from requests import
  • tensorlfow-yolov3训练

    本帖纯粹记录个人开发过程 服务器环境 V100服务器 ubuntu16 04 cuda10 0 tensorflow1 13 1 python3 5 tensorflow yolov3版本 https github com YunYang1
  • ThreadLocal理解及其内存泄露

    ThreadLocal理解及其内存泄露 ThreadLocal可以理解为 为一个线程隔离的变量 他不是一个集合 他只是一个类 这个类可以set get remove set时使用的是哪个线程 get时 也必需用哪个线程去获取 才能获取到值
  • 关于Proximal Methods,近端梯度下降的理解

    本文介绍了两种Proximal Methods的证明方法以及实现 内容主要来源于王然老师的 Proximal Methods 一文以及网络 加入了部分个人理解 由于水平有限 如有不妥之处 敬请指正 为什么会有Proximal methods
  • C语言之结构体(Struct)

    Struct 结构体的两种定义方法 方法1 方法2 结构体的成员的初始化与访问 应用举例 结构体的两种定义方法 方法1 定义一个结构体 struct Name int temp1 float temp2 1 1 定义一个结构体变量 stru
  • 拿offer必须掌握的最全SpringCloud面试题(含答案)

    今天公司的项目比较忙 远程开会和办公的沟通效率总是差那么一点 为了节约点时间 就不介绍SpringCloud了 我想只要是一名Java开发程序员 提到微服务 一定对SpringCloud的大名如雷贯耳 我们直接来看它的高频面试题吧 1 什么
  • R绘制双坐标轴

    目录 方法一 ggplot中的sec axis函数 方法二 plotrix包中的twoord plot 函数和twoord stackplot 函数 方法一 ggplot中的sec axis函数 ggplot2支持直接显示在辅助轴上的数据的
  • 机器学习——为什么逻辑斯特回归(logistic regression)是线性模型

    问 逻辑斯蒂回归是一种典型的线性回归模型 答 正确 逻辑斯蒂回归是一种典型的线性回归模型 它通过将线性回归模型的输出结果映射到 0 1 区间内 表示某个事物发生的概率 从而适用于二分类问题 具体地说 它使用sigmoid函数对线性回归模型的
  • Python的赋值与深浅拷贝

    简要版本 由于 Python 内部引用计数的特性 对于不可变对象 浅拷贝和深拷贝的作用是一致的 就相当于复制了一份副本 原对象内部的不可变对象的改变 不会影响到复制对象 浅拷贝的拷贝 其实是拷贝了原始元素的引用 内存地址 所以当拷贝可变对象
  • FLEX开发人员中心部分下载

    Adobe Application Modeling plug in download Adobe Application Modeling plug in download 点击进入 Flex MX Skin Design Extensi
  • C语言基础入门48篇_47_C语言操作文件(文件操作函数、打开文件fopen()、关闭文件fclose()、fclose规范程序、野指针的定义为:指针地址存在,但是指针指向的是一个已经释放的资源)

    本篇主要介绍c语言中对文件的打开关闭操作 1 C语言文件操作函数 C标准库中提供了一系列的函数 来操作文件 因为C库函数做了这个中间层 屏蔽掉了操作系统上对于文件的不同处理 关于文件的常见基本操作有 打开文件fopen 创建文件或打开文件载
  • 2020-6次面试阿里,持续一个多月,终于拿到offer了!

    从3月开始准备 一直到5月22号 终于拿到阿里的实习offer 这一路 真的是一把辛酸泪 下面细说之 在这一路上 坎坎坷坷 跌跌宕宕 期间 面了阿里 腾讯 百度 今日头条 小米 笔试网易 美团 携程 爱奇艺 不得不说 阿里是持续周期最长的
  • 视频爬虫逆向简单入门级

    严禁用于学习交流之外的任何用途 侵删 只能说这个比较简单 没什么难度 很适合做js逆向入门 下面就开始解析一下这个网站吧 aHR0cHM6Ly93d3cubWlndXZpZGVvLmNvbS9tZ3Mvd2Vic2l0ZS9wcmQvZGV
  • python中的爬虫基础工具介绍

    一 引入什么是爬虫 网络爬虫 按照一定的规则 自动地抓取互联网信息的程序 通俗的来讲 模拟用户端向服务器发送请求 批量获取数据的一种程序或 工具 方式 二 爬虫的分类 1通用爬虫 通用网络爬虫是捜索引擎抓取系统 Baidu Google S

随机推荐

  • 二进制部署k8s集群

    二进制部署k8s集群 1 安装要求 在开始之前 部署 Kubernetes 集群机器需要满足以下几个条件 一台或多台机器 操作系统 CentOS7 硬件配置 2GB 或更多 RAM 2 个 CPU 或更多 CPU 硬盘 30GB 或更多 集
  • 【JavaSE】常用类库1

    常用类库 1 对象清理 对象的清理 JDK1 9以前 使用Object中的finalize 方法 JDK1 9后 java lang ref Cleaner类 基于AutoCloseable接口资源释放 对象释放前 启动对象清理线程 pub
  • 20220128学习记录- 北交opencv基础

    1 模拟图像 空间采样与亮度量化 数字图像 空间分辨率 与采样间隔有关 亮度分辨率 与灰度级有关 2 图像存储 比特数 面积x灰度级的量化级别 注意是256灰度级不是乘256而是乘8 2的8次方 3 各类图像格式的特点与区别 4 灰度直方图
  • 什么是数据挖掘技术,基本概念是什么?

    随着计算机技术的发展 各行各业都开始采用计算机及相应的信息技术进行管理和运营 这使得企业生成 收集 存贮和处理数据的能力大大提高 数据量与日俱增 企业数据实际上是企业的经验积累 当其积累到一定程度时 必然会反映出规律性的东西 对企业来 堆积
  • JavaWeb-使用cookie完成两周内免登录功能

    欢迎页面 h2 欢迎页面 h2 br
  • 一文看懂异步 FIFO 架构(三) 双时钟的异步 FIFO

    目录 工作原理 方向标志 方向标志的实现 计算满和空 结论 往期系列博客 在本系列的第一篇文章中 我们看到了 FIFO 的一般架构 并分析了一个时钟的简单情况 该系列的第二部分描述了一种可能的双时钟设计的架构 在第三部分中 我们将探索另一种
  • Window操作系统基本知识

    windows系统 kernel32 dll是Windows 系统中非常重要的32位动态链接库文件 属于内核级文件 它控制着系统的内存管理 数据的输入输出操作和中断处理 当Windows启动时 kernel32 dll就驻留在内存中特定的写
  • 【CSS】滚动条样式详解

    只总结webkit的 IE与firefox暂不做记录 呼出与关闭滚动条 1 如果是浏览器的滚动条 其依赖的是html标签 我们不需要设置 内容溢出会自动出现 对html标签的溢出样式隐藏即可 html overflow x hidden 隐
  • 集合竞价规则及集合竞价的产生条件

    了解一下集合竞价规则 对于股民来说 是非常重要的 否则连一些基本的定义都了解不清楚的话 那么就麻烦了 下面为你介绍一下集合竞价规则以及集合竞价的产生条件 如果想要了解更多集合竞价方面的知识 敬请关注QR量化投资社区 下面让我们了解一下集合竞
  • 引入flutter module,运行时flutter_webview_plugin报错:Unhandled Exception: MissingPluginException

    异常信息 Android原生项目引入了一个flutter module flutter module用到了一个flutter写的sdk sdk需要使用webview来执行js代码 因此sdk引用了flutter webview plugin
  • mysql 分区表合并_MySQL 合并表、分区表

    合并表 合并表示一种早期的 简单的分区实现 在未来可能被淘汰 不推荐使用 限制 合并表和子表的字段 索引要完全相同 即使子表上有主键限制 合并表中仍然会出现重复值 如果删除其中一个子表 表可能还存在 带只能通过合并表访问 视操作系统而定 合
  • @GetMapping 接多个参数的写法

    后面拼接接着拼接上去就行了 此上方面针对于 接收多个未知参数 但是针对有很多需要模糊查询的方面 如果 我们所需要的接收的参数 是我们实体类对象的话 就不需要这么麻烦了 直接带入实体类对象 用即可
  • qt 串口通信

    qt串口通信 需要用到QSerialport类 1 pro文件中添加QT serialport 2 获取当前有哪些串口设备 QSerialPortInfo availablePorts 3 设置要打开的串口 setPortName 然后打开
  • 前端人员学习postman

    前端人员使用postman postman介绍 下载安装 posman的基本操作 主要进的是如何新建一个文件夹 然后新建请求 postman发送不同请求 讲的是如何发送不同类型的请求 发送get请求 发送post请求 body里面数据类型的
  • 人工智能科技成熟的11个Github上免费开源项目,很多电影中才有的场景应用到现实颠覆普通人的认知和想象

    人工智能科技成熟的11个Github上免费开源项目 很多电影中才有的场景应用到现实颠覆普通人的认知和想象 全文大纲 PULSE 该开源项目可以通过给图片增加像素点来实现去马赛克或高清化 Depix 给打了马赛克的文字去码 TecoGAN 给
  • Wireshark数据抓包分析之ARP协议

    目录 预备知识 1 知识储备 2 什么是ARP 3 ARP工作流程 4 ARP缓存表 实验目的 实验环境 实验步骤一 实验步骤二 实验步骤三 预备知识 1 知识储备 推荐两本好书 TCP IP详解卷1 http www pc6 com so
  • 两相混合步进电机(简单驱动器)simulink仿真

    1 目的 主要是控制步进电机的正反转以及周期性的转动一个步距角度 驱动模式为整步4拍不涉及到对转速的控制 比较基础 其次比较着重于对模型的分析 如有错误 这里欢迎大佬们指出 推荐先看一下以下的论文 基于simulink的步进电机控制系统仿真
  • MySQL 删除表中的数据记录

    文章目录 前言 一 删除表中的数据记录 1 删除特定数据记录 2 删除所有数据记录 总结 前言 删除数据记录是数据操作中常见的操作 可以删除表中已经存在的数据记录 在MySQL中可以通过DELETE语句来删除数据记录 该SQL语句可以通过以
  • JAVA中extends 与implements区别

    http www cnblogs com hnrainll archive 2011 10 11 2207773 html JAVA中extends 与implements有啥区别 1 在类的声明中 通过关键字extends来创建一个类的子
  • 爬取豆瓣电影排行榜top 250

    coding utf 8 import requests import re os 爬取豆瓣250 def douban ranking start 构建请求 param start start filter respon requests