【python爬虫】爬取豆瓣电影TOP250数据

2023-11-18

这次以豆瓣电影TOP250网为例编写一个爬虫程序，并将爬取到的数据（排名、电影名和电影海报网址）存入MySQL数据库中。下面是完整代码：

Ps：在执行程序前，先在MySQL中创建一个数据库"pachong"。

import pymysql
import requests
import re


#获取资源并下载
def resp(listURL):
    #连接数据库
    conn = pymysql.connect(
        host = '127.0.0.1',
        port = 3306,
        user = 'root',
        password = '******',  #数据库密码请根据自身实际密码输入
        database = 'pachong', 
        charset = 'utf8'
    )

    #创建数据库游标
    cursor = conn.cursor()

    #创建列表t_movieTOP250（执行sql语句）
    cursor.execute('create table t_movieTOP250(id INT PRIMARY KEY 												auto_increment NOT NULL ,movieName VARCHAR(20) NOT NULL 									,pictrue_address VARCHAR(100))')

    try:
        # 爬取数据
        for urlPath in listURL:
            # 获取网页源代码
            response = requests.get(urlPath)
            html = response.text

            # 正则表达式
            namePat = r'alt="(.*?)" src='
            imgPat = r'src="(.*?)" class='

            # 匹配正则（排名【用数据库中id代替，自动生成及排序】、电影名、电影海报（图片地址））
            res2 = re.compile(namePat)
            res3 = re.compile(imgPat)
            textList2 = res2.findall(html)
            textList3 = res3.findall(html)

            # 遍历列表中元素,并将数据存入数据库
            for i in range(len(textList3)):
                cursor.execute('insert into t_movieTOP250(movieName,pictrue_address) 									VALUES("%s","%s")' % (textList2[i],textList3[i]))

        #从游标中获取结果
        cursor.fetchall()

        #提交结果
        conn.commit()
        print("结果已提交")

    except Exception as e:
        #数据回滚
        conn.rollback()
        print("数据已回滚")

    #关闭数据库
    conn.close()

#top250所有网页网址
def page(url):
    urlList = []
    for i in range(10):
        num = str(25*i)
        pagePat = r'?start=' + num + '&filter='
        urL = url+pagePat
        urlList.append(urL)
    return urlList


if __name__ == '__main__':
    url = r"https://movie.douban.com/top250"
    listURL = page(url)
    resp(listURL)

结果如下图：

以上就是我的分享，如果有什么不足之处请指出，多交流，谢谢！

想获取更多数据或定制爬虫的请私信我。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

爬虫

python

数据库

Python与MySQL交互

【python爬虫】爬取豆瓣电影TOP250数据的相关文章

使用 OpenCV 和/或 Numpy 对两个图像进行 Alpha 混合 [重复]

这个问题在这里已经有答案了我想将一个填充纯色的半透明矩形添加到已加载的半透明 PNG 中这是我正在使用的输入图像示例该图像加载了标准cv2 IMREAD UNCHANGED标志以便完美保留 alpha 通道该输入图像存储在imag
Python 子进程（ffmpeg）仅在我按 Ctrl-C 程序时启动？

我正在尝试使用 Cygwin 和 Python 2 7 并行运行一些 ffmpeg 命令这大概是我所拥有的 import subprocess processes set commands ffmpeg i input mp4 outpu
如何使用 Python 裁剪图像中的矩形

谁能给我关于如何裁剪两个矩形框并保存它的建议我已经尝试过这段代码但效果不佳 import cv2 import numpy as np Run the code with the image name keep pressing spa
Python GTK + webkit - 在 gtk.main() 之后插入 JavaScript

我在终端中尝试了这个一切正常但是如果我在脚本内运行这个我无法在 gtk main 之后插入 JavaScript import gtk import webkit w gtk Window b webkit WebView w add
正则表达式，选择最接近的匹配

假设以下单词序列 BLA text text text text text text BLA text text text text LOOK text text text BLA text text BLA 我想做的是将 BLA 中的文本
matplotlib 中的 R 风格数据轴缓冲区

R 绘图自动设置 x 和 y 限制以在数据和轴之间留出一些空间我想知道 matplotlib 是否有办法自动执行相同的操作如果没有是否有一个好的公式或经验法则来说明 R 如何设置其轴限制在 matplotlib 中您可以通过
组和平均 NumPy 矩阵

假设我有一个任意的 numpy 矩阵如下所示 arr 6 0 12 0 1 0 7 0 9 0 1 0 8 0 7 0 1 0 4 0 3 0 2 0 6 0 1 0 2 0 2 0 5 0 2 0 9 0 4 0 3 0 2 0 1 0
无法使用 BeautifulSoup 和 Requests 抓取下拉菜单

我想抓取百年灵网站上的产品页面以获取各种信息示例页面 https www breitling com gb en watches navitimer b01 chronograph 46 AB0127211C1A1 https www b
使用多级解决方案计算二维网格中的最近邻

我有一个问题在 x y 大小的网格中我提供了一个点并且我需要找到最近的邻居在实践中我试图在 pygame 中找到距离光标最近的点该点跨越颜色距离阈值计算如下 sqrt rgb1 0 rgb2 0 2 rgb1 1 rgb2 1
在Python中以交互方式执行多行语句

我是 Python 世界的新手这是我用 Python 编写的第一个程序我来自 R 世界所以这对我来说有点不直观当我执行时 In 15 import math import random random random math sqrt
Python——捕获异常的效率[重复]

这个问题在这里已经有答案了可能的重复 Python 常见问题解答异常有多快 https stackoverflow com questions 8107695 python faq how fast are exceptions 我记得
按多个键分组并对字典列表的值进行汇总/平均值

在Python中按多个键进行分组并对字典列表进行汇总平均值的最Pythonic方法是什么假设我有一个字典列表如下所示 input dept 001 sku foo transId uniqueId1 qty 100 dept 001
reStructuredText：README.rst 未在 PyPI 上解析

我有一个托管在 Github 和 PyPI 上的 Python 项目在 Github 上 https github com sloria TextBlob blob master README rst https github com s
返回上个月的日期时间对象

如果 timedelta 在它的构造函数中有一个月份参数就好了那么最简单的方法是什么 EDIT 正如下面指出的那样我并没有认真考虑这一点我真正想要的是上个月的任何一天因为最终我只会获取年份和月份因此给定一个日期时间对象返回的最
为什么 __instancecheck__ 没有被调用？

我有以下 python3 代码 class BaseTypeClass type def new cls name bases namespace kwd result type new cls name bases namespace p
如何使用 django-pyodbc (ubuntu 16.04) 配置数据库设置 Django-MSSQL？

我是 Django 新手目前正在尝试使用另一个数据库来保存我的模型即MS SQL 我的数据库部署在docker容器中 903876e64b67 microsoft mssql server linux bin sh c opt mssq
在Python中连续解析文件

我正在编写一个脚本该脚本使用 HTTP 流量行解析文件并取出域目前仅将它们打印到屏幕上我正在使用 httpry 将流量连续写入文件这是我用来删除域名的脚本 usr bin python import re input open r
在 scipy 中创建新的发行版

我试图根据我拥有的一些数据创建一个分布然后从该分布中随机抽取这是我所拥有的 from scipy import stats import numpy def getDistribution data kernel stats gauss
如何使用 os.chdir 转到减去最后一步的路径？

例如一个方法传递了一个路径作为参数这个路径可能是 C a b c d 如果我想使用 os chdir 更改为 C a b 怎么办 c 没有最后一个文件夹 os chdir 可以接受命令吗 os chdir 可以采取作为论点是的然
如何更改matplotlib中双头注释的头大小？

Below figure shows the plot of which arrow head is very small 我尝试了下面的代码但它不起作用它说引发 AttributeError 未知属性 s k 属性错误未知属性头宽

随机推荐

LeetCode数据库题目汇总一（附答案）

1 基础SQL 数据表 dept deptno primary key dname loc emp empno primary key ename job mgr references emp empno sal deptno refere
python numpy array 中删除含0量高于阈值的行--数据清洗

问题数据中包含较多0值类似于包含较大噪声对结果产生较大影响目标对数据进行清洗在进行其他数据清洗操作的基础上实现删除数据中包含较多0值的行可类比推广到删除其他代码实现 data data np sum data 0 axis
python中if __name__ == '__main__': 解析

当你打开一个 py文件时经常会在代码的最下面看到if name main 现在就来介绍一下它的作用模块是对象并且所有的模块都有一个内置属性 name 一个模块的 name 的值取决于您如何应用模块如果 import 一个模块那么
java保留小数点的方式

double型的 1 能四舍五入 System out printf 9 2f d 1 double d 114 145 2 d double Math round d 100 100 3 System out println d 2 Bi
PS2汉化2 - 自制程序的运行与调试

自制程序的运行与调试运行调试的坑点之类的 SDK 运行与调试通过PS3 通过PS2 神昂奇贵的DTL 10000 贫穷者的零售机器通过PCSX2仿真器运行调试的坑点之类的本文为了自制程序或者修改后的某些程序而撰写记录
第九章 tcp拥塞控制--基于Linux3.10

下载地址 http download csdn net detail shichaog 8620701 Linux提供丰富的拥塞控制算法这些算法包括Vegas Reno HSCTP High Speed TCP Westwood BIC
【java筑基】IO流进阶之文件随机访问、序列化与反序列化

前言作者简介半旧518 长跑型选手立志坚持写10年博客专注于java后端专栏简介深入全面系统的介绍java的基础知识文章简介本文将深入全面介绍IO流知识建议收藏备用创作不易敬请三连哦大厂真题大厂面试真题大全
unity中通过touch旋转、放大和缩小物体以及滑动方向的判断

unity中通过touch旋转放大和缩小物体以及滑动方向的判断这个需求在游戏开发中也是非常频繁话不多说直接上代码 using System Collections using System Collections Generic usi
XSS详解

XSS 伪装管理员登录后台文章目录 XSS 伪装管理员登录后台一 XSS注入原理二 XSS危害二 XSS分类三 Cookie是什么四 XSS获取cookie 一 XSS注入原理 XSS 攻击全称跨站脚本攻击是为不和层叠样式表
[转]Unity Accelerator本地服务器加速Unity项目资源载入速度

去年的时候项目引擎版本由2019升级为2020 对应的资源导入管线也由V1切换到了V2 在这个过程中发现原来的cachesever就不满足项目需要了查阅了一些资料发现unity的cachesever升级成了Unity Accelerato
警惕使用jvm参数CMSRefProcTaskProxy

昨天中午的时候团队的兄弟找我看一个现象原先因为堆外内存使用过多会crash掉的java应用设置了最大堆外内存量 MaxDirectMemorySize 后jvm不会crash 但出现了机器的两颗CPU全部被占满而且java程序没有响
【rust/egui】(九)使用painter绘制一些图形—基本使用

说在前面 rust新手 egui没啥找到啥教程这里自己记录下学习过程环境 windows11 22H2 rust版本 rustc 1 71 1 egui版本 0 22 0 eframe版本 0 22 0 上一篇这里 painter 定
Python数据分析小技巧：如何在Pandas中实现数据透视表?

Python数据分析小技巧如何在Pandas中实现数据透视表数据透视表是数据分析中非常有用的工具可以帮助我们快速了解数据的结构关联和趋势在Pandas中我们可以使用pivot table 函数来实现数据透视表例如我们有一个销
必须掌握的hashcode()方法

一 hashcode是什么 1 hash和hash表是什么想要知道这个hashcode 首先得知道hash 通过百度百科看一下 hash是一个函数该函数中的实现就是一种算法就是通过一系列的算法来得到一个hash值这个时候我们就需要
JSX/TSX的知识介绍

JSX TSX 基本介绍 JSX和TSX是一种基于JavaScript的语法扩展用于在React和Vue js等框架中编写可复用的UI组件和控制逻辑 JSX TSX可以帮助开发者更加直观和高效地编写UI组件和交互逻辑同时也可以提高代码的
深度优先搜索之素数环

1 问题描述输入正整数n 对1 n进行排列使得相邻两个数之和均为素数输出时从整数1开始逆时针排列同一个环应恰好输出一次 n lt 16 如输入 6 输出 1 4 3 2 5 6 1 6 5 2 3 4 2 我们这里使用dfs来进行
[人工智能-深度学习-31]：卷积神经网络CNN - 常见卷积神经网络综合比较大全

作者主页文火冰糖的硅基工坊文火冰糖王文兵的博客文火冰糖的硅基工坊 CSDN博客本文网址 https blog csdn net HiWangWenBing article details 120835303 目录第1章人工智
Linux文件权限

Linux用户分为拥有者组群 Group 其他 other linux中的文件属性过分四段如 rwzrwz 第一段是指文件类型表示这是个普通文件文件类型部分为表示文件 d为表示文件夹 l为表示链接文件可以理解为 wi
百度安全联盟砸场360的中国互联网安全大会说明啥（现场图）

360承办的具有官方背景的2013中国互联网安全大会22日召开然而突发了百度安全联盟大闹中国互联网安全大会事件据说各种闹场方式如百度安全联盟扩音喇叭安全套等传闻中的百度安全联盟大闹中国互联网安全大会到底真相如何确实是安全
【python爬虫】爬取豆瓣电影TOP250数据

这次以豆瓣电影TOP250网为例编写一个爬虫程序并将爬取到的数据排名电影名和电影海报网址存入MySQL数据库中下面是完整代码 Ps 在执行程序前先在MySQL中创建一个数据库 pachong import pymysql imp

【python爬虫】爬取豆瓣电影TOP250数据

【python爬虫】爬取豆瓣电影TOP250数据 的相关文章

随机推荐

热门标签

【python爬虫】爬取豆瓣电影TOP250数据的相关文章