爬虫实战爬取豆瓣电影Top250榜单电影

2023-11-11

爬虫实战爬取豆瓣电影Top250榜单电影

实战内容：直接上代码，重要地方有注释。

from bs4 import BeautifulSoup
import re
import urllib.request,urllib.error
import xlwt
import sqlite3
def main():
    baseurl = "https://movie.douban.com/top250?start="
   #1.爬取网页
    datalist = getData(baseurl)
    savepath = "豆瓣电影Top250.xls"
   #3.保存数据
    saveData(datalist,savepath)
    #askURL("https://movie.douban.com/top250?start=")


findlink = re.compile(r'<a href="(.*?)">')#影片详情链接
findImgSrc = re.compile(r'<img.*src="(.*?)"',re.S)#让换行符包含在字符中 #影片图片链接
findtitle = re.compile(r'<span class="title">(.*)</span>')#影片片名
findRating = re.compile(r'<span class="rating_num" property="v:average">(.*)</span>')#影片评分
findJudge = re.compile(r'<span>(\d*)人评价</span>')
findInq = re.compile(r'<span class="inq">(.*)</span>')
findBd = re.compile(r'<p class="">(.*?)</p>',re.S)

#爬取网页
def getData(baseurl):
    datalist = []
    for i in range(0,10):
        url =baseurl + str(i*25)
        html = askURL(url)
        #2.逐一解析
        soup = BeautifulSoup(html,"html.parser")
        for item in soup.find_all('div',class_="item"):
            #print(item)#测试查看电影item全部信息。
            data=[]
            item = str(item)

            link = re.findall(findlink,item)[0]
            data.append(link)
            imgSrc = re.findall(findImgSrc,item)[0]
            data.append(imgSrc)
            titles = re.findall(findtitle,item)
            if(len(titles)==2):
                ctitle = titles[0]
                data.append(ctitle)
                otitle = titles[1].replace("/","")
                data.append(otitle)
            else:
                data.append(titles[0])
                data.append('')
            reting =re.findall(findRating,item)[0]
            data.append(reting)

            judgeNum = re.findall(findJudge,item)[0]
            data.append(judgeNum)

            inq = re.findall(findInq,item)
            if(len(inq)!=0):
                inq = inq[0].replace("。","")
                data.append(inq)
            else:
                data.append("")
            bd = re.findall(findBd,item)[0]
            bd = re.sub('<br(\s+)?/>(\s+)?'," ",bd)
            bd = re.sub('/'," ",bd)
            data.append(bd.strip())

            datalist.append(data)
    print(datalist)
    return datalist
#得到指定网站url内容
def askURL(url):
    head = {
        "User-Agent":"Mozilla / 5.0(Windows NT 10.0;Win64;x64) AppleWebKit / 537.36(KHTML, likeGecko) Chrome / 84.0.4147.89Safari / 537.36"
    }
    request = urllib.request.Request(url,headers=head)
    html = ""
    try:
        response = urllib.request.urlopen(request)
        html= response.read().decode("utf-8")
        #print(html)

    except urllib.error.URLError as e:
        if hasattr(e,"code"):
            print(e.code)
        if hasattr(e, "reason"):
            print(e.reason)
    return html






#保存网页数据
def saveData(datalist,savepath):
    book = xlwt.Workbook(encoding="utf-8",style_compression=0)
    sheet = book.add_sheet('豆瓣电影TOP250',cell_overwrite_ok=True)
    col = ("电影详情链接","图片链接","影片中文名","影片外国名","评分","评分数","概况","相关信息")
    for i in range(0,8):
        sheet.write(0,i,col[i])
    for i in range(0,250):
        print("第%d条"%(i+1))
        data = datalist[i]
        for j in range(0,8):
            sheet.write(i+1,j,data[j])

    book.save(savepath)






if __name__== "__main__":
    main()

不说这么多，直接上结果。
在这里插入图片描述

在这里插入图片描述

喜欢的小伙伴可以收藏，代码可以直接复制在pycharm中运行，运行结果保存在Excle中。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

爬虫实战爬取豆瓣电影Top250榜单电影的相关文章

以 str.format 切片字符串

我想实现以下目标str format x y 1234 5678 print str x 2 str y 2 我能够做到这一点的唯一方法是 print 0 1 format str x 2 str y 2 现在这是一个例子我真正拥有的是
在 Django 中使用 prefetch_lated 连接 ManyToMany 字段

我可能遗漏了一些明显的东西但我在连接 ManyToMany 字段以在 Django 应用程序中工作时遇到问题我有两个模型 class Area models Model name CharField class Role models
使用 glGetFloatv 检索 pyglet 中的模型视图矩阵

我正在使用 pyglet 在 python 中进行 3D 可视化并且需要检索模型视图和投影矩阵来进行一些选择我使用以下方式定义我的窗口 from pyglet gl import from pyglet window import wi
在 Python 中同时插入行

我正在尝试对我的代码进行矢量化但遇到了障碍我有 nxd x 值数组 x1 xn 其中每一行 x1 有很多点 x11 x1d nxd y 值数组 y1 y2 y3 其中每一行 y1 有很多点 y11 y1d x 值的 nx1 数组 x 1
如何在python 2.7.8中将非英文字母的字典写入文件？

这是一个简单的例子 test location 北京 country 中国 the values are Chinese 在文件 test log 中 location 北京 country 中国在python 2 7 8中当我需要输出
如果每个区域内至少有 5 个连续行，如何在每个标题区域的末尾使用 Title[Name]2 发布新行？

我想在每个 Title 区域的末尾使用 Title Name 2 发布新行的最简单方法是通过一个计算连续行数的变量其中至少有 5 个连续行包含 1 1 1 1在每个标题区域内我不确定我对计数变量做错了什么也许确实必须在每个 Tit
将 2D Panda 的 DataFrame 列表转换为 3D DataFrame

我正在尝试创建一个将标签值保存到 2D DataFrame 的 Pandas DataFrame 这是我到目前为止所做的我正在使用读取 csv 文件pd read csv并将它们附加到列表中出于这个问题的目的让我们考虑以下代码 imp
使用 Python 将阿拉伯语或任何从右到左书写系统的字符串打印到 Linux 终端

非常简单的例子是 city print city 我期望输出是但实际上输出是相反的字符串字母看起来有点不同因为它们有开始中间和结束形式我无法将其粘贴到此处因为复制粘贴会再次更正字符串的顺序如何在 Linux 终端上正确打印阿拉
Python 中嵌套列表的排序和分组

我有以下数据结构列表的列表 4 21 1 14 2008 10 24 15 42 58 3 22 4 2somename 2008 10 24 15 22 03 5 21 3 19 2008 10 24 15 45 45 6 21 1 1
Pygooglevoice登录错误

另一个人问了这个问题但没有回复所以我再问一遍我正在尝试使用 pygooglevoice API 但是当我运行 SMS py 示例脚本时它给了我一个登录错误我已经安装了 Enthought python 我想也许我还需要安装其他东西
如何打印和显示子进程 stdout 和 stderr 输出而不失真？

也许有人可以帮助我解决这个问题我在 SO 上看到了许多与此类似的问题但没有一个问题同时处理标准输出和标准错误也没有处理像我这样的情况因此出现了这个新问题我有一个 python 函数它打开一个子进程等待它完成然后输出返回代码以
保存游戏最高分？

我使用 pygame 在 python 中制作了一个非常简单的游戏分数取决于玩家达到的级别我将级别作为变量称为score 我想在游戏开始或结束时显示顶级我会更乐意显示多个分数但我见过的所有其他线程都太复杂我无法理解所以请保持简单
收到“/：未找到事件。”使用 PyCharm 远程调试器时

当我使用 PyCharm 通过 ssh 进行远程调试时tcsh shell 服务器很多时候它停止工作并显示未找到事件更具体地说我在 pycharm 调试控制台中遇到以下内容 ssh username hostserver 22 p
如何使用 selenium 获取 javascript 结果？

我有以下代码 from selenium import selenium selenium selenium localhost 4444 chrome http some site com selenium start sel selen
Python itertools groupby 中令人不安的奇怪行为/错误？

我在用itertools groupby解析一个短的制表符分隔的文本文件文本文件有几列我想做的就是对具有特定值的所有条目进行分组x在特定的列中下面的代码对名为的列执行此操作name2 寻找变量中的值x 我尝试使用以下方法来做到这一点c
如何在 matplotlib 中第一个 x 轴的底部添加第二个 x 轴？

我指的是已经提出的问题here https stackoverflow com questions 10514315 how to add a second x axis in matplotlib 在此示例中用户通过将第二个轴添加到与标
返回吃异常

我至少发现了以下行为weird def errors try ErrorErrorError finally return 10 print errors prints 10 It should raise NameError name E
PyMC3 和 Theano - 导入 pymc3 后，有效的 Theano 代码停止工作

一些简单的 theano 代码可以完美运行当我导入 pymc3 时停止工作这里有一些片段可以重现错误 Initial Theano Code this works import theano tensor as tsr x tsr ds
重新安装后使用 pandas dataframes 时出现问题

我已经重新安装了 Python 和 Anaconda 现在面临以下问题在我将 pkl 文件加载到数据帧并尝试查看该文件后如下所示 df pd read pickle example pkl df 我收到错误 AttributeErr
将 .parquet 编码为 io.Bytes

目标将 Parquet 文件上传到 MinIO 这需要将文件转换为字节我已经能够做到这一点了 csv json and txt bytes data to csv encode utf 8 bytes json dumps self d

随机推荐

实习生面试软件测试岗位指南

实习生面试软件测试岗位指南最近一直在面试测试实习生的岗位发现实习生的基础知识参差不齐有的基本做什么就来面试这样子会浪费实习机会有的好机会都错过了下面给实习同学一些建议 1 公司招实习生的目的 1 软件测试好入门实习生做项目好上
学习爬虫总结（一）

作为一名大三狗以前的两年似乎也没有坚持学习什么现在我决定我要每天坚持学一点东西来提升自己爬虫这个名词第一次出现在我的印象中是学习中国大学MOOC里面的python语言程序设计慕课那时候我对爬虫并不了解也没有学习的兴趣最近在看一
Springboot项目Aop、拦截器、过滤器横向对比

前言伟人曾经说过没有调查就没有发言权好像是伟人说的不管谁说的这句话是正确的有些东西看着简单张口就来但很有可能是错的我个人的经验是 aop 过滤器拦截器的实现方式很简单一学就会不用就忘忘了再学学了再忘如此循环内耗
springboot整合请求分析

文章目录请求初识restTemplate GET请求 1 传参替换使用来表示坑位根据实际的传参顺序来填充如下 2 使用 xx 来传递参数时这个xx对应的就是map中的key 3 当响应头是application json cha
计算机单位及单位转换

计算机单位及转换一位计算机中表示信息的最小单位表示一位二进制信息以b表示 bit 0 1 一个字节8位字节计算机中处理信息的最小单位以八位二进制信息以B表示 1B 8b 一个整数4个字节字长一个字所包含二进制输的位数
刷脸支付逐渐普及刷脸项目也逐渐火热起来

科技的发展总是朝着更智能化的方向前进在此基础上人脸识别技术因其生物支付特征明显和特征唯一性获得了众多项目的青睐将这一技术迅速线下落地产业化随着人脸识别技术的逐渐成熟刷脸支付应运而生刷脸支付代理项目也逐渐火热起来我们体验了刷脸
认识 MySQL

文章目录 1 前言 2 数据库 3 MySQL 1 前言在当今信息时代数据被认为是最宝贵的资源之一因为它可以帮助我们洞察趋势做出决策构建智能系统并推动创新而数据库技术的崛起尤其是MySQL数据库为我们提供了强大的工具来存储
vue中实现删除校验-iview的气泡提示

前言很多时候我们担心删除会出现误删的情况这样就需要对删除进行二次校验确定是否继续删除效果图实现代码
Type Incompatible operand types String and int

今天eclipse包了一个错误意思就是Description Resource Path Location Type Incompatible operand types String an 但是昨天还没有错误为什么那最后找了好久发现不
区块链之PBFT算法

在公有链中用的最多的是pow算法和pos算法这些算法都是参与者的利益直接相关通过利益来制约节点诚实的工作解决分布式系统中的拜占庭问题拜占庭容错算法是一种状态机副本复制算法通过节点间的多轮消息传递网络内的所有诚实节点就可以达成一致
jQuery实现省市二级联动

主要实现流程步骤分析 1 设置加载页面函数事件 2 在里面获取select的id并且设置下拉事件并且绑定函数 3 定义2维数组存放相应的城市 4 遍历2维数组省份并且使用if判断点击时的this value值如果值与省份二位数组下
深入理解 == 与 equals 区别

深入理解与 equals 区别这是一个老生常谈的问题了也是在面试过程中常见的问题之一网上所提供的常用回答是 equals比较值比较值和引用对java源码有了一定了解了之后回头再思考这个问题并不是那么的简单单一 java中的二元运
springboot的配置注入

文章目录第一种使用 Value 第二种使用 ConfigurationProperties springboot配置注入数据绑定有两种方式第一种使用 Value 首先在application yml中定义自己的数据 appl
蓝桥杯基础试题汇总（Python）看这一篇就够了

目录蓝桥杯习题汇总 1 试题基础练习 A B问题 2 数列问题 3 试题基础练习十六进制转八进制 4 试题基础练习十六进制转十进制 5 试题基础练习十进制转十六进制 6 试题基础练习序列求和 7 试题基础练习圆的面积
浅谈数据同步实现rsync+inotify

浅谈数据同步实现rsync inotify 数据的实时同步介绍数据的实时同步实现 inotify inotify的介绍实现inotify软件 inotify rsync使用方式实现inotify rsync 1 rsync基本概述 2
ubuntu安装deb包

ubuntu安装deb包安装deb包 sudo dpkg i 包名安装deb包后可能会出现依赖关系而不能正常安装软件这个时候先更新下源然后解决依赖关系后重装即可 sudo apt get update 更新 sudo apt get
教程网站汇总：Linux 、 C /C++ 、HTML、CSS

C 语言教程菜鸟教程 https www runoob com cprogramming c tutorial html C 教程菜鸟教程 https www runoob com cplusplus cpp tutorial html
安装apache后无法访问localhost但可以访问127.0.0.1的解决方法

localhost与127 0 0 1的概念和工作原理之不同概念 localhost 也叫local 正确的解释是本地服务器 127 0 0 1 在windows等系统的正确解释是本机地址本机服务器工作原理 localhot 是不
VS2019的常见错误和调试功能

目录一 VS2019常见问题 1 scanf问题 2 如何在当前页面下再创建新项目和创建多项目后无法运行当前项目的问题二 VS2019的调试功能不打断点三 VS2019的调试功能打断点四总结一 VS2019常见问题 1 sc
爬虫实战爬取豆瓣电影Top250榜单电影

爬虫实战爬取豆瓣电影Top250榜单电影实战内容直接上代码重要地方有注释 from bs4 import BeautifulSoup import re import urllib request urllib error impor

爬虫实战爬取豆瓣电影Top250榜单电影

爬虫实战爬取豆瓣电影Top250榜单电影

实战内容：直接上代码，重要地方有注释。

爬虫实战爬取豆瓣电影Top250榜单电影 的相关文章

随机推荐

热门标签

爬虫实战爬取豆瓣电影Top250榜单电影的相关文章