Python爬虫（4）获得所有Top250部电影的信息并存入数据库

2023-05-16

上次我们完成了单页电影的获取并保存到了Excel文件中，不知道小伙伴们都完成了没？有没有把Top250部电影都保存下来的？在编写这些代码过程中遇到什么问题了没？如果遇到但是没有解决，或是解决了但不知道原因的请在公众号中发消息给小编，一起讨论，共同进步。

OK，今天继续把所有的电影都获取并保存下来，不过这次保存的位置我们做一些改动，通常情况下，这样有规则的信息我们都保存到数据库中，毕竟Excel文件还是仅限于个人数据存放，而真正的数据库才是相对通用的数据存储办法，好处太多，比如，存储和查询方便，数据的完整性和有效性都更有保障等等。

公布所有电影信息的获取代码

我们已经获取了一页的所有需要的信息，那么再来9页的信息几乎一点困难都没有，不就是通过一个For循环就能搞定吗？

不过，回顾一下我们之前写的代码，虽然功能都实现了，但是整个代码写下来有点流水账的感觉，阅读性和维护性相对较差，如果能以结构化的方式书写，在今后问题排查或是功能扩展都会带来不少便利。所以在这里我们把一些功能单独抽出来写成函数。如下截图：

这样我们把抓取网页信息以及保存信息到数据库或文件分成了几个块，这样我们这个Python文件的程序阅读和维护起来就会非常方便。

首先看AskURL这个函数，通过传参url就可以获取url所指定网页页面信息，而这个信息就是需要我们接下来通过GetData对这些信息进行解析拆分存储到一个列表返回，然后让SaveDataToDB函数来处理存入到数据库中。另外所有这个流程都在main函数中体现，这样只需要通过main函数就可以一目了然知道整个程序的结构以及实现的方法都有哪些。

本次代码你可以扫描下方二维码关注微信公众号阅读历史文章获取

2. SQLite数据库

该数据库是Python3之后就默认支持的数据库，它为我们学习和做一些测试提供了很多便利，不太需要过多的关注数据库方面的知识，你只需要知道怎么使用就可以了。

使用 conn = sqlite3.connect(“test.db”) 就可以连接当前目录下存在的test.db数据库文件，如果不存在则会自动创建该文件。

通过获取游标然后执行SQL语句来创建数据表。

同样在将获取的数据保存到数据库的时候，通过for循环语句，采用构造INSERT INTO 语句向数据表中添加新的记录。

至此，数据库的创建以及记录的保存就已经完成，因为数据库在这里不是我们的重点，这里使用数据库是为了后续我们的引用，后续会讲到通过网页是如何调用我们数据库的记录信息然后通过表、动态图根据用户的选择而实时显示在网页上的。

该段代码不是很完美，我只是考虑到数据库以及记录都是一次性创建，后续我们不再动态根据网站而实时更新此数据库，所以并没有考虑到数据表增加，记录增加等，有兴趣可以自行尝试去完善。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Python爬虫（4）获得所有Top250部电影的信息并存入数据库的相关文章

在 Python 2.7 中出现“ImportError：无法导入名称 HTTPSConnection”错误

我正在尝试在 AWS ElasticBeanstalk 中部署 django 当我按照所示步骤操作时here http docs aws amazon com elasticbeanstalk latest dg create deploy
如何在 Debian 上的 virtualenv 中安装 numpy？

注参见这另一篇文章 https stackoverflow com questions 6442754 how to install h5py numpylibhdf5 as non root on a debian linux syst
如果 Excel 文件是由程序创建的，Pandas read_excel 对于具有简单公式的单元格返回 nan [重复]

这个问题在这里已经有答案了 I use pd read excel读取由以下命令创建的 excel 文件openpyxl并从一个网址下载解析后的数据框将给出nan如果单元格值是公式 which formula is simply 100
Matplotlib 图例，跨列添加项目而不是向下添加项目

对于下面的简单绘图有没有办法让 matplotlib 填充图例以便它从左到右填充行而不是第一列然后第二列 gt gt gt from pylab import gt gt gt x arange 2 pi 2 pi 0 1 gt gt
如何在Windows中的Python 3.9下pip安装pickle？

我需要pickle https docs python org 3 9 library pickle html module pickle包安装在我的下面Python 3 9在 Windows 10 下我尝试过的当尝试与pip inst
django 模板 - 如何动态访问变量？

假设我有一个具有以下上下文的 django 模板 data1 this is data1 data2 this is data2 data name data2 现在我知道了data name 假设它是 data2 是否可以用它来访问变量d
如何从hdfs读取文件[重复]

这个问题在这里已经有答案了我在 project1目录下的hadoop文件系统中有一个文本文件名mr txt 我需要编写 python 代码来读取文本文件的第一行而不将 mr txt 文件下载到本地但我无法从 hdfs 打开 mr tx
为什么 re.findall 在查找字符串中的三元组项时不具体。 Python

所以我有四行代码 seq ATGGAAGTTGGATGAAAGTGGAGGTAAAGAGAAGACGTTTGA OR 0 re findall r ATG 9 TAA TAG TGA seq 首先让我解释一下我正在尝试做什么如果这令人困惑
设置高亮大括号的 vim 颜色主题

如何更改突出显示大括号的 vim 配色方案我希望实际编辑 vim 主题文件以使更改永久生效问候克雷格匹配括号的自动高亮颜色称为MatchParen 您可以通过执行以下操作来更改 vimrc 中的颜色 highlight MatchP
正在使用 PIL 保存损坏的图像

我遇到一个问题操作图像像素导致保存损坏的图像因此我使用 PIL 打开图像然后将其转换为 NumPy 数组 image Image open myimage png np image np asarray image 然后我转置图像
在请求中设置端口

我正在尝试利用cgminer使用 Python 的 API 我对利用requests图书馆我了解如何做基本的事情requests but cgminer想要更具体一点我想缩小 import socket import json sock
高级描述熊猫

有没有像 pandas 那样更高级的功能通常我会继续这样 r pd DataFrame np random randn 1000 columns A r describe 我会得到一份很好的总结就像这样 A count 1000 000
将 window.location 传递给 Flask url_for

我正在使用 python 在我的页面上当匿名用户转到登录页面时我想将一个变量传递到后端以便它指示用户来自哪里发送 URL 因此当用户单击此锚链接时 a href Sign in a 我想发送用户当前所在页面的当前 URL
更改 Matplotlib 投影轴的背景颜色

我正在尝试使用 Cartopy 创建一个图形该图形需要在未投影的轴上绘制投影轴这是一个尽可能简单的代码版本它将轴上的内容替换为背景颜色 import matplotlib pyplot as plt import cartopy cr
使用 if 语句的网格网格和用户定义函数的真值不明确

假设我有一个函数f x y 足够光滑然而有些值仅在有限的意义上存在以sin x x的价值x 0只存在于极限 x gt 0 中在一般情况下我用一个来处理这个问题if陈述如果我在情节中使用它meshgrid我收到一条错误消息 Val
Python：在字典中查找具有唯一值的键？

我收到一个字典作为输入并且想要返回一个键列表其中字典值在该字典的范围内是唯一的我将用一个例子来澄清假设我的输入是字典 a 构造如下 a dict a cat 1 a fish 1 a dog 2 lt unique a bat 3
如何按 pandas 中的值对系列进行分组？

我现在有一只熊猫Series与数据类型Timestamp 我想按日期对其进行分组并且每组中有许多行具有不同的时间看似显而易见的方法类似于 grouped s groupby lambda x x date 然而熊猫的groupby按索
使用 MPI 的 Allreduce 对 Python 对象求和

我正在使用使用 Python 中的字典和计数器构建的稀疏张量数组操作我想让并行使用这个数组操作成为可能最重要的是我最终在每个节点上都有计数器我想使用 MPI Allreduce 或另一个不错的解决方案将其添加在一起例如使用计数
使用 pandas 单元格中列表的长度选择行[重复]

这个问题在这里已经有答案了我有一张表 df a b c 1 x y x 2 x z c d 3 x t e f g 只是想知道如何使用 c 列的长度选择行 such as df loc len df c gt 1 我知道这是不对的正确的
基于值的 matplotlib 条形图颜色

有没有一种方法可以根据条形图的值对条形图的条形进行着色例如 values below 0 5 red values between 0 5 to 0 green values between 0 to 08 blue etc 我找到了一些

随机推荐

IntelliJ IDEA LicenseServer激活及使用

一激活 IntelliJ IDEA下载地址 xff1a https www jetbrains com idea download section 61 windows 原文地址 xff1a http blog csdn net rick
java.lang.IllegalStateException错误原因以及解决方法

Servlet service for servlet default threw exception java lang IllegalStateException at org apache catalina connector Res
安装anaconda配置tensorflow虚拟环境遇到的问题及解决办法

安装anaconda配置tensorflow虚拟环境遇到的问题及解决办法遇到的问题 xff1a PackagesNotFoundError The following packages are not available from cur
JUC、生产者消费者问题和集合不安全问题等等等

1 什么是JUC JUC就是java util concurrent下面的类包 xff0c 专门用于多线程的开发 2 并发和并行并发 xff08 Concurrent xff09 xff1a 多个线程同时操作一个资源并行 xff08 P
pom文件中build标签详解

前言 xff1a lt build gt 设置 xff0c 主要用于编译设置 1 分类在Maven的pom xml文件中 xff0c 存在如下两种 lt build gt xff1a xff08 1 xff09 全局配置 xff08 pr
k8s进入容器

lt 1 gt kubectl get pods 查看所有正在运行的pod NAME READY STATUS RESTARTS AGE nginx 56b8c64cb4 t97vb 1 1 Running 3 1d lt 2 gt kub
xxl-job搭建、部署、SpringBoot集成xxl-job

一搭建xxl job 1 下载xxl job代码码云地址 xff1a https gitee com xuxueli0323 xxl job gitHub地址 xff1a https github com xuxueli xxl job
网络层解析——IP协议、地址管理、路由选择

IP协议格式解析画图解析IP协议报头成员 xff1a 4位版本号 xff1a 4 ipv6 6 ipv6 4位头部长度 xff1a ip报头最小20个字节 xff0c 最大60个字节 xff0c 用于数据分用 8位服务类型 xff1a 3
git 拉取指定的远程分支（三种方式）

直接拉取 git clone b ants git 64 github com Ants double CareerJava git git clone b 远程分支名仓库地址本地已经有相关的仓库代码查看远程分支 git branch
左连接的左边为什么不全显示

left join后面加上where条件浅析 select a b from table1 a left join table2 b on b X 61 a X where XXX 如上 xff1a 一旦使用了left join xff0c
一次通过jvm排查堆内存不断增大最后导致docker容器自动重启的问题

1 事件背景 xff1a 生产有个定时任务 xff0c 经常跑不出数据 xff0c 通过监控发现对应的那台机器内存一跑这个定时任务就会陡增由于应用部署在容器中 xff0c 当内存跑满后会自动重启 xff0c 所以导致定时任务无法执行完毕
jvm 中的一些命令，方便排查jvm的一些状况

1 ps ef grep xxx 找到应用的进程号 jmap heap pid 查看对应进程的jvm占用内存情况命令 xff1a jmap histo live pid 描述 xff1a 显示堆中对象的统计信息 jmap histo pi
session如何在多用户中区分

1 会话客户端向服务端发送请求 xff0c 服务端接受请求并响应这样一次连续的过程 xff0c 称为一个会话 session 2 可实现登录访问控制功能 login jsp doLogin jsp index jsp 1 进入登录页面lo
关于springboot 从controller返回到html页面

一不用模板引擎的时候这里列出以下几种情况进行分析 1 yml配置 controller 静态文件目录 xff1a 结果 xff1a 结论 xff1a 此时访问的error12 html是static目录下的 spring配置视图为的时候
【Kali_014】Kconsole虚拟终端设置半透明

打开终端菜单 gt Settings gt Edit Current Profile gt Appearance gt Edit gt Background transparency
用fastboot烧录system.img 出现remote: data too large解决办法

用fastboot命令烧录 xff0c 提示如下错误信息 xff1a target reported max download size of 536870912 bytes erasing 39 system 39 OKAY 0 016s
MTK Android为某个APP单独添加selinux配置文件

需求 MTK Android 11 test是一个system APP 涉及到许多个selinux的权限 xff0c 不想影响所有的system APP的权限 xff0c 需要单独为test设定selinux 方法 domain devic
2012年展望

由于各种原因 xff0c 客观的主观的不过归根结底还是主观的多一些 xff0c 2011年整体过的很颓废 xff0c 上班大多在上网 xff0c 工作上几乎没有一点成绩 xff0c 自己也是很不满意 2012年世界末日都快来了 xff0
http和ftp协议的区别

项目中应用到ftp xff0c 将ftp的笔记上传一下简单的说 xff1a HTTP是超文本传输协议 xff1b 面向网页的 FTP是File Transfer Protocol 文件传输协议 xff1b 面向文件的 1 FTP 1 FT
Python爬虫（4）获得所有Top250部电影的信息并存入数据库

上次我们完成了单页电影的获取并保存到了Excel文件中 xff0c 不知道小伙伴们都完成了没 xff1f 有没有把Top250部电影都保存下来的 xff1f 在编写这些代码过程中遇到什么问题了没 xff1f 如果遇到但是没有解决 xff0c

Python爬虫（4）获得所有Top250部电影的信息并存入数据库

Python爬虫（4）获得所有Top250部电影的信息并存入数据库 的相关文章

随机推荐

热门标签

Python爬虫（4）获得所有Top250部电影的信息并存入数据库的相关文章