Python爬虫（4）获得所有Top250部电影的信息并存入数据库

2023-05-16

上次我们完成了单页电影的获取并保存到了Excel文件中，不知道小伙伴们都完成了没？有没有把Top250部电影都保存下来的？在编写这些代码过程中遇到什么问题了没？如果遇到但是没有解决，或是解决了但不知道原因的请在公众号中发消息给小编，一起讨论，共同进步。

OK，今天继续把所有的电影都获取并保存下来，不过这次保存的位置我们做一些改动，通常情况下，这样有规则的信息我们都保存到数据库中，毕竟Excel文件还是仅限于个人数据存放，而真正的数据库才是相对通用的数据存储办法，好处太多，比如，存储和查询方便，数据的完整性和有效性都更有保障等等。

公布所有电影信息的获取代码

我们已经获取了一页的所有需要的信息，那么再来9页的信息几乎一点困难都没有，不就是通过一个For循环就能搞定吗？

不过，回顾一下我们之前写的代码，虽然功能都实现了，但是整个代码写下来有点流水账的感觉，阅读性和维护性相对较差，如果能以结构化的方式书写，在今后问题排查或是功能扩展都会带来不少便利。所以在这里我们把一些功能单独抽出来写成函数。如下截图：

这样我们把抓取网页信息以及保存信息到数据库或文件分成了几个块，这样我们这个Python文件的程序阅读和维护起来就会非常方便。

首先看AskURL这个函数，通过传参url就可以获取url所指定网页页面信息，而这个信息就是需要我们接下来通过GetData对这些信息进行解析拆分存储到一个列表返回，然后让SaveDataToDB函数来处理存入到数据库中。另外所有这个流程都在main函数中体现，这样只需要通过main函数就可以一目了然知道整个程序的结构以及实现的方法都有哪些。

本次代码你可以扫描下方二维码关注微信公众号阅读历史文章获取

2. SQLite数据库

该数据库是Python3之后就默认支持的数据库，它为我们学习和做一些测试提供了很多便利，不太需要过多的关注数据库方面的知识，你只需要知道怎么使用就可以了。

使用 conn = sqlite3.connect(“test.db”) 就可以连接当前目录下存在的test.db数据库文件，如果不存在则会自动创建该文件。

通过获取游标然后执行SQL语句来创建数据表。

同样在将获取的数据保存到数据库的时候，通过for循环语句，采用构造INSERT INTO 语句向数据表中添加新的记录。

至此，数据库的创建以及记录的保存就已经完成，因为数据库在这里不是我们的重点，这里使用数据库是为了后续我们的引用，后续会讲到通过网页是如何调用我们数据库的记录信息然后通过表、动态图根据用户的选择而实时显示在网页上的。

该段代码不是很完美，我只是考虑到数据库以及记录都是一次性创建，后续我们不再动态根据网站而实时更新此数据库，所以并没有考虑到数据表增加，记录增加等，有兴趣可以自行尝试去完善。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Python爬虫（4）获得所有Top250部电影的信息并存入数据库的相关文章

为一列中的多行生成不同的随机数

我得到了一列带有整数值 n 行的列我想生成满足特定条件的值的正态分布范围内的随机数我尝试使用下面的代码但它们太慢了 df members bd df members bd apply lambda x np random norma
确定非空列表条目是否“连续”的 Pythonic 方法

我正在寻找一种方法来轻松确定列表中所有非 None 项目是否出现在单个连续切片中我将使用整数作为非 None 项目的示例例如列表 None None 1 2 3 None None 满足我对连续整数条目的要求相比之下 1 2 Non
我如何在 ruby 中执行范围正则表达式，例如 awk /start/,/stop/

我想做一个 AWK 风格的范围正则表达式如下所示 awk hoststatus file 在 AWK 中这将打印文件中两个模式之间的所有行 hoststatus host name myhost modified attributes
导入错误：无法导入名称 md5

真的不知道这里发生了什么我需要在弹性beanstalk上部署我的flask应用程序但不知何故改变了路径并且无法再运行python application py dotnet info NET Core SDK reflecting an
非常大的数据集的余弦相似度

我在计算大量 100 维向量之间的余弦相似度时遇到问题当我使用from sklearn metrics pairwise import cosine similarity I get MemoryError在我的 16 GB 机器上每个
如何提取图像中的表格

我想从图像中提取表格这个 python 模块https pypi org project ExtractTable https pypi org project ExtractTable 与他们的网站https www extractta
用于列出用户和组的 Python 脚本

我正在尝试编写一个脚本在自己的行上输出每个用户及其组如下所示 user1 group1 user2 group1 user3 group2 user10 group6 etc 我正在为此用 python 编写一个脚本但想知道如何做到这
在Python中解析制表符分隔的文件

我正在尝试在 Python 中解析一个制表符分隔的文件其中与行开头分开的 k 个制表符的数字应该放入第 k 个数组中除了逐行读取并执行简单解决方案将执行的所有明显处理之外是否有内置函数可以执行此操作或者有更好的方法您可以使用the
python 命令行应用程序的最佳布局是什么？

什么是正确的方法或者我会满足于good方式布置一个中等复杂度的命令行 python 应用程序我使用 Paster 创建了一个 Python 项目框架它为我提供了一些文件 myproj init py MyProj egg info
Python 字典组并对多个值求和[重复]

这个问题在这里已经有答案了我在字典格式列表中有一组数据如下所示 data name A tea 5 coffee 6 name A tea 2 coffee 3 name B tea 7 coffee 1 name B tea 9 co
如何重定向到外部404页面Python Flask

我正在尝试将 404 重定向到外部 URL 如下所示 app route 404 def http error handler error return flask redirect http www exemple com 404 404
优化Python：大数组、内存问题

我在运行 python numypy 代码时遇到速度问题我不知道如何让它更快也许其他人假设有一个表面有两个三角剖分一个是细三角剖分 fine 有 M 个点一个是粗剖分有 N 个点此外还有每个点的粗网格数据 N 个浮点数我正
如何在Python中打印带下划线的内容？

print hello 输出应该是单词 hello 但有下划线您可以通过使用转义字符来做到这一点 print 033 4mhello 033 0m
如何在 Pandas 中叠加“一天”内的数据进行绘图

我有一个数据框里面有一些更有意义数据格式如下 In 67 df Out 67 latency timestamp 2016 09 15 00 00 00 000000 0 042731 2016 09 15 00 16 24 3769
admin.py 用于项目，而不是应用程序

如何指定项目级别admin py 我前段时间问过这个问题但由于该问题缺乏活动我刚刚获得了风滚草奖 gt Project 设置 py admin py 这就是我想要开始工作的 App admin py 我知道该怎么做例如 admin a
使用 python mechanize 库登录 https 站点

我有以下代码 import requests import sys import urllib2 import re import mechanize import cookielib import json import imp prin
Python：“取消导入”、“重新导入”、“重置导入”？

我调试在 PyCharm 中一个脚本我在断点处停止然后转到调试控制台窗口然后从那里调用导入行如下所示 import my util1 from my utils 然后我调用 my util1 到目前为止一切都还好然后我更改
python - lxml：强制执行属性的特定顺序

我有一个 XML 编写脚本可以为特定的第 3 方工具输出 XML 我使用原始 XML 作为模板来确保构建所有正确的元素但最终的 XML 看起来与原始的不同我以相同的顺序编写属性但 lxml 按自己的顺序编写它们我不确定但我怀疑第
Keras 导入错误 Nadam

我在尝试导入 Keras 模块 Nadam 时遇到导入错误 gt gt gt from keras optimizers import Nadam Traceback most recent call last File
与 IPython 内核分离而不终止它

有人可以告诉我如何在不终止 IPython 内核的情况下分离它吗我在文档中看到quit 有一个参数keep kernel 但不幸的是quit keep kernel True 行不通的如果您通过 IPython 控制台客户端连接到内核并

随机推荐

Python OS 文件/目录方法

From http www runoob com python os file methods html os 模块提供了非常丰富的方法用来处理文件和目录常用的方法如下表所示 xff1a 序号方法及描述1 os access path m
Python 异常处理

From http www runoob com python python exceptions html python提供了两个非常重要的功能来处理python程序在运行中出现的异常和错误你可以使用该功能来调试python程序异常处
deeplabV3+源码分解学习

From horsetif https www jianshu com p d0cc35b3f100 github上deeplabV3 43 的源码是基于tensorflow xff08 slim xff09 简化的代码 xff0c 是一款
常用颜色名称与RGB数值对照表

From http xh 5156edu com page z1015m9220j18754 html 颜色名中文名称 Hex RGB 十进制 Decimal LightPink 浅粉红 FFB6C1 255 182 193 Pink 粉
c#调用C++DLL EntryPointNotFoundException 找不到入口点

From http www voidcn com article p kqogmify rh html c 程序调用C 43 43 的dll的时候 xff0c 经常出现这样的问题 xff1a System EntryPointNotFoun
混洗numpy.random.shuffle()与numpy.random.permutation()的区别

参考API xff1a https docs scipy org doc numpy reference routines random html 1 numpy random shuffle API中关于该函数是这样描述的 xff1a M
以time/gettimeofday系统调用为例分析ARM64 Linux 5.4.34

目录 1 准备工作 2 触发系统调用 2 1依据 amp 分析 2 2构造代码 2 3触发系统调用 3 分析系统调用 3 1中断处理分析 xff08 保存现场 xff09 3 2内核堆栈pt regs xff08 保存现场 xff09 3
Kettle连接Access抽取数据到MS SQLServer

软件准备 xff1a kettle5 1 access xff08 32位 xff09 jdk1 7 xff08 32位 xff09 软件位数需要一致 xff0c 不要求操作系统位数搭建流程 xff1a 1 access新建表 2 准备a
python2 linux 解析文本乱码或UnicodeDecodeError: ‘ascii’ codec can’t decode byte

linux乱码 xff0c 加下面两行 reload sys sys setdefaultencoding 39 utf 8 39 open 加参数errors 61 39 ignore 39 file init 61 io open fi
doris stream load

package uhp import java io IOException import java nio charset StandardCharsets import org apache commons codec binary B
windows11安装卡TPM2.0的解决方案——待测试

windows11安装卡TPM2 0的解决方案下载官方win10镜像 xff0c 解压后找到sources文件夹里的appraiserres dll文件 xff0c 然后复制给win11镜像相同目录查到的方法 xff0c 尚未测试
Airflow task 指定执行的worker节点

1 airflow cfg xff1a executor 61 CeleryExecutor 2 启动worker时添加 q 队列名 xff1a airflow celery worker q kettle carte shell 61 B
apt-get install 换成 aptitude 好多软件可以安装了

apt get install 换成 aptitude 好多软件可以安装了
使用 linux respin 制作自定义 Ubuntu ISO镜像

respin可以直接将整个已经安装好的ubuntu系统做成ISO文件 respin的前身 remastersys 发现已经不被维护了 xff0c 官网网址也都没了 xff0c 仔细去查资料发现已经被 linux respin替代 xff0c
卷积层和池化层的计算公式相同：

https blog csdn net qq 27009517 article details 79440262 若没有边缘填充 xff0c padding 61 VALID xff0c 计算公式如下 xff1a O 61 ceil W K
Win10安装PyQt5与Qt Designer

https blog csdn net u011342224 article details 78879633 1 直接在cmd中通过pip安装PyQt5 1 pip install pyqt5 会自动下载PyQt5以及sip并安装 xff
处理win10“管理员已阻止你运行此应用”的方法

http www pc0359 cn article win10 71268 html 在使用win10系统的时候我们会发现 xff0c 运行软件的时候总是不那么顺利 xff0c 经常会出现很多的小故障近日就有该系统的用户在打开软件时被系
解决Fatal error in launcher: Unable to create process using ""C:\Program Files (x86)\Python33\python.e

http www itkeyword com doc 548296217188576861 fatal error in launcher unable to create process using c program files x86
php提示 Notice: Use of undefined constant name - assumed

http www php230 com 1410834481 html 我们知道php在数组中写变量有二几种方法 xff0c 我们出现这种提示就是你写成了 name 这种所以会有Notice Use of undefined constan
Python爬虫（4）获得所有Top250部电影的信息并存入数据库

上次我们完成了单页电影的获取并保存到了Excel文件中 xff0c 不知道小伙伴们都完成了没 xff1f 有没有把Top250部电影都保存下来的 xff1f 在编写这些代码过程中遇到什么问题了没 xff1f 如果遇到但是没有解决 xff0c

Python爬虫（4）获得所有Top250部电影的信息并存入数据库

Python爬虫（4）获得所有Top250部电影的信息并存入数据库 的相关文章

随机推荐

热门标签

Python爬虫（4）获得所有Top250部电影的信息并存入数据库的相关文章