Python爬虫实战，requests模块，Python实现IMDB电影top数据可视化

2023-11-16

前言

利用Python爬取IMDB电影。废话不多说。

让我们愉快地开始吧~

开发工具

Python版本： 3.6.4

相关模块：

requests模块；

random模块；

bs4模块；

以及一些Python自带的模块。

环境搭建

安装Python并添加到环境变量，pip安装需要的相关模块即可。

一来豆瓣作为爬虫入门，各种大牛的深入分析已趋于完美；另一方面随着中国电影工业的发展，我们需要将视角转向国际市场，通过数据分析，了解一下外国人比较感兴趣的电影。

思路分析

IMDB top250主页

IMDB top250主页

IMDB电影详情页 (1)

IMDB电影详情页1

IMDB 电影详情页 (2)

IMDB 电影详情页2

基于以上网页构造，我们发现只需得到每个电影的详情页编码(唯一)，通过2次“蛙跳”，实现详情页(1)(2)导出国家&类型，分数&人数的信息的获取。便于理解，爬取思维导图如下：

思维导图

爬虫代码

IMDB top250主页

#导入库-------------------------------------------
from urllib import request
from chardet import detect
from bs4 import BeautifulSoup
import pandas as pd
import time
import random

#获取网页源码，生成soup对象-------------------------
def getSoup(url):
    with request.urlopen(url) as fp:
       byt = fp.read()
       det = detect(byt)
       time.sleep(random.randrange(1,5))
       return BeautifulSoup(byt.decode(det['encoding']),'lxml')
   
#解析数据-------------------------------------------  
def getData(soup):
   #获取评分
   ol = soup.find('tbody', attrs = {
   'class': 'lister-list'})
   score_info = ol

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Python技术分享

python爬虫

requests

豆瓣影评

数据可视化

Python爬虫实战，requests模块，Python实现IMDB电影top数据可视化的相关文章

【MATLAB第32期】【更新中】基于MATLAB的降维/全局敏感性分析/特征排序/数据处理分类问题MATLAB代码实现

MATLAB第32期更新中基于MATLAB的降维全局敏感性分析特征排序数据处理分类问题MATLAB代码实现持续更新本文敏感性分析主要分析分类问题 fisher rf arf nca等版本更新 2023 8 2 增加基于拥挤距

随机推荐

JAVA 创建学生类

1 题目编写程序实现如下功能已知学生类有域变量学号班号姓名性别年龄和方法获得学号获得班号获得性别获得年龄修改年龄显示基本信息定义一组学生对象并初始化他们的基本信息然后依次输出 2 源代码 Student j
linux自动挂载NTFS格式移动硬盘

转自 http blog 163 com cmh lj blog static 100812304201252522119264 由于移动硬盘还有不少的资料刚插入移动硬盘的时候发现只能自动挂载FAT FAT32格式分区按照以往的经验安
Python学习-----模块5.0（文件管理大师--＞os模块）

目录前言 1 os getcwd 2 os listdir path 3 os walk path 4 os path exists path 5 os mkdir path 6 os makedirs path exist ok Tru
URI和URL、URN的作用和区别

前言我们都知道URL是使用Web浏览器等访问Web页面时需要输入的网页地址而对URI URN的认识可能很少更有甚者会像我一样把URI与URL搞混还以为是一个东西的不同别名其实URI是URL与URN的超集 URI包括URL和URN
htons()是什么

一个数字0x12345678 左边是高字节右边是低字节存储到内存中有两种方式小端法就是把低字节先存入内存地址里从低到高就会变成 78 56 34 12 相反大端法就是把高字节先存入内存地址里从低到高存入的数据旧变成了12 34 5
ASP连接Excel的方法

在ASP中可以将Excel作为一种轻量级数据库用于存取数据下面是一个使用ASP连接Excel的代码实例首先创建excel数据链接然后打开连接在excel中名为招聘的表格中查询id 1的一条数据并打印StuName列的数据
操作系统笔记整理3——进程的描述与控制（2）

点此链接可跳转到操作系统笔记整理目录索引页参考书籍计算机操作系统第四版汤小丹等编著文章目录点此链接可跳转到操作系统笔记整理目录索引页线程的概念线程的运行状态多线程中的进程线程的实现内核支持线程KST 用户级线程
在Surface Pro 4上安装Bliss OS

安装Bliss OS 起因为了让已经有点跑不动的苏婆4发挥余热其实是想玩Arcaea 打算往上面安装安卓系统之所以不使用模拟器就是因为模拟器跑起来太慢了而且像是mumu之类的模拟器还不支持多点触控失败的尝试凤凰系统很漂亮但
websocket中stompjs订阅消息队列消息，无法正常关闭socket带来的浏览器开销问题

先说一下问题在公司的业务场景前端页面作为消费者监听的是rabbitmq中的一个交换机由此来订阅消息原生websocket因为无法更好实现监听和数据传输所以采用stomp来更好创建socket 但是websocket经历一段时间会自
项目启动卡在了Started Application in 10.266 seconds (JVM running for 13.033)

好端端的项目启动后卡在这一行Started Application in 10 266 seconds JVM running for 13 033 日志中原本打印的执行的banner和程序都没有执行访问那页面是404 很奇怪因为啥东西
webpack 设置ttf 字体不报错但是不生效

webpack config js const path require path module exports entry src index js mode development output filename bundle js p
Gitee注册教程

Gitee注册教程目录一关于Gitee 二注册Gitee 三使用Gitee 一关于Gitee Gitee也叫码云是开源中国 OSChina 推出的基于Git的代码托管服务 Gitee包括三个版本分别是社区版企业版和高校版
prometheus：（二）监控概述

目录一监控系统概论运维监控平台设计思路二 prometheus基础资源监控 2 1网络监控 2 2存储监控 2 3服务器监控 2 4中间件监控 2 5应用程序监控 APM 三常用监控系统介绍 3 1 Cacti 3 2 Nagio
tensorflow之Optimizers(tensorflow的优化器)

一概述 1 默认情况下优化器训练目标函数所依赖的所有可训练变量如果你不想训练某一个变量你可以将关键词trainable设置为False 举例如下 global step tf Variable 0 trainable False d
图像语义分割方法研究进展

全监督学习的图像语义分割方法研究进展简介 1 全监督学习的图像语义分割方法 1 1 基于全卷积的图像语义分割方法 1 2 基于编码器解码器结构的图像语义分割方法 1 3 基于注意力机制的图像语义分割方法 1 4 基于添加特殊模块的图像语义
nginx: configuration file /home/xx.local/etc/nginx/nginx.conf test failed

nginx启动失败输入 nginx t c HOME local etc nginx nginx conf nginx alert could not open error log file open var log nginx erro
提升代码质量的几点建议

在我从事编程工作的过程中提升代码质量是一个极其重要且不可忽视的问题在我看来提升代码质量需要注意以下几点 1 遵守规范包括变量命名规范文件命名规范方法命名规范等等 2 保持代码简洁我们应该尽量避免冗余复杂的代码使用有意义的变
A - C语言实验——求一个3*3矩阵对角线元素之和

Description 给定一个3 3的矩阵请你求出对角线元素之和 Input 按照行优先顺序输入一个3 3矩阵每个矩阵元素均为整数 Output 从左下角到右上角这条对角线上的元素之和 Sample Input 1 2 3 3 4 5
[MRCTF2020]千层套路1

BUU题目复现开局一个压缩包 flag全靠懵拿到压缩包第一件事直接看能不能直接解压缩很明显有密码不行下一步使用010Editor查看内部结构发现确实操作着很多的 zip 文件但是我使用binwalk foremost都没办
Python爬虫实战，requests模块，Python实现IMDB电影top数据可视化

前言利用Python爬取IMDB电影废话不多说让我们愉快地开始吧开发工具 Python版本 3 6 4 相关模块 requests模块 random模块 bs4模块以及一些Python自带的模块环境搭建安装Python并添加到

Python爬虫实战，requests模块，Python实现IMDB电影top数据可视化

前言

开发工具

环境搭建

思路分析

爬虫代码

IMDB top250主页

Python爬虫实战，requests模块，Python实现IMDB电影top数据可视化 的相关文章

随机推荐

热门标签

Python爬虫实战，requests模块，Python实现IMDB电影top数据可视化的相关文章