2023年第二届全国大学生数据统计与分析竞赛——电影评分的大数据分析

2023-11-11

问题一:请分析附件 1 中最受欢迎的电影类型是什么?排名前 250 名电影中 出现次数最多的导演前 10 名是谁?出现次数最多的国家前 5 名是哪些国家 

最受欢迎的电影类型

lst = []
for i in df1['电影类型'].apply(lambda x : x.split('/')):
    for j in i:
        lst.append(j)
pd.DataFrame(lst).value_counts().head(1)

 出现次数最多的导演前 10 名

df1['导演'].value_counts()[:10]

 出现次数最多的国家前 5 名

lst1 = []
for i in df1['国家'].apply(lambda x : x.split('/')):
    for j in i:
        lst1.append(j.strip())
pd.DataFrame(lst1).value_counts().head(5)

问题二:请分析附件 1 中排名前 250 名电影的上映年份主要集中在哪几年? 排名前 250 名电影的评分与评论人数、国家、导演和电影类型是否有关系?

前 250 名电影的上映年份主要集中在哪几年

df1['上映年份'].value_counts()[:5]

 排名前 250 名电影的评分与评论人数、国家、导演和电影类型是否有关系?

import numpy as np
from scipy import stats
from pandas import DataFrame as df
data = df1[['评分','评论人数','国家','导演','电影类型']]
name = data.columns.tolist()
dic = dict()
for i in range(len(name)):
    dic.update({i:name[i]})
Spearmanr = df(stats.spearmanr(data.iloc[:,:])[0])
Spearmanr = Spearmanr.rename(columns = dic).T.rename(columns = dic)
Spearmanr

感觉关系不大!!!!,下面的散点图也是这种感觉

from matplotlib import pyplot as plt
plt.figure(figsize=(15,6),facecolor='#fff')
plt.scatter(data['评论人数'],data['评分'])
plt.show()

 问题三:请你们收集相关数据,分析附件 2 中电影票房较高的电影主要是什么类型的电影?并给出这些电影的上映时间、总票房(元)、平均票价和平均场次 的相关统计图表。

这里用到的数据是用的附件1和附件2关联后取交集的结果。对附件外的数据并没有补充,有需要的可以自行百度去找到数据,并将数据代入其中。

df2 = pd.read_csv('附件2. 电影票房.csv',encoding='gbk')
#图中正常展示中文标签
plt.rcParams['font.sans-serif'] = ['simhei']
#展示负号
plt.rcParams['axes.unicode_minus'] = False
res1 = df1.merge(df2,how = 'inner',on = '电影名称').dropna(axis = 0)
lst3 = []
for i in res1.sort_values('总票房(元)',ascending = False)[:10]['电影类型'].apply(lambda x : x.split('/')):
    for j in i:
        lst3.append(j)
plt.figure(figsize=(15,6),facecolor='#fff')
plt.pie(
    x = pd.DataFrame(lst3).value_counts().values.tolist(),
    labels = pd.DataFrame(lst3).value_counts().index.tolist(),
    autopct='%.0f%%'
    
)
plt.show()

res1.sort_values('总票房(元)',ascending = False)[:10]['电影名称'].values
res1.sort_values('总票房(元)',ascending = False)[:10]['总票房(元)'].values
plt.bar(
    res1.sort_values('总票房(元)',ascending = False)[:10]['电影名称'].values,
    res1.sort_values('总票房(元)',ascending = False)[:10]['总票房(元)'].values,
    color = '#BFA2C6'
)
plt.xticks(rotation = 330)
plt.show()

 

res1.sort_values('总票房(元)',ascending = False)[:10]['平均票价'].value_counts()
plt.figure(figsize=(15,6),facecolor='#fff')
plt.pie(
    x = res1.sort_values('总票房(元)',ascending = False)[:10]['平均票价'].value_counts().values.tolist(),
    labels = res1.sort_values('总票房(元)',ascending = False)[:10]['平均票价'].value_counts().index.tolist(),
    autopct='%.0f%%'
)
plt.title('平均票价')
plt.show()

 

res1.sort_values('总票房(元)',ascending = False)[:10]['平均场次'].value_counts()
plt.figure(figsize=(15,6),facecolor='#fff')
plt.pie(
    x = res1.sort_values('总票房(元)',ascending = False)[:10]['平均场次'].value_counts().values.tolist(),
    labels = res1.sort_values('总票房(元)',ascending = False)[:10]['平均场次'].value_counts().index.tolist(),
    autopct='%.0f%%'
)
plt.title('平均场次')
plt.show()

 

 da

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

2023年第二届全国大学生数据统计与分析竞赛——电影评分的大数据分析 的相关文章

  • Matplotlib 动画迭代 pandas 数据帧列表

    我有一个 pandas DataFrame 列表 每个数据框有 2 列 到目前为止 我有一个函数 当给定索引 i 时 它会采用与索引 i 相对应的框架 并根据第二列的数据绘制第一列的数据图 list f0 f1 f2 f3 f4 f5 f6
  • 具有指定置信区间的 Seaborn 条形图

    我想在 Seaborn 条形图上绘制置信区间 但我已经计算出置信区间 如何让 Seaborn 绘制我的置信区间而不是尝试自行计算它们 例如 假设我有以下 pandas DataFrame x pd DataFrame Group 1 0 5
  • 将此 MATLAB 代码转换为 Python 时我做错了什么?

    我正在努力将生成波形的 MATLAB 代码转换为 Python 就上下文而言 这是原子力显微镜带激发响应的模拟 与代码错误无关 在 MATLAB 中从 r vec 生成的图形与我在 Python 中生成的图形不同 我是否正确地将 MATLA
  • 如何在 matplotlib 中设置日期的 xticklabels

    我正在尝试绘制两个列表中的值 x 轴值是日期 到目前为止尝试过这些事情 year 20070102 20070806 20091208 20111109 20120816 20140117 20140813 yvalues 0 5 0 5
  • 清除通过在 IPython 中绘图分配的内存

    我正在 IPython QtConsole 和 Notebook 中绘制一些大图 这些占用了大量的内存 但是一旦它们被绘制出来 我就不再需要它们了 它们就可以走了 我怎样才能释放内存 None以下作品 close clf cla reset
  • matplotlib 中没有绘图窗口

    我刚刚使用 synaptic 软件包系统在 Ubuntu 9 10 中安装了 matplotlib 但是 当我尝试以下简单示例时 gt gt gt from pylab import plot gt gt gt plot 1 2 3 1 2
  • 如何并排绘制具有相同 X 坐标的条形图(“闪避”)

    import matplotlib pyplot as plt gridnumber range 1 4 b1 plt bar gridnumber 0 2 0 3 0 1 width 0 4 label Bar 1 align cente
  • matplotlib vlines 图中未应用 y 轴的最小值

    我正在 matplotlib 中绘制 vlines 图 数据集中的所有 y 值如下 gt 0 我希望 y 轴最底部的刻度能够读取0 但相反 我得到 500 这是代码 usr bin env python import numpy as np
  • pick_event 使用 matplotlib 获取点

    我正在尝试使用pick event通过单击鼠标直接访问点的精确值 def plot self x values list y values list def pick handler event x y event mouseevent x
  • Pandas,条形图注释

    如何正确给 Pandas 条形图添加注释 我正在跟进使用 Pandas 和 MPL 进行条形图注释 http robertmitchellv com blog bar chart annotations with pandas and mp
  • 在一张图中同时绘制两个截面强度

    我有一个形状数组 512 512 看起来像 行 x 列 y 密度 z 数组的数量 0 012825 0 020408 0 022976 0 015938 0 02165 0 024357 0 036332 0 031904 0 025462
  • 如何在matplotlib中控制鼠标悬停文本

    当您将鼠标悬停在使用 imshow 显示的图像上时 您可以将鼠标悬停在该图像上以检查其 RGB 值 matplotlib 窗口的右下角 与工具栏共享空间 显示了所指向像素的图像坐标和 RGB 值 x 274 99 y 235 584 241
  • Matplotlib:将默认图例 loc 和图例 bbox 更改为锚点

    每次用 pandas 在 matplotlib 中绘图时 为了将图例放在图形之外 我必须执行以下操作 single obj trading curve instrument toppercentile plot legend loc cen
  • 使用 numpy 和 matplotlib 绘制总和直方图,而不是计数

    我有一些每行两列的数据 就我而言 工作提交时间和区域 我使用 matplotlib 的 hist 函数生成一个图表 其中 x 轴上按天划分时间 y 轴上按天计数 import numpy as np import matplotlib py
  • python ImportError:没有名为 Tkinter 的模块

    每次我尝试奔跑import matplotlib 我有错误ImportError No module named Tkinter 输出结果如下所示 Python 2 7 5 default Aug 2 2016 04 20 16 GCC 4
  • 给定一般 3D 平面方程

    假设我有一个 3D 平面方程 ax by cz d 我如何在 python matplotlib 中绘制它 我看到一些例子使用plot surface 但它接受 x y z 值作为二维数组 我不明白如何将我的方程转换为参数输入plot su
  • Python 3.x 中的绘图

    在Python 2 6中 我使用matplotlib制作了一些简单的图表 但是 它与 Python 3 1 不兼容 有哪些替代模块可以完成相同的事情而不非常复杂 您说您想创建一些简单的图表 但没有真正说明您想要多简单或哪种类型的图表 只要它
  • 拟合泊松直方图

    I am trying to fit a curve over the histogram of a Poisson distribution that looks like this 我修改了拟合函数 使其类似于泊松分布 其中参数 t 作
  • 如何在Python中绘制“Trace Explorer”?

    我需要重新创建一个情节 踪迹浏览器 https www bupar net trace explorer html与下面在 R 中创建的类似 我希望使用 matplotlib 但找不到任何有关如何执行这样的跟踪资源管理器的示例或参考 有人能
  • 需要FTP文件而不存储解释器文件通过Python保存在本地

    我正在尝试做一些图像解释器并尝试将它们直接存储到 FTP 服务器 但我的步骤是从本地文件夹上传图像 然后将其转换为蒙版图像 然后它将获得最终输出 但是在我的蒙版和最终输出场景中 临时图像被保存在本地 这是我不想要的 但如果不将图像存储在本地

随机推荐

  • c++基本类型和变量

    基本类型 c 内置类型 setlocale LC ALL chs bool bo true char ch a wchar t wch L 中国 short sh 32767 32768 32767 int i 10 32768 32767
  • runas 显示740 所需的操作需要提升的解决方法

    域环境中 有些软件启动需要用到管理员权限 所以对user用户来说比较麻烦 对IT来说也挺麻烦 每次使用都需要输一次账号密码 后来使用了runas工具就方便了 虽然有些不安全 今天发现这个不起作用了 cmd里输入语句 提示 740 所需的操作
  • C语言内存四区的学习总结(一)---- 静态区

    最近重新学习C语言相关知识 重新提到内存四区的概念 那么在之前的学习的基础上 在这儿做一个简单的总结与分享 一 内存四区建立的流程 可以简单直观的查看下面的这个图片 直接的说明我们的程序在内存中是如何去存储 运行 程序运行的流程说明 1 操
  • 引入字体包

    我接触的设计师都比较喜欢用苹方字体 然后每次都要引入字体包 首先一定要设计师给ttf格式的文件 然后在scss中引入 font face font family PingFangSC Regular font weight normal s
  • pandas数据读取与清洗视频03-pd.read_csv()读取csv、txt文件

    本系列课程适用人群 python零基础数据分析的朋友 在校学生 职场中经常要处理各种数据表格 或大量数据 十万级以上 的朋友 喜欢图表可视化的朋友 系列视频目前可在B站观看 会定期更新 欢迎大家吐槽 本节概要 数据量较大时一般保存为csv或
  • Wireshark TS

    问题背景 用户反馈说观察到一个设备连接的奇怪问题 客户端 172 18 0 122 尝试连接到服务器 172 18 50 1 之后服务器回复 SYN ACK 再收到消息后不久 客户端直接发送 RST 并在一段时间后又重复尝试连接 总结下来就
  • RPC通信功能实现

    Table of Contents RPC通信功能实现 配置参数 调用方法 RPC通信功能实现 HBase的RPC通信功能主要基于Protobuf和NIO这两个组件来实现 在通信管道上选择的是protobuf对外声明的BlockingRpc
  • Linux——僵尸进程以及僵尸进程的处理

    僵尸进程 1 进程中的指令已经执行完成 但是进程PCB结构还没有回收 即子进程先于父进程退出后 子进程的PCB需要其父进程释放 但是父进程并没有释放子进程的PCB 这样的子进程就称为僵尸进程 2 父进程未结束 子进程结束 但父进程没有处理子
  • C语言三大标准C89,C99和C11

    C89 标准 1983 年美国国家标准局 American National Standards Institute 简称 ANSI 成立了一个委员会 专门来制定C语言标准 1989 年C语言标准被批准 被称为 ANSI X3 159 19
  • 59 KVM Skylark虚拟机混部-概述、架构及特性

    文章目录 59 KVM Skylark虚拟机混部 概述 架构及特性 59 1 Skylark概述 59 1 1 问题背景 59 1 2 总体介绍 59 2 架构及特性 59 2 1 总体实现框架 59 2 2 功耗干扰控制 59 2 3 L
  • 树-树的遍历(先序、中序、后序)

    树的遍历 树的遍历方式主要分为四种 先序 中序 后序和层序 在这篇博客中我将仔细介绍一下树的这四种遍历方式 先序遍历 先序遍历 也叫先根遍历 前序遍历 首先访问根结点然后遍历左子树 最后遍历右子树 在遍历左 右子树时 仍然先访问根结点 然后
  • discuz常用函数调用

    调用主题的查看次数 lang show G forum thread views discuz帖子正文下方有一组自动推荐的相关帖子 其调用代码为 div class mtw mbw h3 class pbm mbm bbda lang re
  • 【Bug修复】安装BurpSuite时,配置完Java环境后burp-loader-keygen.jar无法打开的问题

    前言 我们在安装BurpSuite时需要打开 jar文件 打开jar文件的前提是安装java环境 这里我安装的是1 8版本的 正常流程是安装好java环境可以直接打开 jar文件 而我的不行 我的图标 文件类型也没有任何变化 工具分享链接链
  • [Windows Azure] What is a cloud service?

    What is a cloud service When you create an application and run it in Windows Azure the code and configuration together a
  • 目标检测器训练过程总结(HyperLPR)

    1 项目背景 开源项目HyperLPR 在车牌粗定位 提取 阶段 依赖于训练好的模型文件cascade xml 而该文件是一个由基于OpenCV的Haar级联分类器训练出来的模型 HyperLPR作者有在他的博客中谈到了该模型文件的训练过程
  • 白盒测试的几种覆盖方法:语句覆盖、判定覆盖、条件覆盖、判定/条件覆盖、组合覆盖和路径覆盖详解

    文章转自 http www 51testing com html 44 n 3713444 html 白盒测试用例设计的一个很重要的评估标准就是对代码的覆盖度 一说到覆盖 大家都感觉非常熟悉 但是常见的覆盖都有哪些 各自有什么优缺点 在白盒
  • jackson的使用

    文章目录 json jackson databind ObjectMapper JSON字符串 gt 对象 JSON 字符输入流 gt 对象 JSON文件 gt 对象 JSON URL gt 对象 JSON字节输入流 gt 对象 JSON二
  • questsim/modelsim 中仿真VIVADO工程的方法,以及调用Xilinx的ROM IP后,导致仿真输出为0问题的解决

    这几天写了个UVM的验证环境 要用questasim来运行 而待测试的DUT是之前用VIVADO做的 就得把VIVADO中的工程移植到quetasim里 其中调用了Xilinx的ROM RAM等IP核 首先是移植VIVADO的工程 参考这篇
  • hibernate mysql的JDBC中URL连接串的问题

    如果是 hibernate cfg xml 文件配置
  • 2023年第二届全国大学生数据统计与分析竞赛——电影评分的大数据分析

    问题一 请分析附件 1 中最受欢迎的电影类型是什么 排名前 250 名电影中 出现次数最多的导演前 10 名是谁 出现次数最多的国家前 5 名是哪些国家 最受欢迎的电影类型 lst for i in df1 电影类型 apply lambd