数据分析课程笔记(二)绘制散点、条形、直方图 Numpy简介

2023-11-12

绘制散点图

在这里插入图片描述
数据来源
http://lishi.tianqi.com/beijing/index.html

# coding=utf-8
from matplotlib import pyplot as plt
from matplotlib import font_manager

my_font = font_manager.FontProperties(fname="/System/Library/Fonts/Hiragino Sans GB.ttc")
y_3 = [11,17,16,11,12,11,12,6,6,7,8,9,12,15,14,17,18,21,16,17,20,14,15,15,15,19,21,22,22,22,23]
y_10 = [26,26,28,19,21,17,16,19,18,20,20,19,22,23,17,20,21,20,22,15,11,15,5,13,17,10,11,13,12,13,6]

x_3 = range(1,32)
x_10 = range(51,82)

#设置图形大小
plt.figure(figsize=(20,8),dpi=80)

#使用scatter方法绘制散点图,和之前绘制折线图的唯一区别
plt.scatter(x_3,y_3,label="3月份")
plt.scatter(x_10,y_10,label="10月份")

#调整x轴的刻度
_x = list(x_3)+list(x_10)
_xtick_labels = ["3月{}日".format(i) for i in x_3]
_xtick_labels += ["10月{}日".format(i-50) for i in x_10]
plt.xticks(_x[::3],_xtick_labels[::3],fontproperties=my_font,rotation=45)

#添加图例
plt.legend(loc="upper left",prop=my_font)

#添加描述信息
plt.xlabel("时间",fontproperties=my_font)
plt.ylabel("温度",fontproperties=my_font)
plt.title("标题",fontproperties=my_font)
#展示
plt.show()


在这里插入图片描述
技术要点:plt.scatter(x,y)
应用场景

  • 不同条件(维度)之间的内在关联关系
  • 观察数据的离散聚合程度

绘制条形图

在这里插入图片描述

数据来源:
http://58921.com/alltime/2017

# coding=utf-8
from matplotlib import pyplot as plt
from matplotlib import font_manager
my_font = font_manager.FontProperties(fname="/System/Library/Fonts/Hiragino Sans GB.ttc")


a = ["战狼2","速度与激情8","功夫瑜伽","西游伏妖篇","变形金刚5:最后的骑士","摔跤吧!爸爸","加勒比海盗5:死无对证","金刚:骷髅岛","极限特工:终极回归","生化危机6:终章","乘风破浪","神偷奶爸3","智取威虎山","大闹天竺","金刚狼3:殊死一战","蜘蛛侠:英雄归来","悟空传","银河护卫队2","情圣","新木乃伊",]

b=[56.01,26.94,17.53,16.49,15.45,12.96,11.8,11.61,11.28,11.12,10.49,10.3,8.75,7.55,7.32,6.99,6.88,6.86,6.58,6.23]


#设置图形大小
plt.figure(figsize=(20,15),dpi=80)
#绘制条形图
plt.bar(range(len(a)),b,width=0.3)
#设置字符串到x轴
plt.xticks(range(len(a)),a,fontproperties=my_font,rotation=90)

plt.savefig("./movie.png")

plt.show()

在这里插入图片描述

在这里插入图片描述

绘制横着的条形图

#绘制横着的条形图
from matplotlib import pyplot as plt
from matplotlib import font_manager
my_font = font_manager.FontProperties(fname="/System/Library/Fonts/Hiragino Sans GB.ttc")


a = ["战狼2","速度与激情8","功夫瑜伽","西游伏妖篇","变形金刚5:最后的骑士","摔跤吧!爸爸","加勒比海盗5:死无对证","金刚:骷髅岛","极限特工:终极回归","生化危机6:终章","乘风破浪","神偷奶爸3","智取威虎山","大闹天竺","金刚狼3:殊死一战","蜘蛛侠:英雄归来","悟空传","银河护卫队2","情圣","新木乃伊",]

b=[56.01,26.94,17.53,16.49,15.45,12.96,11.8,11.61,11.28,11.12,10.49,10.3,8.75,7.55,7.32,6.99,6.88,6.86,6.58,6.23]


#设置图形大小
plt.figure(figsize=(20,8),dpi=80)
#绘制条形图
plt.barh(range(len(a)),b,height=0.3,color="orange")
#设置字符串到x轴
plt.yticks(range(len(a)),a,fontproperties=my_font)

plt.grid(alpha=0.3)
# plt.savefig("./movie.png")

plt.show()

在这里插入图片描述
数据来源:
http://www.cbooo.cn/movieday

例子

在这里插入图片描述

# coding=utf-8
from matplotlib import pyplot as plt
from matplotlib import font_manager
my_font = font_manager.FontProperties(fname="/System/Library/Fonts/Hiragino Sans GB.ttc")


a = ["猩球崛起3:终极之战","敦刻尔克","蜘蛛侠:英雄归来","战狼2"]
b_16 = [15746,312,4497,319]
b_15 = [12357,156,2045,168]
b_14 = [2358,399,2358,362]

bar_width = 0.2

x_14 = list(range(len(a)))
x_15 =  [i+bar_width for i in x_14]
x_16 = [i+bar_width*2 for i in x_14]

#设置图形大小
plt.figure(figsize=(20,8),dpi=80)

plt.bar(range(len(a)),b_14,width=bar_width,label="9月14日")
plt.bar(x_15,b_15,width=bar_width,label="9月15日")
plt.bar(x_16,b_16,width=bar_width,label="9月16日")

#设置图例
plt.legend(prop=my_font)

#设置x轴的刻度
plt.xticks(x_15,a,fontproperties=my_font)

plt.show()

在这里插入图片描述
条形图应用场景

  • 数据统计
  • 频率统计(市场饱和)

绘制直方图

在这里插入图片描述

# coding=utf-8
from matplotlib import pyplot as plt
from matplotlib import font_manager

a=[131,  98, 125, 131, 124, 139, 131, 117, 128, 108, 135, 138, 131, 102, 107, 114, 119, 128, 121, 142, 127, 130, 124, 101, 110, 116, 117, 110, 128, 128, 115,  99, 136, 126, 134,  95, 138, 117, 111,78, 132, 124, 113, 150, 110, 117,  86,  95, 144, 105, 126, 130,126, 130, 126, 116, 123, 106, 112, 138, 123,  86, 101,  99, 136,123, 117, 119, 105, 137, 123, 128, 125, 104, 109, 134, 125, 127,105, 120, 107, 129, 116, 108, 132, 103, 136, 118, 102, 120, 114,105, 115, 132, 145, 119, 121, 112, 139, 125, 138, 109, 132, 134,156, 106, 117, 127, 144, 139, 139, 119, 140,  83, 110, 102,123,107, 143, 115, 136, 118, 139, 123, 112, 118, 125, 109, 119, 133,112, 114, 122, 109, 106, 123, 116, 131, 127, 115, 118, 112, 135,115, 146, 137, 116, 103, 144,  83, 123, 111, 110, 111, 100, 154,136, 100, 118, 119, 133, 134, 106, 129, 126, 110, 111, 109, 141,120, 117, 106, 149, 122, 122, 110, 118, 127, 121, 114, 125, 126,114, 140, 103, 130, 141, 117, 106, 114, 121, 114, 133, 137,  92,121, 112, 146,  97, 137, 105,  98, 117, 112,  81,  97, 139, 113,134, 106, 144, 110, 137, 137, 111, 104, 117, 100, 111, 101, 110,105, 129, 137, 112, 120, 113, 133, 112,  83,  94, 146, 133, 101,131, 116, 111,  84, 137, 115, 122, 106, 144, 109, 123, 116, 111,111, 133, 150]

#计算组数
d = 3  #组距
num_bins = (max(a)-min(a))//d
print(max(a),min(a),max(a)-min(a))
print(num_bins)


#设置图形的大小
plt.figure(figsize=(20,8),dpi=80)
plt.hist(a,num_bins,normed=True)

#设置x轴的刻度
plt.xticks(range(min(a),max(a)+d,d))

plt.grid()

plt.show()

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

数据来源:
https://en.wikipedia.org/wiki/Histogram
普查报告地址:
https://www.census.gov/prod/2004pubs/c2kbr-33.pdf
在这里插入图片描述
在这里插入图片描述

# coding=utf-8
from matplotlib import pyplot as plt
from matplotlib import font_manager

interval = [0,5,10,15,20,25,30,35,40,45,60,90]
width = [5,5,5,5,5,5,5,5,5,15,30,60]
quantity = [836,2737,3723,3926,3596,1438,3273,642,824,613,215,47]


print(len(interval),len(width),len(quantity))

#设置图形大小
plt.figure(figsize=(20,8),dpi=80)



plt.bar(range(12),quantity,width=1)

#设置x轴的刻度
_x = [i-0.5 for i in range(13)]
_xtick_labels =  interval+[150]
plt.xticks(_x,_xtick_labels)

plt.grid(alpha=0.4)
plt.show()

# coding=utf-8
from matplotlib import pyplot as plt
from matplotlib import font_manager

interval = [0,5,10,15,20,25,30,35,40,45,60,90]
width = [5,5,5,5,5,5,5,5,5,15,30,60]
quantity = [836,2737,3723,3926,3596,1438,3273,642,824,613,215,47]


print(len(interval),len(width),len(quantity))

#设置图形大小
plt.figure(figsize=(20,8),dpi=80)



plt.bar(interval,quantity,width=width)

#设置x轴的刻度

temp_d = [5]+ width[:-1]
_x = [i-temp_d[interval.index(i)]*0.5 for i in interval]

clear
plt.xticks(_x,interval)

plt.grid(alpha=0.4)
plt.show()

直方图更多场景

  • 用户的年龄分布状态
  • 一段时间内用户点击次数的分布状态
  • 用户活跃时间的分布状态

常见问题总结

在这里插入图片描述

matplotlib使用流程

在这里插入图片描述

matplotlib更多的图形样式

matplotlib支持的图形是非常多的,如果有其他的需求,我们
可以查看一下url地址:
http://matplotlib.org/gallery/index.html

更多绘图工具

plotly:可视化工具中的github,相比于matplotlib更加简单,图形更加漂亮,同时兼容matplotlib和pandas

使用用法:简单,照着文档写即可

文档地址: https://plot.ly/python/
百度echarts https://echarts.apache.org/zh/index.html

numpy

一个在Python中做科学计算的基础库,重在数值计算,也是大部分PYTHON科学计算库的基础库,多用于在大型、多维数组上执行数值运算

numpy创建数组(矩阵)

在这里插入图片描述

numpy中常见的更多数据类型

在这里插入图片描述

数据类型的操作

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

# coding=utf-8
import numpy as np
import random

#使用numpy生成数组,得到ndarray的类型
t1 = np.array([1,2,3,])
print(t1)
print(type(t1))

t2 = np.array(range(10))
print(t2)
print(type(t2))

t3 = np.arange(4,10,2)
print(t3)
print(type(t3))

print(t3.dtype)
print("*"*100)
#numpy中的数据类型

t4 = np.array(range(1,4),dtype="i1")
print(t4)
print(t4.dtype)

##numpy中的bool类型
t5 = np.array([1,1,0,1,0,0],dtype=bool)
print(t5)
print(t5.dtype)

#调整数据类型
t6 = t5.astype("int8")
print(t6)
print(t6.dtype)

#numpy中的小数
t7 = np.array([random.random() for i in range(10)])
print(t7)
print(t7.dtype)

t8 = np.round(t7,2)
print(t8)

在这里插入图片描述

#### 四种图形使用情况对比
  - 观察变化的时候使用 折线图,plot
  - 观察不同维度之间的关系 散点图 ,scatter
  - 统计离散的数据  条形图 bar,barh
  - 统计连续的数据  直方图 hist

#### scatter
  - plt.scatter(x,y)

#### bar,barh
  - plt.bar(x,y,width=0.3)
  - plt.bar(x,y,height=0.3)

#### hist
  - plt.hist([1,2,3],组数)
  - 组数=(最大值-最小值)/ 组距

#### numpy
  - 创建数组
  > import numpy as np
  np.array([])
  np.array(range())
  np.arange(3,10,2)  #生成从3到10,步长为2的一个一维数组

  - 数据类型
  > int, float, "int64" ,"int32","float32",bool
  > t1.dtype  #观察数据类型
  > t1.astype()
  

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

数据分析课程笔记(二)绘制散点、条形、直方图 Numpy简介 的相关文章

随机推荐

  • 【转】DevOps的前世今生

    目前在国外 互联网巨头如Google Facebook Amazon LinkedIn Netflix Airbnb 传统软件公司如Adobe IBM Microsoft SAP等 亦或是网络业务非核心企业如苹果 沃尔玛 索尼影视娱乐 星巴
  • [bx]和loop指令

    1 bx 的含义 bx 表示一个内存单元 它的偏移地址在bx中 比如 mov ax bx 会将一个内存单元的内容送入ax 这个内存单元的长度是2个字节 存放一个字 偏移地址存放在bx中 段地址在ds中 mov al bx 则是移动半个字 2
  • openGL API glDeleteSamplers中文翻译

    openGL API glDeleteSamplers中文翻译 先放上英文 后面是中文翻译 Name glDeleteSamplers delete named sampler objects C Specification void gl
  • windows server 2003 永恒之蓝(MS17-010)漏洞复现

    目录 永恒之蓝 概述 防护方式 复现 复现工具 复现过程 侦测部分 用于侦测靶机是否具有ms17 010漏洞 攻击部分 永恒之蓝 概述 永恒之蓝是指2017年4月14日晚 黑客团体Shadow Brokers 影子经纪人 公布一大批网络攻击
  • ImportError: cannot import name 'json_util' from 'bson'

    最近使用bson的json util时出现错误 错误提示如下 ImportError cannot import name json util from bson OR ImportError No module named bson js
  • 面试总结(JavaWeb后端工程师三年面试问题,附答案!)

    笔者在今年上半年辞职了 陆陆续续面试了一些互联网公司 一起来看看这些公司都问的些什么面试题吧 一 Spring MVC和Spring boot有啥区别 1 Spring MVC和Spring Boot都是Spring的一部分 且两者都是由I
  • 刷脸支付条赛道上支付宝遥遥领先

    社会经济在快速发展 而身边所携带的现金却在慢慢减少 很多人甚至出门都不带现金 尤其是早晨着急上班的时候 在地铁口附近买包子需要付款时 手中无现金 拿出手机又嫌麻烦 刷脸似乎更为便捷 于是乎 脸就变得越来越值钱 靠脸吃饭不再仅仅局限于偶像明星
  • 【jar包】java -jar 启动服务,断开服务器连接或者关闭窗口后,服务停止

    解决办法 nohup java jar XXX jar gt log file 最后的 在后台运行 只能避免打断后程序停止 无法避免关闭当前窗口 最前面的nohup 不挂断运行命令 当账户退出或终端关闭时 程序仍然运行 输出到log fil
  • 服装行业多模态算法个性化产品定制方案

    一 项目背景 AI赋能服装设计师 设计好看 好穿 好卖的服装 传统服装行业痛点 设计师无法准确捕捉市场趋势 抓住中国潮流 上新周期长 高库存滞销风险大 基本款居多 难以满足消费者个性化需求 解决方案 GPT 数据洞察 快速反应市场时尚流行趋
  • pycharm安装2021最新详细教程小白入门

    一 官网下载安装包 Pycharm的官网 https www python org 这个链接进去直接是下载界面 https www jetbrains com pycharm download 1 专业版 Professional 是收费的
  • C++基本语法

    C 中构造函数的调用 class Type void main Type obj ok 编译器调用了默认的构造函数 Type obj1 Type ok 显示调用了默认的构造函数 Type obj3 error 其是声明了一个无参并返回Typ
  • 控制台get的两种提交方式

    本次学习需要打开Visual Studio 2015简称 VS 开发工具 其他的版本也可以使用 打开进入页面创建项目 创建的项目命名为控制台get提交的两种方式 之后我们在软件默认的位置 保存的位置可以进行更改 之后就到更改的位置中查找 中
  • axios 请求自动携带 cookie

    axios 请求自动携带 cookie axios默认是不让ajax请求头部携带cookie的 添加withCredentials设置 const instance axios create baseURL http 127 0 0 1 3
  • Java 实现暴力匹配算法(也称为朴素字符串匹配算法)

    摘要 暴力匹配算法 也称为朴素字符串匹配算法 是一种简单但有效的字符串匹配算法 它通过遍历主串和模式串的每一个字符 并在遇到不匹配的情况下逐个后移字符进行匹配 本文将使用Java语言实现暴力匹配算法 并对其性能进行简要分析 介绍 字符串匹配
  • C 简介

    原文链接 https www runoob com cprogramming c intro html C 语言是一种通用的高级语言 最初是由丹尼斯 里奇在贝尔实验室为开发 UNIX 操作系统而设计的 C 语言最开始是于 1972 年在 D
  • 每日一问—03如何拆分指定页码pdf

    一 各页码范围合成一个整体的pdf import PyPDF2 导入PyPDF2模块 def merge pdf pages input pdf page ranges output pdf reader PyPDF2 PdfFileRea
  • 越来越智能的云,如何助力实体经济?

    2023 年腾讯全球数字生态大会即将举行 每一年的大会 腾讯都会带来新的思考和实践 今年也不例外 今年 大会的主题是 智变加速 产业焕新 意即数字经济正发生的变化 以大语言模型为代表的人工智能 正在带来全新的科技变革 如何为实体经济创造新的
  • 西门子PLC通信全解析

    前言 最近西门子PLC价格大幅上调 在工控界引起了不小的风波 不仅涨价 甚至还缺货 导致很多人不得不更改方案 听说最近已经完成了芯片替换 希望不久能够恢复供货 并把价格回调 通过这件事 从侧面可以看出 西门子在工控领域的市场占有率很大 那么
  • Oracle date(时间)类型详解

    常用日期型数据类型 TIMESTAMP类型是DATE类型的一个扩展 DATE类型会存储年月日时分秒信息 TIMESTAMP类型精度更高 会存储到微秒 纳秒 1 DATE 展示格式既可以为 YYYY MM DD 也可以为YYYY MM DD
  • 数据分析课程笔记(二)绘制散点、条形、直方图 Numpy简介

    数据分析课程笔记 绘制散点图 绘制条形图 绘制横着的条形图 例子 绘制直方图 直方图更多场景 常见问题总结 matplotlib使用流程 matplotlib更多的图形样式 更多绘图工具 numpy numpy创建数组 矩阵 numpy中常