1. Seaborn简介
seaborn
是基于matplotlib
的数据可视化库。它在matplotlib
的基础上,进行了更高级的API封装,从而使得绘图更加容易,不需要经过大量的调整,就能使图形变得精致。
seaborn的几个鲜明特点如下:
- 绘图接口更加集成,可通过少量参数设置实现大量封装绘图
- 多数图表具有统计学含义,例如分布、关系、统计、回归等
- 对Pandas和Numpy数据类型支持非常友好
- 风格设置更为多样,例如风格、绘图环境和颜色配置等
我们应该把seaborn
视为matplotlib
的补充,而不是替代物。由于seaborn
是以matplotlib
为基础,因此在使用seaborn
前,还是应先学习matplotlib
的相关知识。
2. 导入seaborn
seaborn
的依赖库为numpy
、scipy
、pandas
、matplotlib
。
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from scipy import stats, integrate
3. 加载样本数据
seaborn
附带了样本数据集,所有数据集均为csv
格式,数据集默认存放在线上,地址为https://github.com/mwaskom/seaborn-data
。
获取样本数据地址seaborn.get_data_home()
函数签名为seaborn.get_data_home(data_home=None)
。
返回值为样本数据集的缓存地址。这个用于seaborn.load_dataset()
。
获取样本数据地址seaborn.get_data_home()
返回可用样本数据集的名称。
加载数据集seaborn.load_dataset()
默认从网络加载数据集。
函数的签名为seaborn.load_dataset(name, cache=True, data_home=None, **kws)
。
函数的参数为:
-
name
:数据集的名称,对应https://github.com/mwaskom/seaborn-data
中name.csv
。字符串。
-
cache
:是否从网络下载数据集。布尔值。可选参数。当取值为True
时,首选从本地缓存加载数据,如果下载数据会将数据缓存在本地。
-
data_home
:缓存目录。字符串,可选参数。默认值为None
,即get_data_home()
。
-
kws
:传递给pandas.read_csv()
的附加参数。键值对,可选参数。
返回值为pandas.DataFrame
。
加载本地数据集
由于数据集默认从github下载,由于网络不稳定或者没有网络,所以直接访问数据集可能不方便,因此加载本地数据集比较灵活。
加载本地数据集的步骤如下:
- 直接从
https://github.com/mwaskom/seaborn-data
下载数据集。
- 将数据集保存在同一个目录中,比如
D:\seaborn-data
。
- 加载数据时,设置
load_dataset
函数的cache
参数为True
,data_home
参数为D:\seaborn-data
。即sns.load_dataset('iris',data_home=r'D:\seaborn-data',cache=True)
加载自定义数据
除了seaborn
附带的数据集,也可以自己创建数据。
根据load_data()
函数概述可知,其原理就是利用pandas.read_csv()
函数读取csv
文件,因此,只要数据最终被转换为DataFrame
格式即可。