Pandas
9 Pandas
9.1 介绍与安装
Pandas介绍与安装
为什么会有Pandas?
Pandas支持大部分Numpy语言风格,尤其是数组函数与广播机制的各种数据处理。但是Numpy更适合处理同质型的数据。而Pandas的设计就是用来处理表格型或异质型数据的,高效的清洗、处理数据。
Pandas是什么?
Pandas是基于Numpy的一种工具,提供了高性能矩阵的运算,该工具是为了解决数据分析任务而创建的。也是贯穿整个Python数据分析非常核心的工具。
Pandas涉及内容
Pandas安装
直接在dos命令行中pip install pandas 即可。
9.2 Pandas数据结构介绍
Series是一种一维的数组型对象,它包含了一个值序列(values),并且包含了数据标签,称为索引(index)。
Series创建
pd.Series(data=None,index=None,dtype=None,name=None,copy=False)
- data:创建数组的数据,可为array-like, dict, or scalar value
- index:指定索引
- dtype:数组数据类型
- name:数组名称
- copy:是否拷贝
mport pandas as pd
pd.Series([1,2,3,4,5]) # data为iterable
索引默认为range(0,n) 可以通过index指定索引
pd.Series([1,2,3,4,5],index=list("abcde"))
数据类型根据data自动调整,但是也可以通过dtype指定
pd.Series(np.random.randint(1,10,size=5),dtype="float")
使用name参数设置数组名称
pd.Series(np.random.randint(1,10,size=3),index=list("abc"),name="ji")
-------------------------------------------
a 7
b 6
c 6
Name: ji, dtype: int32
除此之外,Pandas可以使用Numpy的数组函数。
- s.dtype # 查看数据类型
- s.astype() # 修改数据类型
- s.head(n) # 预览数据前5条
- s.tail(n) # 预览数据后5条
但是如果需要显示所有数据,则需以下代码。但并不建议使用
#显示所有列
pd.set_option('display.max_columns', None)
#显示所有行
pd.set_option('display.max_rows', None)