前言:
在学习机器学习的过程中,对数据进行预处理时避免不了需要使用Pandas进行大量操作。而Pandas的方法与对象众多,一条一条不好记。因此在这里从八个方面试图对用到的Pandas方法进行总结,在以后使用时可以直接查表。注:下面df均为DataFrame的缩写。
另外也会陆续更新一些常用的机器学习操作,例如缺省值的处理等。
一:基本核心部件:DataFrame与Series
- DataFrame相当于一张表:
一个DataFrame
创建DataFrame方法:pd.DataFrame({'Yes': [50, 21], 'No': [131, 2]})
#注意这是一个字典-列表转换器!
其中,DataFrame的内容不限于整型数字。注意,列标签可以由字典-列表转换器指定,但行标签(Index)默认为0、1、2、3... 修改方法如下:
pd.DataFrame({'Bob': ['I liked it.', 'It was awful.'],
'Sue': ['Pretty good.', 'Bland.']},
index=['Product A', 'Product B'])
2. Series相当于只有一列的DataFrame
pd.Series([1, 2, 3, 4, 5])
其中,Series没有列标签,只有Name;行标签仍为Index
pd.Series([30, 35, 40], index=['2015', '2016', '2017'], name='Numbers')
二:文件读写操作
一般我们使用CSV(Comma-Separated Values)文件。
df = pd.read_csv("../input/****.csv")
##当数据文件中本来就有行标(Index时,可以如下使用在上面加index_col=0)
reviews.to_csv('文件名.csv')
#不加index: reviews.to_csv('文件名.csv',Index=False)
df.shape #查看数据维度
df.head() #查看前几行数据
df.set_index("title") #改变index方式
df.Country / df['Country'] #访问reviews文件中名为'Country'的一列数据:
df['country'