利用python进行数据分析——pandas

2023-11-14

import pandas as pd
import numpy as np

np.random.seed(12345)
import matplotlib.pyplot as plt

1. 介绍Pandas

工具一：Series

obj = pd.Series([4, 7, -5, 3])
obj

0    4
1    7
2   -5
3    3
dtype: int64

print(obj.values)
print(obj.index)     # 左闭右开

[ 4  7 -5  3]
RangeIndex(start=0, stop=4, step=1)

# 自定义索引
obj2 = pd.Series([4, 7, -5, 3], index = ['d', 'b', 'a', 'c'])
print(obj2.index)
print(obj2['a'])
obj2

Index(['d', 'b', 'a', 'c'], dtype='object')
-5

d    4
b    7
a   -5
c    3
dtype: int64

用索引去改值

obj2['d'] = 6
obj2[['c', 'a', 'd']]

c    3
a   -5
d    6
dtype: int64

布尔值索引

obj2[obj2 > 0]

d    6
b    7
c    3
dtype: int64

乘法

obj2 * 2
print(obj2)

d    6
b    7
a   -5
c    3
dtype: int64

Series可以和numpy结合使用

# 指数
np.exp(obj2)

d     403.428793
b    1096.633158
a       0.006738
c      20.085537
dtype: float64

'b' in obj2     # 是看index

True

用字典生成Series

sdata = {'Ohio': 35000, 'Taxas': 71000, 'Oregon': 16000, 'Utah': 5000}
obj3 = pd.Series(sdata)
obj3

Ohio      35000
Taxas     71000
Oregon    16000
Utah       5000
dtype: int64

# sdata = 'Ohio': 35000, 'Taxas': 71000, 'Oregon': 16000, 'Utah': 5000
# 可以在用字典生成的时候，来给index排序，通过指定index的顺序。
# 注意：如果index出现字典中没有的key，那么这个index不会少，但其对应的value会被看作NaN
states = ['California', 'Ohio', 'Oregon', 'Taxas']
obj4 = pd.Series(sdata, index = states)
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Taxas         71000.0
dtype: float64

是否空，返回布尔Series

pd.isnull(obj4)     # 说明NaN就代表null    obj4.isnull() 也可以的

California     True
Ohio          False
Oregon        False
Taxas         False
dtype: bool

pd.notnull(obj4)

California    False
Ohio           True
Oregon         True
Taxas          True
dtype: bool

有缺省的obj相加

obj3 + obj4

California         NaN
Ohio           70000.0
Oregon         32000.0
Taxas         142000.0
Utah               NaN
dtype: float64

Series对象本身、属性index都有名字

obj4.name = 'population'
obj4.index.name = 'state'
obj4

state
California        NaN
Ohio          35000.0
Oregon        16000.0
Taxas         71000.0
Name: population, dtype: float64

改变索引

obj

0    4
1    7
2   -5
3    3
dtype: int64

obj.index = ['Bob', 'Steve', 'Jeff', 'Ryan']
obj

Bob      4
Steve    7
Jeff    -5
Ryan     3
dtype: int64

2. 工具二：DataFrame

字典生成DataFrame

data = dict({
    'state':['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
    'year':[2000, 2001, 2002, 2001, 2002, 2003],
    'pop':[1.5, 1.7, 3.6, 2.4, 2.9, 3.2]
})
frame = pd.DataFrame(data)       #每一项是一列！！！！！！！
print(frame.columns)
frame

Index(['state', 'year', 'pop'], dtype='object')

	state	year	pop
0	Ohio	2000	1.5
1	Ohio	2001	1.7
2	Ohio	2002	3.6
3	Nevada	2001	2.4
4	Nevada	2002	2.9
5	Nevada	2003	3.2

只看前5行

frame.head(5)

	state	year	pop
0	Ohio	2000	1.5
1	Ohio	2001	1.7
2	Ohio	2002	3.6
3	Nevada	2001	2.4
4	Nevada	2002	2.9

改变columns顺序

pd.DataFrame(data, columns = ['year', 'state', 'pop'])

	year	state	pop
0	2000	Ohio	1.5
1	2001	Ohio	1.7
2	2002	Ohio	3.6
3	2001	Nevada	2.4
4	2002	Nevada	2.9
5	2003	Nevada	3.2

添加index

# 添加没有的值会把所有的变成缺省
frame2 = pd.DataFrame(data, columns = ['year', 'state', 'pop', 'debt'], index = [str(i) for i in range(1, 7)])
frame2

	year	state	pop	debt
1	2000	Ohio	1.5	NaN
2	2001	Ohio	1.7	NaN
3	2002	Ohio	3.6	NaN
4	2001	Nevada	2.4	NaN
5	2002	Nevada	2.9	NaN
6	2003	Nevada	3.2	NaN

frame2.index

Index(['1', '2', '3', '4', '5', '6'], dtype='object')

选一列

# 这里只能选一列，不能frame2['2'], 会报错
print(frame2['state'])     # 一下都可以
print(frame2.year)

1      Ohio
2      Ohio
3      Ohio
4    Nevada
5    Nevada
6    Nevada
Name: state, dtype: object
1    2000
2    2001
3    2002
4    2001
5    2002
6    2003
Name: year, dtype: int64

选一行

不是括号啊！

frame2.loc['3']

year     2002
state    Ohio
pop       3.6
debt      NaN
Name: 3, dtype: object

给某一列赋值，一般用于给初始值

# 给一个得全赋值
frame2['debt'] = 16.5
frame2

	year	state	pop	debt
1	2000	Ohio	1.5	16.5
2	2001	Ohio	1.7	16.5
3	2002	Ohio	3.6	16.5
4	2001	Nevada	2.4	16.5
5	2002	Nevada	2.9	16.5
6	2003	Nevada	3.2	16.5

frame2.debt = np.arange(6.)
frame2

	year	state	pop	debt
1	2000	Ohio	1.5	0.0
2	2001	Ohio	1.7	1.0
3	2002	Ohio	3.6	2.0
4	2001	Nevada	2.4	3.0
5	2002	Nevada	2.9	4.0
6	2003	Nevada	3.2	5.0

# 这里可以看出，range必须放整数
frame2.debt = range(6.)
frame2

---------------------------------------------------------------------------

TypeError                                 Traceback (most recent call last)

/var/folders/9l/fdqtn9lj3mqd1mr7rsbr_qlc0000gn/T/ipykernel_57792/4184687594.py in <module>
      1 # 这里可以看出，range必须放整数
----> 2 frame2.debt = range(6.)
      3 frame2


TypeError: 'float' object cannot be interpreted as an integer

用Series给DataFrame的一列赋值

# 不管原来是什么，只有一赋值，空缺的就变成NaN
val = pd.Series([-1.2, -1.5, -1.7], index = ['2', '4', '5'])
frame2.debt = val
frame2

新加一列，可以是条件判断，写入值是布尔

frame2['eastern'] = (frame2.state == 'Ohio')
frame2

	year	state	pop	debt	eastern
1	2000	Ohio	1.5	0.0	True
2	2001	Ohio	1.7	1.0	True
3	2002	Ohio	3.6	2.0	True
4	2001	Nevada	2.4	3.0	False
5	2002	Nevada	2.9	4.0	False
6	2003	Nevada	3.2	5.0	False

删除一列

这里不可以使用frame2.eastern，会报错

del frame2['eastern']
print(frame2.columns)
frame2

Index(['year', 'state', 'pop', 'debt'], dtype='object')

	year	state	pop	debt
1	2000	Ohio	1.5	0.0
2	2001	Ohio	1.7	1.0
3	2002	Ohio	3.6	2.0
4	2001	Nevada	2.4	3.0
5	2002	Nevada	2.9	4.0
6	2003	Nevada	3.2	5.0

创建DataFrame，用嵌套字典

一级作为属性名columns
二级作为对应index名字

pop = dict({
    'Nevada': {2001: 2.4, 2002: 2.9},
    'Ohio': {2001: 1.7, 2002:3.6, 2000: 1.5}
})

frame3 = pd.DataFrame(pop)
frame3

	Nevada	Ohio
2001	2.4	1.7
2002	2.9	3.6
2000	NaN	1.5

用numpy给DataFrame转置

frame3.T

	2001	2002	2000
Nevada	2.4	2.9	NaN
Ohio	1.7	3.6	1.5

实现：把一个df中的一部分取出来，变成新的df

pdata = {
    'Ohio':frame3['Ohio'][:], 
    'Nevada':frame3['Nevada'][:2]
}

pd.DataFrame(pdata)

	Ohio	Nevada
2000	1.5	NaN
2001	1.7	2.4
2002	3.6	2.9

DataFrame的index和columns都有名字了

frame3.index.name = 'year'
frame3.columns.name = 'state'
frame3

state	Nevada	Ohio
year
2001	2.4	1.7
2002	2.9	3.6
2000	NaN	1.5

frame3的values属性

# 返回数组
frame3.values

array([[2.4, 1.7],
       [2.9, 3.6],
       [nan, 1.5]])

3. 索引对象

索引对象的具体索引列表的值是可以重复的

obj = pd.Series(range(3), index = ['a', 'b', 'c'])
obj

a    0
b    1
c    2
dtype: int64

# 提一下索引对象
index1 = obj.index

# 可见把索引变成一个序列了
index1[1:]

Index(['b', 'c'], dtype='object')

# 不可修改，会报错的
index1[1] = 'd'

---------------------------------------------------------------------------

TypeError                                 Traceback (most recent call last)

/var/folders/9l/fdqtn9lj3mqd1mr7rsbr_qlc0000gn/T/ipykernel_57792/681980289.py in <module>
      1 # 不可修改，会报错的
----> 2 index1[1] = 'd'


~/miniforge3/envs/NLP_search/lib/python3.8/site-packages/pandas/core/indexes/base.py in __setitem__(self, key, value)
   4583     @final
   4584     def __setitem__(self, key, value):
-> 4585         raise TypeError("Index does not support mutable operations")
   4586 
   4587     def __getitem__(self, key):


TypeError: Index does not support mutable operations

直接用pd生成一个索引的对象

Index = pd.Index(np.arange(3))
Index

Int64Index([0, 1, 2], dtype='int64')

obj2 = pd.Series([1.5, -2.5, 0], index = Index)
obj2

0    1.5
1   -2.5
2    0.0
dtype: float64

甚至可以判断，这个某个对象的索引是不是某个索引对象？

obj2.index is Index

True

3 in obj2.index

False

热知识：列（columns）也是索引对象——np.Index

frame3.columns

Index(['Nevada', 'Ohio'], dtype='object', name='state')

'Ohio' in frame3.columns

True

索引对象的方法和属性

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-0LnJLeWd-1661789727182)(attachment:%E6%88%AA%E5%B1%8F2022-08-28%20%E4%B8%8A%E5%8D%881.50.39.png)]

4. 主要功能

reindexing

用于Series是改变行
用于DataFrame时可以改变行或列，默认是行
reindex的参数
- index 索引
- method 填充方法
- fill_value 缺失值的默认值
- 。。。

obj = pd.Series([4.5, 7.2, -5.3, 3.6], index = ['d', 'b', 'a', 'c'])
obj

d    4.5
b    7.2
a   -5.3
c    3.6
dtype: float64

# 对应索引值相等直接复制，没有的index直接变成NaN，相当于重定序
obj2 = obj.reindex(['a', 'b', 'c', 'd', 'e'])
obj2

a   -5.3
b    7.2
c    3.6
d    4.5
e    NaN
dtype: float64

# 用method来自动填充一些值
obj3 = pd.Series(['blue', 'purple', 'yellow'], [0, 2, 4])
obj3 = obj3.reindex(range(6), method = 'ffill') # 这个是前向填充的意思，就是没有的看上一个点 ffill前向 bfill后向
obj3

0      blue
1      blue
2    purple
3    purple
4    yellow
5    yellow
dtype: object

# 用于DataFrame时可以改变行或列，默认是行
frame = pd.DataFrame(np.arange(9).reshape(3, 3), index = ['a', 'c', 'd'], columns = ['Ohio', 'Texas', 'California'])
frame

	Ohio	Texas	California
a	0	1	2
c	3	4	5
d	6	7	8

frame2 = frame.reindex(index = ['a', 'b', 'c', 'd'])
frame2

	Ohio	Texas	California
a	0.0	1.0	2.0
b	NaN	NaN	NaN
c	3.0	4.0	5.0
d	6.0	7.0	8.0

states = ['Texas', 'Utah', 'California']
frame3 = frame.reindex(columns = states)
frame3

	Texas	Utah	California
a	1	NaN	2
c	4	NaN	5
d	7	NaN	8

Drop:从某个轴上删除条目

obj5 = pd.Series(np.arange(5.), index = ['a', 'b', 'c', 'd', 'e'])
obj5

a    0.0
b    1.0
c    2.0
d    3.0
e    4.0
dtype: float64

new_obj = obj5.drop('c')
new_obj

a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64

data5 = pd.DataFrame(np.arange(16).reshape((4, 4)),
                    index = ['Ohio', 'Colorado', 'Utah', 'New York'], 
                    columns = ['one', 'two', 'there', 'four'])
data5

	one	two	there	four
Ohio	0	1	2	3
Colorado	4	5	6	7
Utah	8	9	10	11
New York	12	13	14	15

# 依旧默认删行，不想删行就加columns
data5.drop(['Ohio', 'Colorado'])

	one	two	there	four
Utah	8	9	10	11
New York	12	13	14	15

data5.drop(['two', 'four'], axis = 'columns') # 写成axis = 1也是可以的

	one	there
Ohio	0	2
Colorado	4	6
Utah	8	10
New York	12	14

# 现在的drop都没有改变原来的对象，想直接原地修改，加个参数：inplace
data5.drop('Utah', inplace = True)
data5

	one	two	there	four
Ohio	0	1	2	3
Colorado	4	5	6	7
New York	12	13	14	15

索引，选择，过滤

obj5 = pd.Series(np.arange(4.), index = ['a', 'b', 'c', 'd'])
obj5

a    0.0
b    1.0
c    2.0
d    3.0
dtype: float64

# 选择某一行，不仅可以用index索引，还可以直接用数字，就是下标索引
print(obj5['b'])
print(obj5[1])
print(obj5[2:4])
print(obj5[[1, 3]])
print(obj5[obj5.values < 2])
# 还能这样？？
print(obj5['a':'c'])
obj5['b':'c'] = 5
obj5

1.0
1.0
c    2.0
d    3.0
dtype: float64
b    1.0
d    3.0
dtype: float64
a    0.0
b    1.0
dtype: float64
a    0.0
b    1.0
c    2.0
dtype: float64





a    0.0
b    5.0
c    5.0
d    3.0
dtype: float64

变成是DataFrame的情况

data5 = pd.DataFrame(np.arange(16).reshape((4, 4)),
                    index = ['Ohio', 'Colorado', 'Utah', 'New York'], 
                    columns = ['one', 'two', 'there', 'four'])
data5

	one	two	there	four
Ohio	0	1	2	3
Colorado	4	5	6	7
Utah	8	9	10	11
New York	12	13	14	15

# 这里就默认选列了，很奇怪
data5['two']

Ohio         1
Colorado     5
Utah         9
New York    13
Name: two, dtype: int64

data5[data5.index == 'Ohio']

	one	two	there	four
Ohio	0	1	2	3

data5[:2] #又变成行了，字符是列，下标是行？

	one	two	there	four
Ohio	0	1	2	3
Colorado	4	5	6	7

data5[data5['there'] > 5]

	one	two	there	four
Colorado	4	5	6	7
Utah	8	9	10	11
New York	12	13	14	15

data5['there'] > 5

Ohio        False
Colorado     True
Utah         True
New York     True
Name: there, dtype: bool

print(data5.values < 5)
data5 < 5

[[ True  True  True  True]
 [ True False False False]
 [False False False False]
 [False False False False]]

	one	two	there	four
Ohio	True	True	True	True
Colorado	True	False	False	False
Utah	False	False	False	False
New York	False	False	False	False

loc与iloc

loc是要index的名字
iloc 只需要index的下标就行
为什么要区分这两个？
- 当index本身设置的值也是数字的时候，输入data[0]计算机会有歧义，所以一般用loc和iloc先声明一下
- 注意：loc取index本身的时候，是左闭右闭
- iloc是左闭右开

data6 = pd.DataFrame(np.arange(16).reshape((4, 4)),
                    index = ['Ohio', 'Colorado', 'Utah', 'New York'], 
                    columns = ['one', 'two', 'there', 'four'])
data6

	one	two	there	four
Ohio	0	1	2	3
Colorado	4	5	6	7
Utah	8	9	10	11
New York	12	13	14	15

data6.loc[['Colorado', 'New York'], ['two', 'there']]

	two	there
Colorado	5	6
New York	13	14

data6.iloc[[1, 3], [1, 2]]

	two	there
Colorado	5	6
New York	13	14

# loc取index本身的时候，是左闭右闭
data6.loc[:'Utah', 'one':'two']

	one	two
Ohio	0	1
Colorado	4	5
Utah	8	9

# 用iloc，这里就是左闭右开了
data6.iloc[:2]

	one	two	there	four
Ohio	0	1	2	3
Colorado	4	5	6	7

5. 四则运算

Series1 + Series2 索引相同就直接相加，遇到没见过索引就NaN
frame1 + frame2 还是对应值相加，没有就NaN
几个四则运算
- obj.add
- sub
- div
- floordiv
- mul
- pow

df1 = pd.DataFrame(np.arange(9).reshape(3, 3), index = np.arange(3), columns = list('abc'))
df1

	a	b	c
0	0	1	2
1	3	4	5
2	6	7	8

df2 = pd.DataFrame(np.arange(16).reshape(4, 4), index = np.arange(4), columns = list('abcd'))
df2

	a	b	c	d
0	0	1	2	3
1	4	5	6	7
2	8	9	10	11
3	12	13	14	15

df1.loc[0, 'b'] = np.nan
df1

	a	b	c
0	0	1.0	2
1	3	NaN	5
2	6	7.0	8

df2.loc[1, 'b'] = np.nan
df2.loc[2, 'd'] = np.nan

df2

	a	b	c	d
0	0	1.0	2	3.0
1	4	NaN	6	7.0
2	8	9.0	10	NaN
3	12	13.0	14	15.0

# 如果仅仅是相加
df1 + df2

	a	b	c	d
0	0.0	2.0	4.0	NaN
1	7.0	NaN	11.0	NaN
2	14.0	16.0	18.0	NaN
3	NaN	NaN	NaN	NaN

# 用add可以让df1先扩充大小为df2，然后补充设定的确实值，再与df2相加
# 注意这里，reindex也可以有fill_value这个参数，直接填充
df1.add(df2, fill_value = 0)

	a	b	c	d
0	0.0	2.0	4.0	3.0
1	7.0	NaN	11.0	7.0
2	14.0	16.0	18.0	NaN
3	12.0	13.0	14.0	15.0

1/df1

	a	b	c
0	inf	1.000000	0.500
1	0.333333	NaN	0.200
2	0.166667	0.142857	0.125

dataframe - series

当用一个df减去一个series时，每一行/列都减去对应series的值
为了避免歧义，直接加axis = xxx

data6 = pd.DataFrame(np.arange(16).reshape((4, 4)),
                    index = ['Ohio', 'Colorado', 'Utah', 'New York'], 
                    columns = ['one', 'two', 'there', 'four'])
data6

	one	two	there	four
Ohio	0	1	2	3
Colorado	4	5	6	7
Utah	8	9	10	11
New York	12	13	14	15

series = data6.loc[:, 'two']
series = series[['Colorado', 'Ohio', 'New York', 'Utah']]
series

Colorado     5
Ohio         1
New York    13
Utah         9
Name: two, dtype: int64

data6.sub(series, axis = 0)

	one	there	four
Colorado	-1	1	2
New York	-1	1	2
Ohio	-1	1	2
Utah	-1	1	2

series = data6.loc['New York', :]
data6.sub(series, axis = 'columns')

	one	two	there	four
Ohio	-12	-12	-12	-12
Colorado	-8	-8	-8	-8
Utah	-4	-4	-4	-4
New York	0	0	0	0

6. 一些映射

自定义函数作为映射函数

# 简单说明
s = pd.Series([1, 2, 3], index = list('abc'))
s.max()

frame7 = pd.DataFrame(np.random.randn(4, 3), columns = list('bde'), index = ['Utah', 'Ohio', 'Texas', 'Oregon'])
frame7

	b	d	e
Utah	-0.204708	0.478943	-0.519439
Ohio	-0.555730	1.965781	1.393406
Texas	0.092908	0.281746	0.769023
Oregon	1.246435	1.007189	-1.296221

# 对每一列进行操作
f = lambda x: x.max() - x.min()
frame7.apply(f, axis = 0)

b    1.802165
d    1.684034
e    2.689627
dtype: float64

def f(x):
    return pd.Series([x.min(), x.max()], index = ['min', 'max'])
frame7.apply(f, axis = 1)

	min	max
Utah	-0.519439	0.478943
Ohio	-0.555730	1.965781
Texas	0.092908	0.769023
Oregon	-1.296221	1.246435

pd.applymap()对每个元素

format = lambda x: '%.2f'% x
frame7.applymap(format)

	b	d	e
Utah	-0.20	0.48	-0.52
Ohio	-0.56	1.97	1.39
Texas	0.09	0.28	0.77
Oregon	1.25	1.01	-1.30

# Apply a function along an axis of the DataFrame.
pd.DataFrame.apply?

# Apply a function to a Dataframe elementwise.
pd.DataFrame.applymap??

frame7.loc[:, 'e'].map(format)    # 对某一列进行操作

Utah      -0.52
Ohio       1.39
Texas      0.77
Oregon    -1.30
Name: e, dtype: object

7. 排序

Series排序

obj8 = pd.Series(range(4), index = list('dabc'))
obj8

d    0
a    1
b    2
c    3
dtype: int64

print(obj8.sort_index())
obj8.sort_values()      #如果有缺失值，就会被放到尾部

a    1
b    2
c    3
d    0
dtype: int64





d    0
a    1
b    2
c    3
dtype: int64

DataFrame排序

frame = pd.DataFrame(np.arange(8).reshape((2, 4)), index = ['three', 'one'], columns = list('dabc'))
frame

	d	a	b	c
three	0	1	2	3
one	4	5	6	7

frame.sort_index(axis = 1)

	a	b	c	d
three	1	2	3	0
one	5	6	7	4

frame.sort_index(axis=0)

	d	a	b	c
one	4	5	6	7
three	0	1	2	3

frame.sort_values(by='b')

	d	a	b	c
three	0	1	2	3
one	4	5	6	7

frame = pd.DataFrame({'b': [4, 7, -3, 2], 'a': [0, 1, 0, 1]})
frame

	b	a
0	4	0
1	7	1
2	-3	0
3	2	1

frame.sort_values(by = 'b')

	b	a
2	-3	0
3	2	1
0	4	0
1	7	1

# 排序优先次序
frame.sort_values(by = ['a', 'b'])

	b	a
2	-3	0
0	4	0
3	2	1
1	7	1

rank()

obj = pd.Series([7, -5, 7, 4, 2, 0, 4])
obj

0    7
1   -5
2    7
3    4
4    2
5    0
6    4
dtype: int64

# 按照值 从小到大排序，返回对应下标的值是排名
obj.rank()

0    6.5
1    1.0
2    6.5
3    4.5
4    3.0
5    2.0
6    4.5
dtype: float64

# 先看到的优先
obj.rank(method = 'first')

0    6.0
1    1.0
2    7.0
3    4.0
4    3.0
5    2.0
6    5.0
dtype: float64

# 倒序排名，max是说：两者并列第1和2名，那么就都写成2
obj.rank(ascending = False, method = 'max')

0    2.0
1    7.0
2    2.0
3    4.0
4    5.0
5    6.0
6    4.0
dtype: float64

frame = pd.DataFrame({'b': [4, 7, -3, 2], 'a': [0, 1, 0, 1]})
frame

	b	a
0	4	0
1	7	1
2	-3	0
3	2	1

frame.rank(axis = 1)

	b	a
0	2.0	1.0
1	2.0	1.0
2	1.0	2.0
3	2.0	1.0

8. 统计函数

frame = pd.DataFrame({'b': [4, 7, -3, 2], 'a': [0, 1, 0, 1]})
frame

	b	a
0	4	0
1	7	1
2	-3	0
3	2	1

frame.loc[1, 'b'] = np.NaN
frame

	b	a
0	4.0	0
1	NaN	1
2	-3.0	0
3	2.0	1

frame.sum(axis = 0) # axis = 0是默认
# 有缺失值会被默认为0
# 如果不想默认为0，那就加一个skipna参数，skipna = False

b    3.0
a    2.0
dtype: float64

9. 归约函数

# df.idxmax() #按列：最大值的索引值
# df.cumsum() #按列求累和
# df.describe() #一次产生多个汇总统计，就是把所有什么count之类的全显示出来

obj = pd.Series(['a', 'a', 'b', 'c'] * 4)
obj

0     a
1     a
2     b
3     c
4     a
5     a
6     b
7     c
8     a
9     a
10    b
11    c
12    a
13    a
14    b
15    c
dtype: object

obj.describe()

count     16
unique     3
top        a
freq       8
dtype: object

10. 唯一值筛选计数

obj = pd.Series(list('cadaabbcc'))
obj

0    c
1    a
2    d
3    a
4    a
5    b
6    b
7    c
8    c
dtype: object

# 去重
obj.unique()

array(['c', 'a', 'd', 'b'], dtype=object)

obj.value_counts()      # 默认排序了，从大到小，不希望排序加一个sort = False

c    3
a    3
b    2
d    1
dtype: int64

obj.value_counts(sort = False)

c    3
a    3
d    1
b    2
dtype: int64

# 判断是不是在某个列表里
mask = obj.isin(['b', 'c'])
mask

0     True
1    False
2    False
3    False
4    False
5     True
6     True
7     True
8     True
dtype: bool

# 布尔值索引
obj[mask]

0    c
5    b
6    b
7    c
8    c
dtype: object

to_match = pd.Series(list('cabbca'))
to_match

0    c
1    a
2    b
3    b
4    c
5    a
dtype: object

unique_val = pd.Series(list('cba'))

# 对每一个在to_match的元素，寻找它在uniqueval里的索引值
pd.Index(unique_val).get_indexer(to_match)

array([0, 2, 1, 1, 0, 2])

dt = pd.DataFrame({'Qu1': [1, 3, 4, 3, 4],
                   'Qu2': [2, 3, 1, 2, 3],
                   'Qu3': [1, 5, 2, 4, 4]})
dt

	Qu1	Qu2	Qu3
0	1	2	1
1	3	3	5
2	4	1	2
3	3	2	4
4	4	3	4

# 这个操作好帅
dt.apply(pd.value_counts).fillna(0)

	Qu1	Qu2	Qu3
1	1.0	1.0	1.0
2	0.0	2.0	1.0
3	2.0	2.0	0.0
4	2.0	0.0	2.0
5	0.0	0.0	1.0

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

利用python进行数据分析啃书

python

数据分析

pandas

利用python进行数据分析——pandas 的相关文章

如何在序列化器创建方法中获取 URL Id？

我有以下网址 url r member P
在 Tensorflow tf.nn.nce_loss 中出现 TypeError：'Mul' Op 的输入 'y' 的类型为 float32，与参数 'x' 的 int32 类型不匹配

我正在研究 Tensor Flow 中的 Bag of Words 实现并得到了类型错误 Mul Op 的输入 y 的类型为 float32 与参数 x 的 int32 类型不匹配在 tf nn nce loss 中我尝试查看 tf
如何在 pytest 中将单元测试和集成测试分开

根据维基百科 https en wikipedia org wiki Unit testing Description和各种articles https techbeacon com devops 6 best practices inte
如何创建一个语句来打印以特定单词开头的单词？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案如何在 python 中打印从特定字母开始的单词而不使用函数而是使用方法或循环 1 我有一个字符串想要打印以 m 开头的单词 S
如何计算numpy数组中元素的频率？

我有一个 3 D numpy 数组其中包含重复的元素 counterTraj shape 13530 1 1 例如 counterTraj 包含这样的元素我只显示了几个元素 array 136 129 130 103 102 101 我
切片 Dataframe 时出现 KeyError

我的代码如下所示 d pd read csv Collector Output csv df pd DataFrame data d dfa df copy dfa dfa rename columns OBJECTID Object ID
在Python中调整图像大小

我有一张尺寸为 288 352 的图像我想将其大小调整为 160 240 我尝试了以下代码 im imread abc png img im resize 160 240 Image ANTIALIAS 但它给出了一个错误TypeErro
Python urllib.request.urlopen：AttributeError：'bytes'对象没有属性'data'

我正在使用 Python 3 并尝试连接到dstk 我收到错误urllib包裹我对SO进行了很多研究但找不到与这个问题类似的东西 api url self api base street2coordinates api body jso
使用鼻子获取设置中当前测试的名称

我目前正在使用鼻子编写一些功能测试我正在测试的库操作目录结构为了获得可重现的结果我存储了一个测试目录结构的模板并在执行测试之前创建该模板的副本我在测试中执行此操作 setup功能这确保了我在测试开始时始终具有明确定义的状态现在
将 matplotlib 颜色图集中在特定值上

我正在使用 matplotlib 颜色图 seismic 绘制绘图并且希望白色以 0 为中心当我在不进行任何更改的情况下运行脚本时白色从 0 下降到 10 我尝试设置 vmin 50 vmax 50 但在这种情况下我完全失去了白色关
Python 将日志滚动到变量

我有一个使用多线程并在服务器后台运行的应用程序为了无需登录服务器即可监控应用程序我决定包括Bottle http bottlepy org为了响应一些HTTP端点并报告状态执行远程关闭等我还想添加一种查阅日志文件的方法我可以使用以
使用 NumPy 将非均匀数据从文件读取到数组中

假设我有一个如下所示的文本文件 33 346 1223 10 23 11 23 12 23 13 23 14 23 15 23 16 24 10 24 11 24 12 24 13 24 14 24 15 24 16 25 14 25 15
如何在 OSX 上安装 numpy 和 scipy？

我是 Mac 新手请耐心等待我现在使用的是雪豹 10 6 4 我想安装numpy和scipy 所以我从他们的官方网站下载了python2 6 numpy和scipy dmg文件但是我在导入 numpy 时遇到问题 Library F
默认情况下，Keras 自定义层参数是不可训练的吗？

我在 Keras 中构建了一个简单的自定义层并惊讶地发现参数默认情况下未设置为可训练我可以通过显式设置可训练属性来使其工作我无法通过查看文档或代码来解释为什么会这样这是应该的样子还是我做错了什么导致默认情况下参数不可训练代码 im
使用 PyTorch 分布式 NCCL 连接失败

我正在尝试使用 torch distributed 将 PyTorch 张量从一台机器发送到另一台机器 dist init process group 函数正常工作但是 dist broadcast 函数中出现连接失败这是我在节点 0
无法在前端使用 JavaScript Fetch API 将文件上传到 FastAPI 后端

我正在尝试弄清楚如何将图像发送到我的 API 并验证生成的token那是在header的请求到目前为止这就是我所处的位置 app post endreProfilbilde async def endreProfilbilde requ
限制 django 应用程序模型中的单个记录？

我想使用模型来保存 django 应用程序的系统设置因此我想限制该模型使其只能有一条记录极限怎么办尝试这个 class MyModel models Model onefield models CharField The fiel
具有自定义值的 Django 管理外键下拉列表

我有 3 个 Django 模型 class Test models Model pass class Page models Model test models ForeignKey Test class Question model M
字典和数组作为类变量与实例变量

这是赚取积分的简单方法请解释以下内容 class C a b 0 c def init self self x def d self k v self x k v self a k v self b v self c append v d
Elastic Beanstalk 中的 enum34 问题

我正在尝试在 Elastic Beanstalk 中设置 django 环境当我尝试通过requirements txt 文件安装时我遇到了python3 6 问题 File opt python run venv bin pip li

随机推荐

Windows Cluster 投票权问题

在日常运维中如果你的 Windows Cluster 需要升级重启意外宕机网络中断等你知道该怎么操作才能保证集群的可用性吗按什么样的顺序怎样关闭或启动集群节点吗怎么快速恢复你的集群呢接下来我们就以实践操作来解决这几个疑问
StableDiffusion中LORA模型的使用

目录前言一 LoRA是什么二使用方法 1 存放LORA模型 2 使用LORA模型 3 查看结果总结前言 1 Sampler 采样方式在Stable Diffusion WebUI中的Sampling method中进行选择 2
如何成为一个优秀的JAVA程序员如何成为高级JAVA程序员细节决定一个程序员的成败

给一个刚出社会的程序员新生一个建议想成为一个优秀的程序员高级程序员不能眼高手低不能认为开发新项目技术研发才学到东西不能看不起维护系统不要以为自己懂的技术越多自认为自己很牛叉假如你忽略了一个问题那么你永远成为不了优秀的程序员
带编码器的直流减速电机——基于STM32F407

首先什么是编码器编码器是将信号或数据进行编制转换为可用以通讯传输和存储的信号形式的设备在这里编码器就是能够将电机的转动信息比如转速转动角度等转换为脉冲信号的设备按照原理可分为常见的光电编码器光学式和霍尔编码器磁
Java 表格文字垂直居中_Java 设置Excel单元格对齐方式、文本旋转、换行、缩进

本文介绍通过Java来设置Excel单元格对齐方式水平对齐垂直对齐文本旋转方式顺逆时针方向旋转文本换行和文本缩进等内容文中代码示例使用了工具Free Spire XLS for Java 免费版可从官网下载jar包并解压将
为什么打不开_花瓣网打不开怎么回事花瓣网是什么网站为什么打不开怎么处理...

海峡网今日 2月18日花瓣网打不开又上热搜了花瓣网是一个帮你收集发现网络上你喜欢的事物的网站花瓣网主要是为用户提供一个简单的采集工具帮助用户将自己喜欢图片重新组织和收藏但是在2019年1月16日的时候花瓣网宣布暂停网站访
python连接mongodb进行查询_MongoDB聚合查询及Python连接MongoDB操作

今日内容概要聚合查询 Python操作MongoDB 第三方可视化视图工具今日内容详细聚合查询 Python操作MongoDB 数据准备 from pymongo import MongoClient 载入pymongo模块 impo
windows搭建pyspark环境详细教程

一安装jdk及配置环境变量下载地址 https www oracle com java technologies downloads java8 windows 安装步骤下载后点击安装中途可以自定义安装路径最后查看安装路径开始配
shader编程-三维场景下SDF建模，对模型进行扭曲、弯曲、裁剪、掏空操作（WebGL-Shader开发基础12）

对模型进行扭曲弯曲裁剪掏空操作 1 demo效果 2 实现要点 2 1 模型扭曲 2 2 模型弯曲 2 3 模型裁剪与掏空 2 3 1 球体裁剪与掏空 2 3 2 圆柱裁剪与掏空 2 3 3 甜圈圈裁剪与掏空 3 demo代码 1 d
tfidf+余弦相似度

1 TfidfVectorizers生成的矩阵要使用每一行的时候必须重新存入新的数组否则无法进行相似度计算 2 矩阵超出255 255 xlwt不适用使用xlsxwriter 3 导出词袋的时候按一列N行保存不要按一行N列 xl
机械革命z2黑苹果改造计划第三番-macOS键盘快捷键&Win键盘适配

macOS键盘快捷键 Win键盘适配键盘区别首先下图是苹果妙控键盘无指纹版官网售价699 穷学生的我是真的买不起然后下图是我正在使用的机械键盘ikbc w200 87键版本可以看出两者在键位排列上的区别主要在于 win comma
xshell连接服务器报找不到匹配的host key算法

在使用xshell的过程中出现找不到host key算法问题但有几台服务器可以正常使用经过排查发现是xshell的bug问题有博主也进行过详细说明如右侧链接 https blog csdn net cpanq2008 articl
面向对象OO 设计、架构终极理解，以及如何学习一个领域

程序就是一些互相引用的内存快互相发消息每个内存块就是一个状态机状态的迁移规则是定制好的一些消息方法构造函数用来初始化状态一个内存块的方法除了改变自身状态也有可能向引用的别内存快发消息引起别的内存块发生状态转移重点不在过程化
常用数学函数

转自 https zh cppreference com w cpp numeric math 函数定义于头文件
详解Transformer的自注意力机制、位置编码以及整体架构（内容生动易懂，并有完整transformer架构详解）

文章目录 1 3 Transformer一些前置知识 1 3 1 自注意力机制 Self Attention very important 1 3 2 位置编码 Positional Encoding 1 3 3 Transformer模型
@RabbitListener和@RabbitHandler的使用

1 RabbitListener 注解是指定某方法作为消息消费的方法例如监听某 Queue 里面的消息 2 RabbitListener标注在方法上直接监听指定的队列此时接收的参数需要与发送市类型一致 Component public
常见的Linux系统性能问题及其解决方法

CPU负载高如果CPU负载高可能是由于CPU资源不足或进程服务的异常活动所致可以使用top或htop命令查看系统的CPU使用情况并确定哪个进程或服务使用了大量的CPU资源如果负载高可以考虑增加CPU资源或优化进程服务的代码或
快手如何引流的话术？在快手引流精准粉丝的技巧

互联网创业圈大部分的项目都离不开流量更别说精准流量了流量可以说是大部分互联网创业者心里的痛处很多人都说流量难求其实要么是不擅长引流要么是方法出了问题那么要如何引流比较好呢今天主要讲讲快手这个渠道是如何做的其实点石汇
C++11-14 第6讲 explicit关键字

explicit 用来针对构造函数有多个实参 include
利用python进行数据分析——pandas

import pandas as pd import numpy as np np random seed 12345 import matplotlib pyplot as plt 1 介绍Pandas 工具一 Series obj pd