pandas使用笔记

2023-05-16

DataFrame使用笔记

dates=pd.date_range('20160728',periods=6) #创建固定频度的时间序列
df=pd.DataFrame(np.random.randn(6,4),index=dates,columns=list('ABCD')) #创建6*4的随机数，索引，列名称。
df2=pd.DataFrame({'A':pd.Timestamp('20160728'),'B':pd.Series(1)})#字典创建Dataframe，假如字典的数据长度不同，以最长的数据为准。
df2.dtypes #查看各行的数据格式  
df2.head()  df2.tail(5) #查看前、后几列
df.columns  df.value #查看列名、value
df.describe() #查看描述性的统计，比如每一列的count、mean、std...
df.T  df.sort(columns='C') #转秩、排序
df['A']   df[1:3]#选择A列数据，选择1-2行数据，切片操作得到的是行数据。
df.loc[:,['A','B']] #选择多列数据
df.loc['20160728':'20160730',['A','B']] #选择局部区域
df.at[dates[0],'A'] #选择某个值
df.iloc[3]  df.iloc[1,1]#提取第四行数据,取第2行第2列的这个数
df.iloc[3:5,0:2] #像array一样切片操作
df.iloc[[1,2,4],[0,2]] #提取不连续的行和列
df.iat[1,1]#专门取某个数，效率比较高
df[(df.D>0)&(df.C<0)] #选择D列数据大于0的行
df[['A','B']][(df.D>0)&(df.C<0)]#选择D列数据大于0的行,只返回A,B两列
df['D'].isin(alist)#alist是一个预先定义的列表，把要筛选的值写到列表中，查找D数据中含有alist的值
os.getcwd()#获得当前的工作目录
df=pd.read_csv('',encoding='gbk',sep=',')#读取csv文件
counts=df[u'专业名称'].value_counts() #计数统计
plt=counts.plot(kind='bar').get_figure()
plt.savefig('d/plot.png')  #画图
good=df[df[u'高考分数']>520] #筛选
good_counts=good[u'专业名称'].value_counts()
per=good_counts/counts #计算百分比，直接利用矩阵的除法
df.groupby('A').first() #按A列分组，输出每一组的第一行数据
df.groupby(['A','B']) #按两列分组
#创建函数，作为分组标准。 下例：如果列名是abem中的之一，就分为组别v反之为w
def get_type(letter):
    if letter.lower() in 'abem':
       return 'v'
    else:
       return 'w'
grouped=df.groupby(get_type,axis=1)

import pandas.util.testing as tm
colors=tm.choice(['red','green'],size=10)
foods=tm.choice(['eggs','ham'],size=10) #随机创建两个数组
index=pd.MultiIndex.from.arrays([colors,foods],names=['color','food'])  #创建MultiIndex对象，然后创建DataFrame对象
df.pd.DataFrame(np.random.randn(10,2),index=index)
print df.query('color=="red"') #查询
grouped=df.groupby(level='food')#在分组中使用索引
df.index.names=[None,None]
print df.query('ilevel_0=="red"')#删除了索引名称，只能使用ilevel_0表示第一个索引

grouped=df.groupby(level=1)
grouped.aggregate(np.sum) #计算各组的总和
print grouped.aggregate(np.sum).reset_index()#将索引转化为列向量
df.groupby(level=['color'],as_index=False).sum()#能达到一样的效果
print grouped.size()#返回每个组的数据量
print grouped.discribe()#返回各组数据的描述性信息
#transformation标准化数据
import pandas as pd
import numpy as np
index=pd.date_range('20140101',periods=100)
ts=pd.Series(np.random.normal(0.5,2,100),index)
print ts.head()
key=lambda x:x.month
zscore=lambda x:(x-x.mean())/x.std()
transformed=ts.groupby(key).transform(zscore)
print type(transformed)
print transformed.groupby(key).mean()
print transformed.groupby(key).std()

#使用agg
grouped=df.groupby(level='color').agg(['SUM':np.sum,'MEAN':np.mean,'STD':np.std])
#通过lambda匿名函数来进行特殊计算
print grouped['a'].agg({'lambda':lambda x:np.mean(abs(x))})

#按月分组
key =lambda x:x.month
grouped=ts.groupby(key).agg({'SUM':np.sum,'MEAN':np.mean,'STD':np.std})
print grouped
#索引不是日期
df.groupby(df['date'].apply(lambda x:x.month)).first()
df.set_index('date')#或者将date设置为索引
#如果日期是字符串形式存储的
date_string =('2010-09-01','2020-01-01')
a=pd.Series([pd.to_datetime(date) for date in date_string])

#增加列
df['c']=pd.Series(np.random.randn(10),index=df.index)
df.insert(1,'e',df['a'])#在a列后面插入e列
del df['c'] #删除列c
df2=df.drop(['a','b'],axis=1)#df数据不变，删除后的数据放入df2中
b=df.pop('b')
df.insert(0,'b',b)#移动，pop移除之后再插入

#字符串操作
s=pd.Series(list('ABCDEF')
s.str.lower()
s.str.upper()#大小写
s.str.len()
s.str.split('_').str.get(1) #获取切割后的某个元素
s.str.replace('^a|b$','X',case=False)#替换，第一个参数是正则表达式，第二个是要替换的字符串
s=pd.Series(['a1','a2','b1','b2',c])
s.str.extract('([ab])(\d)?') #使用extract方法提取数字:第一个参数是正则表达式，括号表示要提取的部分，结果是a 1，a 2，b 1，b 2，NaN NaN,无法匹配的
s.str.extract('(?P<letter>[abc])(?P<digit>\d)') #输出的结果包含变量名

pattern=r'[a-z][0-9]'
print s.str.contains(pattern，na=False)#匹配字符串，na参数用来说明出现NaN数据时匹配成True还是False
s.str.match(pattern,as_index=False)#严格匹配字符串
s.str.endswith('l',na=False) #等效于contains('l$',na=False)
s.str.startwith('l',na=False)#等效于contains('^l',na=False)

这里写图片描述

#读写数据库
import MySQLdb
con=MySQLdb.connect(host="localhost",db="")
sql="SELECT * FROM..."
df=pd.read_sql(sql,con,index_col='id')
con2=execute('DROP TABLE IF EXISTS wheather')
pd.io.sql.write_frame(df,"wheather",con2)

#缺失值数据处理
df=pd.DataFrame(np.random.randn(5,3),index=list('abcde'),columns=['one','two','three']) 
df.ix[1,:-1]=np.nan #在简单的运算中，遇到缺失值，运算结果也是缺失值，在描述性统计中，Nan都是作为0进行运算
#df.loc[:,['one','three']] 
df.fillna(0) #用0填充缺失值 df.fillna('missing') 用字符串代替缺失值
df.fillna(method='pad')#用前一个数据代替NaN
df.fillna(method='bfill',limit=1)#用后一个数据替代NaN,限制每列只能替代一个NaN
df.fillna(df.mean()['one':'two'])#用平均数代替,选择one，two两列进行缺失值处理
df.dropna(axis=0) #删除含有NaN的行，axis=1 删除列
df.interpolate() #使用插值来估计NaN 如果index是数字，可以设置参数method='value' ，如果是时间，可以设置method='time'
df.replace({1:11,2:12})

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

pandas

使用笔记

pandas使用笔记的相关文章

从日志文件 python 创建 csv 标题

我的日志文件每行都包含一些信息如下所示 Info1 NewOrder key 123 Info3 10 Info5 abc Info3 10 Info1 OldOrder key 456 Info6 xyz Info1 NewOrder
使用 scipy.io 将 python pandas dataframe 转换为 matlab 结构

我正在尝试使用 scipy io 将 pandas 数据帧保存到 matlab mat 文件我有以下内容 array1 np array 1 2 3 array2 np array a b c array3 np array 1 01 2
为什么 iloc() 的一种使用会给出SettingWithCopyWarning，而另一种则不会？

在类的方法中我使用以下语句 self datacontainer iloc 1 c value 这样做我得到一个设置复制警告试图在 DataFrame 中的切片副本上设置一个值现在我尝试重现此错误并编写以下简单代码 import p
如何将热图刻度标签映射到值并将这些值添加为图例

我想在seaborn中创建一个热图并且有一个很好的方式来查看标签 With ax figure tight layout 我正进入状态这显然很糟糕 Without ax figure tight layout 标签被裁剪代码是 im
Pandas 在读取 SAS 文件时数据类型正确失败

我有一个SAS数据集 http www principlesofeconometrics com sas cars sas7bdat当我运行它时我在 SAS 上得到以下输出我还有以下 Python 代码它获取 sas7bdat 文件并
如何在 pandas 中创建求和行和求和列？

我正在学习可汗学院的统计课程作为我大学时代的复习也是让我加快掌握 pandas 和其他科学 Python 的一种方式我有一张来自可汗学院的表格看起来像这样 Undergraduate Graduate Total Straight
转置 pandas 数据框

如何将列表列表转换为 panda 数据框它不是以列的形式而是以行的形式 usr bin env python from random import randrange import pandas data randrange 0 100
标记 pandas 系列中连续的 True 元素组

我有一系列的 pandas 布尔值我想标记连续的 True 值组怎么可能做到这一点是否可以以矢量化的方式做到这一点任何帮助将不胜感激 Data A 0 False 1 True 2 True 3 True 4 False 5 Fal
从 pandas 值序列创建 pandas 区间序列

我能找到的最接近的答案似乎太复杂如何在 pandas 中创建间隔列 https stackoverflow com a 47396828 575530 如果我有一个看起来像这样的 pandas 数据框 Value 6 12 56 60 1
读取大文件并制作字典

我有一个大文件我需要读取它并从中制作字典我希望这一切能够尽可能快然而我的Python代码太慢了这是一个显示问题的最小示例首先制作一些假数据 paste lt seq 20000000 lt seq 2 20000001 gt la
布尔 pandas 之间的操作对称性破缺。具有不等索引的系列

隐式索引匹配pandas用于不同之间的操作DataFrame Series很棒而且大多数时候它都有效但是我偶然发现了一个无法按预期工作的示例 import pandas as pd 0 21 0 import numpy as np
评估 df 每行中的日期时间函数是否落在另一个 df 中的日期时间范围内

我是 python 新手需要一些帮助来解决有关日期时间函数的问题 I have df a其中有一列标题为time 我正在尝试创建一个新专栏id在这个df a 我想要id根据时间是否包含在某个时间范围内来确定的列df b date 和 da
将 Pandas 数据框单元格中的设置值拆分为多行

我有一个以下形式的 pandas DataFrame col1 col2 1 a hu fdf ko dss 2 b sdsjdn lk 3 c sds aldj dhva 现在我想将设置值拆分为多行使其看起来像这样 col1 col2
numpy 使用 datetime64 进行数字化

我似乎无法让 numpy digitize 与 datetime64 一起使用 date bins np array np datetime64 datetime datetime 2014 n 1 s for n in range 1 1
distutils.errors.DistutilsPlatformError：需要 Microsoft Visual C++ 14.0

我想安装Pandas在我的机器上但出现以下消息错误 distutils errors DistutilsPlatformError 需要 Microsoft Visual C 14 0 获取它与 Microsoft Visual C 构
如何搜索一列并用找到的内容填充另一列？

我有一个带有虚构人物数据的大熊猫数据框下面是一个小例子每个人都由一个数字定义 import pandas as pd import numpy as np df pd DataFrame Number 5569 3385 9832 64
使用最新值进行采样

考虑以下系列 created at 2014 01 27 21 50 05 040961 80000 00 2014 03 12 18 46 45 517968 79900 00 2014 09 05 20 54 17 991260 636
Pandas 根据条件替换数据框值

我有一个主数据框 df Colour Item Price Blue Car 40 Red Car 30 Green Truck 50 Green Bike 30 然后我有一个价格修正数据框 df pc Colour Item Price
如何读取多个文件并将它们合并到一个 pandas 数据框中？

我想读取位于同一目录中的多个文件然后将它们合并到一个 pandas 数据框中如果我这样做的话它会起作用 import pandas as pd df1 pd read csv data 12015 csv df2 pd read csv
如何从 Anaconda 更新 Pandas 以及最后是否可以使用 eclipse

我已经使用以下文档通过 Anaconda 安装了 Python http www kevinsheppard com images 0 09 Python introduction pdf http www kevinsheppard co

随机推荐

commons-logging的使用

简介 commons logging是Apache commons类库中的一员 Apache commons类库是一个通用的类库 xff0c 提供了基础的功能 xff0c 比如说commons fileupload xff0c common
年度最理性 AI 分析文章：预测 AI 未来，大部分人陷入了 7 大误区

来源 xff1a 36氪概要 xff1a 错误的预测会导致大家对不会发生的事情感到恐惧为什么在人工智能和机器人的预测上总有人不断犯错呢 xff1f 想着预测未来 xff0c 却一不小心就陷入了yy 近年来图像识别突破 Waymo无人车上
slf4j的使用

OK xff0c 现在我们来使用slf4j 概念 SLF4J xff0c 即简单日志门面 xff08 Simple Logging Facade for Java xff09 xff0c 不是具体的日志解决方案 xff0c 它只服务于各种各
Java日志管理最佳实践

原文出处 xff1a http www ibm com developerworks cn java j lo practicelog 感谢原作者 xff0c 感谢ibm网站 xff0c 里面有好多的精华帖日志记录是应用程序运行中必不可少
MySQL数据类型--浮点数类型和定点数类型

MySQL中使用浮点数类型和定点数类型来表示小数浮点数类型包括单精度浮点数 xff08 float型 xff09 和双精度浮点数 xff08 double型 xff09 定点数类型就是decimal型 OK xff0c 现在我们来看看这几
MySQL数据类型--日期和时间类型

MySQL中的多种时间和格式数据类型日期和时间类型是为了方便在数据库中存储日期和时间而设计的 MySQL中有多种表示日期和时间的数据类型其中 xff0c year类型表示时间 xff0c date类型表示日期 xff0c time类型表
MySQL数据类型--二进制类型

二进制类型是在数据库中存储二进制数据的数据类型二进制类型包括binary xff0c varbinary xff0c bit xff0c tinyblob xff0c blob xff0c mediumblob xff0c longblo
单行注释和多行注释

我们在实际编码中 xff0c 总是需要为程序添加一些注释什么是注释 xff1f 注释就是一段文字 xff0c 这段文字并不是必须的 xff0c 也不直接参与代码运行注释用来说明某段代码的作用 xff0c 或者说明某个类的用途 xff0c
Integer源码解析

这篇博客我来整理下以Integer为例整理下包装类的源码首先来看一段代码 xff1a public class LinkinPark public static void main String args Integer a 61 1 I
不可变类

不可变类先来科普2个概念 xff0c 可变类和不可变类 1 xff09 xff0c 不可变类的意思就是创建该类的实例后 xff0c 该实例的实例变量是不可改变的 Java提供的8个包装类和String类都是不可变类 xff0c 当创建他们
博客迁移<a>jiangweili.me</a>

各位 xff0c 我的博客已经迁移 xff0c 具体请移步新博客地址我会重新整理JavaSE和JavaEE相关 xff0c 最后搭建自己的一套web框架 xff0c 谢谢各位
Mac环境下localhhost无法访问

今天访问本地服务器 localhost 提示无法访问查看apache 错误日志最后一行提示以下错误于是经过百度搜索 34 AH00045 child process 1409 still did not exit sending a
RNAseq---Hisat2 标准输出中比对率信息解读

RNA Seq Hisat2 标准输出中比对率信息解读本文具体解释部分 xff08 一 xff09 中内容复制自Biostar内容 xff0c 后面附上我实际的例子 xff0c 二者略有不同 xff0c 整体理解上没大问题 xff0c 有
解决Android单个dex文件不能超过65535个方法问题

一找坑 xff1a 谷歌规定单个dex文件中的方法不能超过65536的限制我们编写项目过程中在工程的lib文件夹下引用的第三方插件jar包太多或者项目过大 xff0c 编译运行时就有可能报出com android dex DexInd
Decode Ways问题及解法

问题描述 xff1a A message containing letters from A Z is being encoded to numbers using the following mapping 39 A 39 gt 1 39
Android性能优化（一）内存泄露优化（静态变量、单例模式、属性动画）

内存泄露优化分为两个方面 xff0c 一方面是在开发过程中避免写出有内存泄露的代码 xff0c 另一方面是通过一些分析工具比如 MAT来找出潜在的内存泄露继而解决一静态变量导致内存泄露一般情况下静态变量引用了或者内部持有Activit
图论 —— 图的连通性 —— Tarjan 求强连通分量

概述 Tarjan 算法是基于对图深度优先搜索的算法 xff0c 每个强连通分量为搜索树中的一棵子树搜索时 xff0c 把当前搜索树中未处理的节点加入一个堆栈 xff0c 回溯时可以判断栈顶到栈中的节点是否为一个强连通分量基本思路定义
开发日记（一）

这是自己编程第二天 xff0c 自己解决了好几个问题 xff0c 觉得很有成就感 xff0c 决定写下以后开发中遇到的问题 1 在多个Activity中传递数据 xff0c 之前只学过绑定基本的putExtra xff0c 今天上网一搜 x
源程序生成控制流图和du-path

最近上源代码分析技术这个课 xff0c 老师让写一个程序 xff0c 由一段c代码 xff0c 生成生成控制流图和du path xff0c 控制流图不用解释了 xff0c 说一下du path xff0c 这个术语是针对变量来说的 x
pandas使用笔记

DataFrame使用笔记 dates 61 pd date range span class hljs string 39 20160728 39 span periods 61 span class hljs number 6 span

pandas使用笔记

DataFrame使用笔记

pandas使用笔记 的相关文章

随机推荐

热门标签

pandas使用笔记的相关文章