pandas(三)数据查询

2023-11-10

数值、列表、区间、条件、函数

Pandas查询数据的几种方法

df.loc方法，根据行、列的标签值查询
df.iloc方法，根据行、列的数字位置查询
df.where方法
df.query方法

.loc既能查询，又能覆盖写入，强烈推荐！

Pandas使用df.Ioc查询数据的方法
6. 使用单个label值查询数据
7. 使用值列表批量查询
8. 使用数值区间进行范围查询
9. 使用条件表达式查询
10. 调用函数查询

以上查询方法，既适用行，也适用列
注意观察降维打 DataFrame > Series > 值

import pandas as pd
fpath = '/Users/python/Desktop/means/ml-25m/beijing_tianqi_2018.csv'
df = pd.read_csv(fpath)
# 查看前几行数据
df.head()

       ymd	  bWendu   yWendu	tianqi	  fengxiang	fengli	aqi	aqiInfo	aqiLevel
0	2018-01-01	3℃	  -6℃	    晴~多云	  东北风	    1-2级	59	良	2
1	2018-01-02	2℃	  -5℃	    阴~多云	  东北风	    1-2级	49	优	1
2	2018-01-03	2℃	  -5℃	    多云	      北风	    1-2级	28	优	1
3	2018-01-04	0℃	  -8℃	    阴	      东北风	    1-2级	28	优	1
4	2018-01-05	3℃	  -6℃	    多云~晴	  西北风	    1-2级	50	优	1

设定索引为日期，方便查询
```
df.set_index("ymd", inplace=True)
```

查看时间序列号索引列

df.index

# 索引名称 ymd 索引长度365 
Index(['2018-01-01', '2018-01-02', '2018-01-03', '2018-01-04', '2018-01-05',
       '2018-01-06', '2018-01-07', '2018-01-08', '2018-01-09', '2018-01-10',
       ...
       '2018-12-22', '2018-12-23', '2018-12-24', '2018-12-25', '2018-12-26',
       '2018-12-27', '2018-12-28', '2018-12-29', '2018-12-30', '2018-12-31'],
      dtype='object', name='ymd', length=365)

以时间为索引后，查看前几行数据

df.head()

	bWendu	yWendu	tianqi	fengxiang	fengli	aqi	aqiInfo	aqiLevel
ymd								
2018-01-01	3℃	-6℃	晴~多云	东北风	1-2级	59	良	2
2018-01-02	2℃	-5℃	阴~多云	东北风	1-2级	49	优	1
2018-01-03	2℃	-5℃	多云	北风	1-2级	28	优	1
2018-01-04	0℃	-8℃	阴	东北风	1-2级	28	优	1
2018-01-05	3℃	-6℃	多云~晴	西北风	1-2级	50	优	1

替换掉温度后的℃

前面行：为所有的行， 指定列
df.loc[:, 'bWendu'] = df['bWendu'].str.replace('℃', '').astype('int32')
df.loc[:, 'yWendu'] = df['yWendu'].str.replace('℃', '').astype('int32')

bWendu	yWendu	tianqi	fengxiang	fengli	aqi	aqiInfo	aqiLevel
ymd								
2018-01-01	3	-6	晴~多云	东北风	1-2级	59	良	2
2018-01-02	2	-5	阴~多云	东北风	1-2级	49	优	1
2018-01-03	2	-5	多云	北风	1-2级	28	优	1
2018-01-04	0	-8	阴	东北风	1-2级	28	优	1
2018-01-05	3	-6	多云~晴	西北风	1-2级	50	优	1

二、数据查询

使用单个label 值查询数据
行或者列，都可以只传单个值，实现精确匹配

# 查询某个单元格的值  行  列
df.loc['2018-01-04', 'bWendu']
0

# 查询某些单元格的值(行、列)，返回Series; 查询条件(行单个， 列多个)
df.loc['2018-01-04', ['bWendu', 'tianqi']]

bWendu    0
tianqi    阴
Name: 2018-01-04, dtype: object

使用值列表批量查询

查询条件(行多个， 列单个); 返回Series 
df.loc[['2018-01-02', '2018-01-03', '2018-01-04'], 'bWendu']

ymd
2018-01-02    2
2018-01-03    2
2018-01-04    0
Name: bWendu, dtype: object

查询条件(行多个， 列多个); 返回DataFrame 
df.loc[['2018-01-02', '2018-01-03', '2018-01-04'], ['bWendu', 'yWendu']]

	bWendu	yWendu
ymd		
2018-01-02	2	-5
2018-01-03	2	-5
2018-01-04	0	-8

使用数值区间进行范围查询，区间既包含开始，也包含结束

查询某些行区间的某一列的值 即index 区间的值 行开始:结束, 列
df.loc['2018-01-02':'2018-01-04', 'bWendu']

ymd
2018-01-02    2
2018-01-03    2
2018-01-04    0
Name: bWendu, dtype: object

查询某一行的某些列区间的值 即index的区间数据 行, 列开始:结束

df.loc['2018-01-04', 'bWendu':'tianqi']

bWendu     0
yWendu    -8
tianqi     阴
Name: 2018-01-04, dtype: object

查询某些行与某些列区间的数据 即index的区间数据 行开始:结束, 列开始:结束
df.loc['2018-01-02':'2018-01-04', 'bWendu':'tianqi']

		bWendu	yWendu	tianqi
ymd			
2018-01-02	2	-5	阴~多云
2018-01-03	2	-5	多云
2018-01-04	0	-8	阴

使用条件表达式查询，bool列表的长度等于行数或列数

简单条件查询，最低温度小于-10度的列表
df.loc[df['yWendu']<-10, :]  前行 温度小于10， 列取全部

	bWendu	yWendu	tianqi	fengxiang	fengli	aqi	aqiInfo	aqiLevel
ymd								
2018-01-23	-4	-12	晴	西北风	3-4级	31	优	1
2018-01-24	-4	-11	晴	西南风	1-2级	34	优	1
...	...	...	...	...	...	...	...	...
2018-12-29	-3	-12	晴	西北风	2级	29	优	1
2018-12-30	-2	-11	晴~多云	东北风	1级	31	优	1

查询最低温度是否小雨-10度
df['yWendu']<-10

ymd
2018-01-01    False
2018-01-02    False
              ...  
2018-12-30     True
2018-12-31    False
Name: yWendu, Length: 365, dtype: bool

复合查询：组合条件用&符号合并，每个条件判断都得带括号

查询最高气温小于30度，并且最低气温大于15度，并且晴天，并且天气为优的数据
df.loc[(df['bWendu'] <= 30) & (df['yWendu'] >= 15) & (df['tianqi'] == '晴') & (df['aqiLevel'] == 1), :]

	bWendu	yWendu	tianqi	fengxiang	fengli	aqi	aqiInfo	aqiLevel
ymd								
2018-08-24	30	20	晴	北风	    1-2级	40	优	1
2018-09-07	27	16	晴	西北风	3-4级	22	优	1

天气的 最高气温小于30度，并且最低气温大于15度，并且晴天，并且天气为优 是否为ture false
(df['bWendu'] <= 30) & (df['yWendu'] >= 15) & (df['tianqi'] == '晴') & (df['aqiLevel'] == 1)

ymd
2018-01-01    False
2018-01-02    False
              ...  
2018-12-30    False
2018-12-31    False
Length: 365, dtype: bool

调用函数查询

获取 最高温度大于30，且最低温度15 的数据 lambda
df.loc[lambda df:(df['bWendu'] <= 30) & (df['yWendu'] >= 15), :]

	bWendu	yWendu	tianqi	fengxiang	fengli	aqi	aqiInfo	aqiLevel
ymd								
2018-04-28	27	17	晴	西南风	    3-4级	125	轻度污染	3
2018-04-29	30	16	多云	南风	        3-4级	193	中度污染	4
...	...	...	...	...	...	...	...	...
2018-09-19	26	17	多云	    南风	   1-2级	52	良	2
2018-09-20	27	16	多云	    西南风  1-2级	63	良	2
64 rows × 8 columns

查询9月份空气质量为优的数据 
def query_weather_data(df):
    return df.index.str.startswith('2018-09') & (df['aqiLevel'] == 1)
df.loc[query_weather_data, :]

	bWendu	yWendu	tianqi	fengxiang	fengli	aqi	aqiInfo	aqiLevel
ymd								
2018-09-01	27	19	阴~小雨	南风	1-2级	50	优	1
2018-09-04	31	18	晴	西南风	3-4级	24	优	1
...	...	...	...	...	...	...	...	...
2018-09-29	22	11	晴	北风	3-4级	21	优	1
2018-09-30	19	13	多云	西北风	4-5级	22	优	1

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

pandas

pandas(三)数据查询的相关文章

pandas Wide_to_long 后缀参数

我对在 pandas 中使用 Wide to long 时的参数有疑问有一个参数叫suffix我不明白在文档中它说后缀 str 默认 d 捕获所需后缀的正则表达式 d 捕获数字后缀没有数字的后缀可以用否定字符类 D 指定您还可以进
以矢量化方式在另一个 DataFrame 中查找包含值子集的行

如何匹配此 DataFrame 中的值source car id lat lon 0 100 10 0 15 0 1 100 12 0 10 0 2 100 09 0 08 0 3 110 23 0 12 0 4 110 18 0 32 0
Pandas 连接问题：列重叠但未指定后缀

我有以下数据框 print df a mukey DI PI 0 100000 35 14 1 1000005 44 14 2 1000006 44 14 3 1000007 43 13 4 1000008 43 13 print df b
如何从 pandas 数据框中的列中删除字符串值

我正在尝试编写一些代码以逗号分隔数据帧列中的字符串因此它成为一个列表并从该列表中删除某个字符串如果存在删除不需要的字符串后我想再次以逗号加入列表元素我的数据框如下所示 df Column1 Column2 0 a a b c
将 Pandas TimeDelta 转换为整数

假设我有一个包含 TimeDelta 数据的 Pandas Series 事实上它是通过将 DateTimeIndex 与其自身的移位版本进行差值生成的从而给出了连续时间戳之间的增量它看起来像 timestamp 2015 02 01
Pandas DataFrame 具有 X、Y 坐标到 NumPy 矩阵

我有一个包含列的 DataFrameX Y and value e g X Y value 1 1 56 2 1 13 3 1 25 1 2 7 2 2 18 1 123 91 50 123 32 我需要将其转换为 DataFrame 到
Python/从每个包含类似字符串对象的 Pandas 数据框单元格中去除空格的有效方法

我正在将 CSV 文件读入 DataFrame 中我需要从所有类似字符串的单元格中删除空格在 Python 2 7 中保持其他单元格不变这是我正在做的事情 def remove whitespace x if isinstance x
Pandas 数据帧中任意两连续行之间差异的平均值

我有一个数据框 name date quantity A 2016 12 02 20 A 2016 12 04 5 A 2016 11 30 10 B 2016 11 30 10 我想做的是计算对于任何一对连续的名称的日期按时间顺序连续
从另一个数据帧创建一个数据帧（使用数据透视）

我对熊猫有疑问我有一个包含三列的数据框 id1 id2 amount 由此我想创建另一个数据框其索引为 id1 其列为 id2 单元格包含相应的金额我们来看一个例子 import pandas as pd df pd DataFr
pandas 中的滚动减法

我正在尝试做类似的事情 ff pd DataFrame uid 1 1 1 20 20 20 4 4 4 date 09 06 10 06 11 06 09 06 10 06 11 06 09 06 10 06 11 06 balance
如何使用 Bokeh 动态隐藏字形和图例项

我正在尝试在散景中实现复选框其中每个复选框应显示隐藏与其关联的行我知道可以通过图例来实现这一点但我希望这种效果同时在两个图中发生此外图例也应该更新在下面的示例中出现了复选框但不执行任何操作我显然不明白如何更新用作源的数据
如何在 pandas 中读取并标准化以下 json？

我在 stackoverflow 中使用 pandas 看到了很多 json 读取问题但我仍然无法解决这个简单的问题 Data session id 0 X061RFWB06K9V 1 5AZ2X2A9BHH5U unix timesta
Pandas Groupby：如何使用两个 lambda 函数？

我目前可以在 Pandas 中执行以下操作但 FutureWarning 严厉地摇动着我的手指 grpd df groupby rank agg mean np mean meian np median min np min max np
您可以格式化 pandas 整数以进行显示，例如浮点数的“pd.options.display.float_format”？

我见过this https stackoverflow com questions 18404946 py pandas formatdataframe and this https stackoverflow com questions
Pandas Merge (pd.merge) 如何设置索引和连接

我有两个 pandas 数据框 dfLeft 和 dfRight 以日期作为索引 dfLeft cusip factorL date 2012 01 03 XXXX 4 5 2012 01 03 YYYY 6 2 2012 01 04 XX
Pandas 中的 Groupby、转置和追加？

我有一个数据框如下所示每个用户有10条记录现在我想创建一个如下所示的数据框 userid name1 name2 name10 这意味着我需要反转该列的每 10 条记录name并附加到新的数据框那么它是如何做到的呢有什么办法可
加快Python中一个点是否处于某个形状的顺序检查

我有一个代码用于顺序确定是否在我的中找到每对笛卡尔坐标DataFrame落入某些几何封闭区域但我怀疑它相当慢因为它不是矢量化的这是一个例子 from matplotlib patches import Rectangle r1 Re
如何计算数据框中按另一列的列值分组的一列的连续字符串值？

我有以下数据框 Levels Labels Confidence 0 Hands 0 8 0 Leg 0 7 0 Eye 0 9 1 Ear 0 9 1 Eye 0 8 2 Hands 0 9 2 Eye 0 8 3 Eye 0 8 我想检
使用 Python 绘制 USGS 水文数据甘特图？

我编译了一个数据帧其中包含几个不同流计的 USGS 流数据现在我想创建一个类似的甘特图this https stackoverflow com questions 31820578 how to plot stacked event d
使用 pandas 单元格中列表的长度选择行[重复]

这个问题在这里已经有答案了我有一张表 df a b c 1 x y x 2 x z c d 3 x t e f g 只是想知道如何使用 c 列的长度选择行 such as df loc len df c gt 1 我知道这是不对的正确的

随机推荐

#vue# vue锚点定位，滚动到具体位置

需求点击导航栏的各个tab 跳转滚动到当前页面的具体位置步骤 1 首先在导航栏的版块里面加入方法goToAnchor 以及跳转的id类名 div class nav item center div About div div To
查看.o, .obj文件符号列表，强大的nm命令

nm命令可以查看 linux以及windows下的 o obj文件中的符号列表其中 o文件可以由gcc g 编译得到 obj由vc编译得到太爽了以后遇到undefined reference错误的时候就可以这个命令搞定了举一例子在
【java笔记】常用接口（2）：Consumer接口

Consumer接口是一个消费型接口泛型指定什么类型就可以使用accept消费什么类型数据直接输出 public class Demo public static void main String args method asd na
高德地图弹窗使用vue模板
android 遍历assets下的文件

在AssetManager中有个list 方法传入你的子文件名称即可 String flLists this getAssets list your subdir 如果是根目录那么就是这么写 AssetManager assetMana
集合框架的简要介绍

目录集合和数组的区别 Collection接口 ArrayList实现类 ArrayList的创建和使用 linkedList Set接口及其实现类 Set接口特点 HashSet实现类 HashSet特点 HashSet避免对象重复的规
Service能够创建界面（addView）吗？

一个Service能够创建界面 addView 吗一个app 只有Service 没有Activity 能够通过WindowManager调用addView 添加可视界面吗答案是可以但是能够创建的界面类型 WindowManager
虚拟化原理介绍

什么是虚拟化一台PC机的组成包括 Keyboard 键盘 Monitor 显示器 CPU RAM I O Disk Network 这是基本的五大部件虚拟化就是在这些基础物理设备上运行多个OS 虚拟化面临的重要问题概述 CPU RAM
Android ：提取字符串当中的数字

String a String regEx 0 9 Pattern p Pattern compile regEx Matcher m p matcher fl System out println m replaceAll trim 结果
含测试点归纳

小编提示本文含静态测试主要检查点纯干货看官们可先收藏后阅读从是否执行被测试软件来进行分类测试可以分为静态测试和动态测试软件本身包含了各种代码如果只是检查代码和文档而不执行被测试的软件此时所进行的就是静态测试反之如果在测
解决Jasperreport的web 套打

前段时间写了一篇解决Jasperreport的web打印另一种方法http www blogjava net three 3 archive 2010 06 24 324329 html 关于在web中的打印套打是经常被提到的这个需求
Spring学习04

文章目录与持久层整合与Mybatis整合事务处理 Spring控制事务开发事务属性隔离属性 isolation 传播属性 propagation 只读属性 read only 超时属性 timeout 异常属性实践使用基于标签
使用sqlite3 模块操作sqlite3数据库

Python内置了sqlite3模块可以操作流行的嵌入式数据库sqlite3 如果看了我前面的使用 pymysql 操作MySQL数据库这篇文章就更简单了因为它们都遵循PEP 249 所以操作方法几乎相同废话就不多说了直接看代码吧
从零开始搭建kafka开发环境

Part1前言最近选用kafka作为消息缓存来低于大流量的数据 Kafka是一种高吞吐量的分布式发布订阅消息系统有如下特性通过O 1 的磁盘数据结构提供消息的持久化这种结构对于即使数以TB的消息存储也能够保持长时间的稳定性能高吞
scanf("%s")读取字符串

关于c语言字符串读取可以看出读取的起始位置就是自己传入的位置如果写成scanf s a 则默认就是起始地址这里需要注意的是由于scanf s 遇到空白符停止的特点输出数组时候需要指定起始地址为读入时候的地址否则没有输出求长度
[Office] WPS Excel通过添加宏实现多张表格合并

在我们使用Excel时通常会遇到让各个地区各个学院或下属单位收集数据的情况有时还会每月每周甚至是每日调度数据而当我们得到了这些Excel文件表格之后很多同志会进行人工手动汇总这大大降低了办公的效率本文主要介绍WPS Exc
用Unity开发一款2D横版游戏demo

LanW Game Project 目录一介绍二安装教程三开发流程 1 新建工程 2 设置人物 3 控制主角的移动 4 添加切换动作的动画 5 镜头跟踪 6 收集物体 7 创建ui 8 创建敌人 9 制作敌人ai 10 创建青蛙
Python连接Hive

1 Hiveserver1 HiveServer2 1 1 HiveServer1 HiveServer是一个可选的服务能够允许远程客户端使用各种编程语言向hive提交请求并检索结果 Hiveserver是建立在Apache Thrift
什么是DFX设计？

DFX是面向产品生命周期各环节的设计其中X代表产品生命周期的某一个环节或特性它是一种新的设计技术在设计阶段尽可能早地考虑产品的性能质量可制造性可装配性可测试性产品服务和价格等因素对产品进行优化设计或再设计常见的DFX主要
pandas(三)数据查询

数值列表区间条件函数 Pandas查询数据的几种方法 df loc方法根据行列的标签值查询 df iloc方法根据行列的数字位置查询 df where方法 df query方法 loc既能查询又能覆盖写入强烈推荐 Pan

pandas(三)数据查询

二、数据查询

pandas(三)数据查询 的相关文章

随机推荐

热门标签

pandas(三)数据查询的相关文章