Python Pandas - “loc”和“where”之间的区别？

2024-05-05

只是对“where”的行为以及为什么要使用它而不是“loc”感到好奇。

如果我创建一个数据框：

df = pd.DataFrame({'ID':[1,2,3,4,5,6,7,8,9,10], 
                   'Run Distance':[234,35,77,787,243,5435,775,123,355,123],
                   'Goals':[12,23,56,7,8,0,4,2,1,34],
                   'Gender':['m','m','m','f','f','m','f','m','f','m']})

然后应用“where”函数：

df2 = df.where(df['Goals']>10)

我得到以下结果，过滤掉目标 > 10 的结果，但将其他所有内容保留为 NaN：

  Gender  Goals    ID  Run Distance                                                                                                                                                  
0      m   12.0   1.0         234.0                                                                                                                                                  
1      m   23.0   2.0          35.0                                                                                                                                                  
2      m   56.0   3.0          77.0                                                                                                                                                  
3    NaN    NaN   NaN           NaN                                                                                                                                                  
4    NaN    NaN   NaN           NaN                                                                                                                                                  
5    NaN    NaN   NaN           NaN                                                                                                                                                  
6    NaN    NaN   NaN           NaN                                                                                                                                                  
7    NaN    NaN   NaN           NaN                                                                                                                                                  
8    NaN    NaN   NaN           NaN                                                                                                                                                  
9      m   34.0  10.0         123.0

但是，如果我使用“loc”函数：

df2 = df.loc[df['Goals']>10]

它返回没有 NaN 值的子集数据帧：

  Gender  Goals  ID  Run Distance                                                                                                                                                    
0      m     12   1           234                                                                                                                                                    
1      m     23   2            35                                                                                                                                                    
2      m     56   3            77                                                                                                                                                    
9      m     34  10           123

所以本质上我很好奇为什么你会使用“where”而不是“loc/iloc”以及为什么它返回 NaN 值？

考虑到loc作为过滤器 - 只给我 df 中符合条件的部分。

where最初来自 numpy。它运行一个数组并检查每个元素是否符合条件。所以它会返回整个数组，结果或NaN。一个不错的功能where是你还可以得到不同的东西，例如df2 = df.where(df['Goals']>10, other='0')，将不满足条件的值替换为0。

ID  Run Distance Goals Gender
0   1   234      12     m
1   2   35       23     m
2   3   77       56     m
3   0   0        0      0
4   0   0        0      0
5   0   0        0      0
6   0   0        0      0
7   0   0        0      0
8   0   0        0      0
9   10  123      34     m

另外，同时where仅用于条件过滤，loc是 Pandas 中选择的标准方式，以及iloc. loc使用行和列名称，而iloc使用它们的索引号。所以与loc你可以选择返回，比如说，df.loc[0:1, ['Gender', 'Goals']]:

    Gender  Goals
0   m   12
1   m   23

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

Python Pandas - “loc”和“where”之间的区别？的相关文章

如何使用一个模型中间层的输出作为另一个模型的输入？

我训练一个模型A并尝试使用中间层的输出name layer x 作为模型的附加输入B 我尝试像 Keras 文档一样使用中间层的输出https keras io getting started faq how can i obtain th
通过 python 中的另外两个修改数组[重复]

这个问题在这里已经有答案了假设我们有三个一维数组 A 长度为 5 B 长度相同示例中为5 C 更长比如长度为 100 C最初用零填充 A给出索引C应更改的元素它们可能会重复以及B给出应添加到初始零的值C 例如如果A 1 3 3
雅虎财务请求功能出现 404 客户端错误

yahoo Financials的请求功能出现404 Client Error 直接点击以下网址没有问题 https finance yahoo com quote AAPL financials p AAPL https finance
如何在Windows中的Python 3.9下pip安装pickle？

我需要pickle https docs python org 3 9 library pickle html module pickle包安装在我的下面Python 3 9在 Windows 10 下我尝试过的当尝试与pip inst
带有 mkdocs 的本地 mathjax

我想在无法访问互联网的计算机上使用 MathJax 和 Mkdocs 因此我不能只调用 Mathjax CDN Config mkdocs yml site name My Docs extra javascript javascripts
用 Python 绘制直方图

我有两个列表 x 和 y x 包含字母表 A Z Y 包含它们在文件中的频率我尝试研究如何在直方图中绘制这些值但在理解如何绘制它方面没有成功 n bins patches plt hist x 26 normed 1 facecolor
如何从hdfs读取文件[重复]

这个问题在这里已经有答案了我在 project1目录下的hadoop文件系统中有一个文本文件名mr txt 我需要编写 python 代码来读取文本文件的第一行而不将 mr txt 文件下载到本地但我无法从 hdfs 打开 mr tx
ValueError：数据必须为正（boxcox scipy）

我正在尝试将我的数据集转换为正态分布 0 8 298511e 03 1 3 055319e 01 2 6 938647e 02 3 2 904091e 02 4 7 422441e 02 5 6 074046e 02 6 9 265747e
在 Linux 上使用多处理时，TKinter 窗口不会出现

我想生成另一个进程来异步显示错误消息同时应用程序的其余部分继续我正在使用multiprocessingPython 2 6 中的模块来创建进程我试图用以下命令显示窗口TKinter 这段代码在Windows上运行良好但在Linux上
数据框中 .map(str) 和 .astype(str) 有什么区别

我有一个数据框其列名为 col1 和 col2 的整数类型条目我想将 col1 和 col2 的条目以及其间的点连接起来我搜索并发现添加两个列条目 df col df col1 map str df col2 map str 并添
更改 Matplotlib 投影轴的背景颜色

我正在尝试使用 Cartopy 创建一个图形该图形需要在未投影的轴上绘制投影轴这是一个尽可能简单的代码版本它将轴上的内容替换为背景颜色 import matplotlib pyplot as plt import cartopy cr
Python：在字典中查找具有唯一值的键？

我收到一个字典作为输入并且想要返回一个键列表其中字典值在该字典的范围内是唯一的我将用一个例子来澄清假设我的输入是字典 a 构造如下 a dict a cat 1 a fish 1 a dog 2 lt unique a bat 3
为什么 Collections.counter 这么慢？

我正在尝试解决罗莎琳德的基本问题即计算给定序列中的核苷酸并在列表中返回结果对于那些不熟悉生物信息学的人来说它只是计算字符串中 4 个不同字符 A C G T 出现的次数我期望collections Counter是最快的方法首先
无法导入QUERY_TERMS

我正在运行一个网站Python and Django Django filters 2 1 installed Django 2 1 installed 当我运行时我收到以下错误 importError Could not import
从 wxPython 事件处理程序中调用函数

我正在努力寻找一种在 wxPython 事件处理函数中使用函数的方法假设我有一个按钮单击该按钮时它会使用事件处理程序运行一个名为 OnRun 的函数但是用户忘记单击 OnRun 按钮之前的 RadionButton 我想弹出一个
导入 pandas 显示 ImportError: 无法导入名称哈希表

我已经在 python 3 3 上安装了 pandas 代码如下 import csv import pandas from pandas import DataFrame csvdata pandas read csv datafile
如何展平解析树并存储在字符串中以进行进一步的字符串操作 python nltk

我正在尝试从树结构中获取扁平树如下所示我想将整个树放在一个字符串中就像没有检测到坏树错误一样 S NP SBJ NP DT The JJ high JJ seven day PP IN of NP DT the CD 400 NNS
Django 将 JSON 数据传递给静态 getJSON/Javascript

我正在尝试从 models py 中获取数据并将其序列化为views py 中的 JSON 对象模型 py class Platform models Model platformtype models CharField max len
UnicodeDecodeError：部署到 Heroku 时，“utf-8”编解码器无法解码位置 0 中的字节 0xff

我尝试在heroku上部署我的简单django项目但我不明白如何解决这个问题这是git push heroku master remote Traceback most recent call last remote File tmp
Biopython 可以执行 Seq.find() 来解释歧义代码吗

我希望能够在 Seq 对象中搜索考虑歧义代码的子序列 Seq 对象例如以下内容应该是正确的 from Bio Seq import Seq from Bio Alphabet IUPAC import IUPACAmbiguousDNA

随机推荐

在另一个模块中扩展 Ruby 模块，包括模块方法

每当我尝试扩展 ruby 模块时我都会丢失模块方法 include 和extend 都不会执行此操作考虑一下片段 module A def self say hi puts hi end end module B include A e
如何在汇编语言中换行打印多个字符串

我试图在汇编中的不同行上打印多个字符串但使用我的代码它只打印最后一个字符串我对汇编语言非常陌生所以请耐心等待 section text global start start mov edx len mov edx len1 mov
是否可以在不使用“Arc”的情况下拥有“内部指针”？

struct Device struct CommandBuffer device Device Does not work because Rust does not allow internal pointers struct Some
找不到 jni.h 文件 - 在 OS X El Capitan 上安装 node-java 模块

我正在尝试安装node java允许 Node js 连接到现有的模块Java蜜蜂这是我用来安装此模块的命令须藤 npm 安装 java g 这是我收到的错误的堆栈跟踪 gt email protected cdn cgi l emai
SPARQL 为缺失字段生成值

我正在尝试编写一个 SELECT 它为我提供表中的所有值我有可选值我希望用标准值填充它们如果它们不存在这是我的代码 SELECT WHERE a nmo hasObject nm coin OPTIONAL a nmo hasAut
ruby - heroku：找不到命令

这个问题已经发布了但答案还没有起作用我应该顺便提一下我对红宝石完全陌生我在做教程时遇到了错误步骤如下 first app master gem install heroku I get Successfully installed
Laravel ErrorException：未定义的变量：\storage\framework\views\ 中的错误

我尝试使用 redis 队列来延迟发送邮件但每次都会收到错误 ErrorException 未定义的变量错误 C wamp64 www laravel boltra storage framework views c653bafa95f
可能的 PDOException 错误（MySQL 5）？

因此我正在为我的网络应用程序设置一个安装程序并具有数据库凭据的输入字段我的验证过程的一部分包括测试数据库连接使用 PHP 的 PDO 库如果连接失败我希望能够区分错误的密码错误的地址不存在的数据库名称等以便我可以引用表单上
使用 ProGuard 混淆 clojure uberjar

我想知道是否有人有使用 proguard 混淆他们的 leiningen 编译的 uberjar 的经验我已经尽力在谷歌上寻找解决方案但找不到真正的答案我想知道这是否可能我一直在尝试混淆默认的 lein 项目这是 core clj
如何检查 char 数组是否有空单元格以便我可以在其中打印 0？

Code public void placeO int xpos int ypos for int i 0 i lt 3 i for int j 0 j lt 3 j The line below does not work what ca
如果为 false，则停止在自定义验证器中执行

我有两个文本框作为 to date 和 from date 我比较两个文本框并获取值但它的执行在我想要停止的按钮的单击旁边进行因为如果 to date 小于起始日期则截止日期将变为空并且重点关注文本框不会转到的单击事件按钮 i us
从绝对路径加载类

我有一个类我想通过绝对路径加载该类但我收到 ClassNotFoundException 我经历过很多这样的线程发现从绝对路径加载类是不正确的 InputStream stream new Check getClass getReso
从非 Activity 类启动一个新 Activity

我想在非 Activity 类中启动一个新活动该活动实现DialogListener以下是我的代码 public class FacebookLoginDialog implements DialogListener Override p
将二维数组绑定到数据网格中

所以我的情况是我想从数据库中的两个字段填充一个二维数组我在为数组分配数据库字段值时遇到问题第二个是在数据网格中显示数组我已经编码了 dgv2 Datasource myArray 但它仍然返回错误消息这是我的代码 Dim msql
Mac上使用docker安装gitlab的权限问题

我正在尝试让 Gitlab 在本地运行但遇到了权限问题 cp cannot create regular file etc gitlab gitlab rb Permission denied 我正在运行的命令是 sudo docker
如何在 Android 中自定义进度条

我正在开发一个应用程序我想在其中展示ProgressBar 但我想替换默认的AndroidProgressBar 那么我该如何定制ProgressBar 我需要一些图形和动画吗我阅读了以下帖子但无法让它工作 Android自定义进度条
有没有办法从 ANSI 转义字符创建橙色？

我正在寻找一个控制代码来使用 ANSI 或其他标准在终端中创建橙色文本这可能吗我只看到黄色和红色可用并且我认为您不能将红色和黄色混合用于同一角色严格来说不 ANSI 从未标准化任何被称为橙色的东西对于终端的控制序列有些终端
为什么 CGPath 和 UIBezierPath 在 SpriteKit 中对“顺时针”的定义不同？

在 SpriteKit 中 clockwise方向相反UIBezierPath但不是为了CGPath 例如如果我有 do let path CGPathCreateMutable CGPathAddArc path nil 0 0 10
React router 如何点击查看详细组件

我有两个组件 Car 和 CarDetails 我想用超链接 link 来显示 cars 组件中的所有汽车当用户单击时它应该将 carid param s 传递给 CarDetails 组件 App js import React Co
Python Pandas - “loc”和“where”之间的区别？

只是对 where 的行为以及为什么要使用它而不是 loc 感到好奇如果我创建一个数据框 df pd DataFrame ID 1 2 3 4 5 6 7 8 9 10 Run Distance 234 35 77 787 243 543

Python Pandas - “loc”和“where”之间的区别？

Python Pandas - “loc”和“where”之间的区别？ 的相关文章

随机推荐

热门标签

Python Pandas - “loc”和“where”之间的区别？的相关文章