按标准从 pandas 数据框（或 numpy ndarray？）中选择

2024-04-12

我发现自己正在编写这种模式a lot:

tmp = <some operation>
result = tmp[<boolean expression>]
del tmp

...在哪里<boolean expression>被理解为一个布尔表达式涉及 tmp。（暂且，tmp始终是 pandas 数据框，但我认为如果我使用 numpy ndarrays，会出现相同的模式 - 不确定。）

例如：

tmp = df.xs('A')['II'] - df.xs('B')['II']
result = tmp[tmp < 0]
del tmp

正如人们可以从del tmp最后，only创建原因tmp根本就是这样我可以在应用于它的索引表达式中使用涉及它的布尔表达式。

I would love to eliminate the need for this (otherwise useless) intermediate, but I don't know of any efficient¹ way to do this. (Please, correct me if I'm wrong!)

作为第二好，我想将这种模式推到一些辅助函数中。问题是找到一个合适的方法来通过<boolean expression>到它。我只能想到不雅的。例如。：

def filterobj(obj, criterion):
    return obj[eval(criterion % 'obj')]

This actually works²:

filterobj(df.xs('A')['II'] - df.xs('B')['II'], '%s < 0')

# Int
# 0     -1.650107
# 2     -0.718555
# 3     -1.725498
# 4     -0.306617
# Name: II

...但是使用eval总是让我感觉很恶心……如果还有其他方法，请告诉我。

¹E.g., any approach I can think of involving the filter built-in is probably ineffiencient, since it would apply the criterion (some lambda function) by iterating, "in Python", over the panda (or numpy) object...

²The definition of df used in the last expression above would be something like this:

import itertools
import pandas as pd
import numpy as np
a = ('A', 'B')
i = range(5)
ix = pd.MultiIndex.from_tuples(list(itertools.product(a, i)),
                               names=('Alpha', 'Int'))
c = ('I', 'II', 'III')
df = pd.DataFrame(np.random.randn(len(idx), len(c)), index=ix, columns=c)

由于 Python 的工作方式，我认为这会很困难。我只能想到一些技巧，这些技巧只能让你达到目标的一部分。就像是

def filterobj(obj, fn):
    return obj[fn(obj)]

filterobj(df.xs('A')['II'] - df.xs('B')['II'], lambda x: x < 0)

应该可以，除非我错过了一些东西。以这种方式使用 lambda 是延迟求值的常用技巧之一。

大声思考：一个人可以做一个this未评估但仅作为表达式保留的对象，例如

>>> this
this
>>> this < 3
this < 3
>>> df[this < 3]
Traceback (most recent call last):
  File "<ipython-input-34-d5f1e0baecf9>", line 1, in <module>
    df[this < 3]
[...]
KeyError: u'no item named this < 3'

然后特殊情况的处理this进入 pandas 或仍然具有类似的功能

def filterobj(obj, criterion):
    return obj[eval(str(criterion.subs({"this": "obj"})))]

（如果工作足够多，我们可能会失去eval，这只是概念证明）之后类似

>>> tmp = df["I"] + df["II"]
>>> tmp[tmp < 0]
Alpha  Int
A      4     -0.464487
B      3     -1.352535
       4     -1.678836
Dtype: float64
>>> filterobj(df["I"] + df["II"], this < 0)
Alpha  Int
A      4     -0.464487
B      3     -1.352535
       4     -1.678836
Dtype: float64

会工作。我不确定这些是否值得让人头疼，不过，Python 不太适合这种风格。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

NumPy

pandas

按标准从 pandas 数据框（或 numpy ndarray？）中选择的相关文章

重命名多索引列名称Python

我有一个如下所示的 MultiIndex Dataframe df Office Office x True 2 y False 3 z True 5 如果我重置 df reset index 它将错误为 cannot insert Off
Python/从每个包含类似字符串对象的 Pandas 数据框单元格中去除空格的有效方法

我正在将 CSV 文件读入 DataFrame 中我需要从所有类似字符串的单元格中删除空格在 Python 2 7 中保持其他单元格不变这是我正在做的事情 def remove whitespace x if isinstance x
使用步幅沿轴填充每个切片上的对角线

考虑 numpy 数组a a np arange 18 reshape 2 3 3 print a 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 我想沿着每个切片的对角线填充axis 0我使用以下方
NumPy linalg.eig

我有这个烦人的问题但我还没有弄清楚我有一个矩阵我想找到特征向量所以我写 val vec np linalg eig mymatrix 然后我得到了 vec 我的问题是当我小组中的其他人对相同的矩阵 mymatrix 做同样的事情时
Pandas dataframe：每批行的操作

我有一个熊猫数据框df我想计算每批行的一些统计信息例如假设我有一个batch size 200000 对于每批batch sizerows 我想要一列的唯一值的数量ID我的数据框我怎样才能做这样的事情呢这是我想要的一个例子 prin
如何使用 Bokeh 动态隐藏字形和图例项

我正在尝试在散景中实现复选框其中每个复选框应显示隐藏与其关联的行我知道可以通过图例来实现这一点但我希望这种效果同时在两个图中发生此外图例也应该更新在下面的示例中出现了复选框但不执行任何操作我显然不明白如何更新用作源的数据
Python Pandas：如何对组中的所有项目进行分组并为其分配 id？

我有 df domain orgid csyunshu com 108299 dshu com 108299 bbbdshu com 108299 cwakwakmrg com 121303 ckonkatsunet com 121303
减少从 MongoDB 加载大熊猫数据帧所使用的内存

我有一个大型数据集包含 4000 万条记录总大小约为 21 0G 存储在 MongoDB 中我花了几个小时将其加载到 pandas 数据框中但总内存大小增加到约 28 7G 加载之前约为 600Mb cursor mongocoll
如何在 pandas 中读取并标准化以下 json？

我在 stackoverflow 中使用 pandas 看到了很多 json 读取问题但我仍然无法解决这个简单的问题 Data session id 0 X061RFWB06K9V 1 5AZ2X2A9BHH5U unix timesta
Python 中的舍入浮点问题

我遇到了 np round np around 的问题它没有正确舍入我无法包含代码因为当我手动设置值而不是使用我的数据时返回有效但这是输出 In 177 a Out 177 0 0099999998 In 178 np rou
Pandas/Google BigQuery：架构不匹配导致上传失败

我的谷歌表中的架构如下所示 price datetime DATETIME symbol STRING bid open FLOAT bid high FLOAT bid low FLOAT bid close FLOAT ask open
您可以格式化 pandas 整数以进行显示，例如浮点数的“pd.options.display.float_format”？

我见过this https stackoverflow com questions 18404946 py pandas formatdataframe and this https stackoverflow com questions
如何使用 Pandas、Numpy 加速 Python 中的嵌套 for 循环逻辑？

我想检查一下表的字段是否TestProject包含了Client端传入的参数嵌套for循环很丑陋有什么高效简单的方法来实现吗非常感谢您的任何建议 def test parameter a list parameter b list g
根据列 value_counts 过滤数据框（pandas）

我是第一次尝试熊猫我有一个包含两列的数据框 user id and string 每个 user id 可能有多个字符串因此会多次出现在数据帧中我想从中导出另一个数据框一个只有那些user ids列出至少有 2 个或更多string
Pandas 中的 Groupby、转置和追加？

我有一个数据框如下所示每个用户有10条记录现在我想创建一个如下所示的数据框 userid name1 name2 name10 这意味着我需要反转该列的每 10 条记录name并附加到新的数据框那么它是如何做到的呢有什么办法可
numpy NPV 和 Excel NPV 有区别吗？

我的 Excel 中有一行包含 11 个值 TotalSavings 0 8000 8000 8000 8000 8000 8000 8000 8000 8000 8000 贴现率为 0 08 我在 Excel 中使用计算 NPVNPV
使用 dtypes read_csv 但列中没有值[重复]

这个问题在这里已经有答案了我使用以下代码来读取 csv 通过指定每个列的类型 clean pdf type pd read csv table updated csv usecols col names dtype col types 但
Numpy 安装运行时错误：工具链损坏：无法链接简单的 C 程序

MacBook 空气我花了一段时间尝试安装这个首先我无法使用 Homebrew 因为我安装了它但随后网络连接断开现在我的计算机找不到 brew 命令但它说 homebrew 已安装所以我不知道如何在不使用brew命令的情况
Pandas 交叉表与 Pandas 数据透视表有何不同？

两只熊猫的crosstab and pivot table函数似乎提供完全相同的功能有什么区别吗两者之间的主要区别是pivot table期望您的输入数据已经是一个 DataFrame 你将一个 DataFrame 传递给pivot t
使用 pandas 单元格中列表的长度选择行[重复]

这个问题在这里已经有答案了我有一张表 df a b c 1 x y x 2 x z c d 3 x t e f g 只是想知道如何使用 c 列的长度选择行 such as df loc len df c gt 1 我知道这是不对的正确的

随机推荐

绘制 networkx 图表时出现意外错误

我有一个简单的图表需要将其绘制在屏幕上这是我的代码 def gera grafo matriz grafo nx to networkx graph matriz create using nx Graph nx draw grafo
单击按钮时 Primefaces 显示动画

我在 primefaces 中有以下按钮和面板
const 函数、重载和泛型打字稿

Typescript 支持函数重载这非常酷并且可以像这样重载常量函数 interface FetchOverload action string method post get object action string object c
C++中如何从字符串中获取文件扩展名

给定一个字符串 filename conf 如何验证扩展部分我需要一个跨平台解决方案这个解决方案是不是太简单了 include
加载本地 GeoJSON 文件并将其与 Google Maps Javascript API v3 数据层一起使用

我创建了一个可在 DataLayer 拖放教程中使用的 JSON FeatureCollection 到目前为止它只是 2 条道路的集合但我不知道如何加载 JSON 文件目前它是一个本地文件所以我认为调用它并按照教程设计它将使我走上
使用 HttpModule 进行异常处理

我们正在审查该公司的一个系统的异常处理发现了一些有趣的事情大多数代码块如果不是全部都位于 try catch 块内并且在 catch 块内抛出一个新的 BaseApplicationException 这似乎来自企业库我在这里遇
Gmail 客户端的 html 电子邮件中的表格之间有额外的空白

我的代码位于 http jsfiddle net user1212 G86KE 4 http jsfiddle net user1212 G86KE 4 问题是在 Gmail 中它在同一单元格内的两个表格之间留下了额外的空白我努力了di
iOS AVFoundation 音频/视频不同步

问题每次播放时音频都会落后视频 1 2 秒设置这些资源是通过媒体流中的 AVURLAssets 加载的为了编写合成我使用具有不对称时间尺度的 AVMutableCompositions 和 AVMutableCompositio
反应网格布局错误：未安装在 DragStart 上

当尝试在 ResponsiveGridLayout 中拖动任何面板或调整其大小时出现以下错误
Node.js Selenium IPv6 问题（SocketException 协议系列不可用）

仅当我生成时才会发生此错误ios驱动程序 http ios driver github io ios driver jar 作为 Node js 子项错误是java net SocketException Protocol family
我们可以提高java中垃圾收集线程的优先级吗

正如我们所知在 java 中线程有优先级而垃圾收集器是优先级最低的线程所以我想知道对于特定的 java 应用程序我们是否可以使其垃圾收集器具有更高的优先级以便可以增加该应用程序的内存管理有很多命令行开关决定 Sun JVM 中
架构：API 作为网站和移动应用程序的核心

我对完整的架构理念有不同的问题我希望有丰富经验的人可以帮助我因为我几乎陷入了所有可能性之中我正计划重写一个社区网站我们的客户希望将来使用本机移动应用程序所以我需要考虑到这一点因此我决定创建一个基于 PHP 框架 Kohana
为什么 Final 字典不能用作 TypedDict 中的文字？

我正在尝试完成以下任务请参阅 from typing import TypedDict Final account schema Final name str email str Account TypedDict Account acc
$.mobile.activePage 属性到底是如何工作的？

我正在尝试如下 document bind pageshow function e data console log page spots console log mobile activePage if mobile activePage
Flask框架：MVC模式

Flask框架天然支持MVC模式吗我应该将应用程序的哪些部分视为模型什么部分视为视图什么部分视为控制器通常根据我的经验 Flask 应用程序如下所示 main dir app1 init py api py models py s
使用 ServicePointManager 固定 Xamarin SSL/TLS

我们正在使用 Xamarin 开发一款移动应用程序最初将在 Android 和 iOS 上运行并计划将来移植到 Windows Phone 如果使用它的 3 个人尖叫得足够大声的话正在传输的数据的性质以及该应用程序将允许的操作 SSO
ServiceMix 中 Apache-Camel 路由的管理和监控

作为 Camel 和 ServiceMix 的用户我经常需要监控这些工具以进行开发我主要使用 JConsole 从 ServiceMix 和 Camel 访问 MBean 它为 ESB 开发人员提供了一些非常有用的指标我还使用 kar
两种长宽比的两种布局（4:3 和 16:9） - 自动更改

下列的Microsoft 规模指南 http msdn microsoft com en us library windows apps hh780612 aspx有一部分说设计固定布局时首先为基线分辨率设计布局 1024x768 和
Webpack 提供了一个数组作为配置

在这个 webpack 入门套件中https github com webpack react starter https github com webpack react starter我看到 webpack production con
按标准从 pandas 数据框（或 numpy ndarray？）中选择

我发现自己正在编写这种模式a lot tmp

按标准从 pandas 数据框（或 numpy ndarray？）中选择

按标准从 pandas 数据框（或 numpy ndarray？）中选择 的相关文章

随机推荐

热门标签

按标准从 pandas 数据框（或 numpy ndarray？）中选择的相关文章