在多索引数据框中选择行

2024-02-11

我想单独提取“S”的 bin，其中每列 (X&Y) > 0.5，或多个 bin > 0.5 *“行数”。

在示例中；

对于“AR1”，应仅选择 bin 4，因为“X”和“Y”> 0.5（蓝色指示）

对于“PO1”，应选择 bin 1、2、3 和 4，因为“X”和“Y”> (4 * 0.5)（黄色指示）。

我之前已经尝试过这个for loop，但这没有正确工作；有条件地选择多个（相邻）行 https://stackoverflow.com/questions/41590518/selecting-multiple-neighboring-rows-conditionally

np.random.seed(0)

N = 20
S = ['AR1', 'PO1']

df = pd.DataFrame(
    {'X':np.random.uniform(-1,1,N),
     'Y':np.random.uniform(-1,1,N),
     'S':np.random.choice(S,N),
    })

df['bins_X'] = df.groupby('S')['X'].apply(pd.qcut, q=5, labels=np.arange(5))    # create bins per column 'S'

def func(df):                                                                   # create function to group per 'S' and their bins
    df1 = df.groupby(['S','bins_X']).sum()
    new_cols= list(zip(df1.columns.get_level_values(0)))
    df1.columns = pd.MultiIndex.from_tuples(new_cols)
    return df1

print func(df)

EDIT

它应该看起来像问题中所示的 df ，但不符合条件的行被过滤掉。我检查的是这个；对于任何行（bin），单独或组合的 X 和 Y > 0.5 中的值。仅连续组合行，组合 2、3、4 或 5 行。

即，0 的行组合为 ; 0+1、0+1+2、0+1+2+3 和 0+1+2+3+4。对于 1 ； 1+2、1+2+3 和 1+2+3+4 等。

多行的总和等于行数 x 0.5，例如，对于第 0 行到第 4 行，X 和 Y 必须 > 2.5。

编辑2： @JohnE 和 piRSquared，您的两个解决方案都有效，但是当数据框中存在不应评估的其他列时，哪一个会工作得更好？

另外，如果我想在你们的解决方案中添加一个附加条件怎么办？

编辑3： @piRSquared，当对某些列进行子集化时，我只得到返回的那些列，而我需要所有这些列，而不仅仅是子集化的列。

你能帮忙吗？谢谢。

这是一种矢量化方法，顶层只有一个循环（groupby.apply)

# columns that I care about
cols = ['X', 'Y']
df1.groupby(level=0)[cols].apply(find_window)

def find_window(df):
    v = df.values
    s = np.vstack([np.zeros((1, v.shape[1])), v.cumsum(0)])

    threshold = .5

    r, c = np.triu_indices(s.shape[0], 1)
    d = (c - r)[:, None]
    e = s[c] - s[r]
    mask = (e / d > threshold).all(1)
    rng = np.arange(mask.shape[0])

    if mask.any():
        idx = rng[mask][d[mask].argmax()]

        i0, i1 = r[idx], c[idx]
        return pd.DataFrame(
            v[i0:i1],
            df.loc[df.name].index[i0:i1],
            df.columns
        )

解释

strategy

numpy.triu_indices https://docs.scipy.org/doc/numpy-1.10.0/reference/generated/numpy.triu_indices.html：我需要评估滚动的每个可能的窗口mean大于一些threshold。我将从位置 0 到 0 开始，然后从 0 到 1，然后...然后 1 到 1，1 到 2...等等，来捕获每个可能的窗口。但在完成之前我必须始终从一个位置开始。我可以通过以下方式访问这些组合numpy.triu_indices https://docs.scipy.org/doc/numpy-1.10.0/reference/generated/numpy.triu_indices.html.
cumsum https://docs.scipy.org/doc/numpy-1.10.0/reference/generated/numpy.cumsum.html：获取由我从中获得的每个索引组合指定的扩展数组会有点棘手（可行）np.triu_indices。更好的方法是计算cumsum并取一个索引与下一个索引的差值。
我必须在我的前面加上零cumsum这样我就可以得到第一行的差异。
但总数并不是手段。我需要除以行数才能得到平均值。方便地，结束位置和开始位置之间的差异恰好是行数，因此也是将总和除以计算平均值的适当数字。
现在我有了办法，e / d，我检查哪些是> threshold并确定起始位置和结束位置的哪些组合的均值大于两列的阈值。
然后，我在均值大于阈值的组合中确定行数最多的组合。
我展开头寸并重建数据框
groupby and apply... QED

时间测试

有更多数据

np.random.seed(0)

N = 300
S = ['AR1', 'PO1', 'AR2', 'PO2', 'AR3', 'PO3']

df = pd.DataFrame(
    {'X':np.random.uniform(-1,1,N),
     'Y':np.random.uniform(-1,1,N),
     'S':np.random.choice(S,N),
    })

df['bins_X'] = df.groupby('S')['X'].apply(pd.qcut, q=20, labels=np.arange(20))    # create bins per column 'S'

def func(df):                                                                   # create function to group per 'S' and their bins
    df1 = df.groupby(['S','bins_X']).sum()
    new_cols= list(zip(df1.columns.get_level_values(0)))
    df1.columns = pd.MultiIndex.from_tuples(new_cols)
    return df1

df1 = func(df)

时差更是戏剧性

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

NumPy

在多索引数据框中选择行的相关文章

有没有办法清理 jinja2 生成的 html？

我们使用 jinja2 来创建 html 但是由于我们在 jinja 中执行许多循环和其他操作来生成 html 所以 html 看起来很丑注意这只是为了美观我们可以做些什么来清理 html 吗除了清理我们的 jinja2 代码之
如何为 apscheduler 指定“记录器”

我正在尝试学习如何使用 Python 的 apscheduler 包但它会定期抛出以下错误 No handlers could be found for logger apscheduler scheduler 该消息似乎与计划作业中的错
QTextEdit.find() 在 Python 中不起作用

演示问题的简单代码 usr bin env python import sys from PyQt4 QtCore import QObject SIGNAL from PyQt4 QtGui import QApplication QTe
根据两个预先计算的直方图报告两个样本的 K-S 统计量

Problem 在这里我绘制了存储在文本文件中的 2 个数据集在列表中 dataset 每个包含 218 亿个数据点这使得数据太大而无法作为数组保存在内存中我仍然能够将它们绘制为直方图但我不确定如何通过2 样本KS测试 http
PyQt：如何设置组合框项目可检查？

为了将 GUI 小部件数量保持在最低限度我需要找到一种方法来为用户提供下拉菜单项的选择这些菜单项可用于过滤掉 listWidget 项中显示的内容假设 listWidget 列出了 5 个不同类别的项目 Cat A Cat B Cat
如何使用Python在没有窗口的情况下在屏幕上显示文本

问题我需要在没有窗口的情况下直接将文本写入屏幕文本需要显示在所有其他窗口和全屏应用程序之上并且不应以任何方式单击或交互 Example The text doesn t need to have a transparent backg
Scrapy 未通过请求回调从项目中的已抓取链接返回附加信息

基本上下面的代码会抓取表格的前 5 项其中一个字段是另一个 href 单击该 href 会提供更多信息我想收集这些信息并将其添加到原始项目中所以parse应该将半填充的项目传递给parse next page然后刮掉下一位并返回完成
使用 PRAW 帮助获取 Reddit 帖子链接到的 URL

我正在尝试使用 Praw 获取 Reddit 提交标题中链接的帖子例如提交 http www reddit com r AdviceAnimals comments 1adu71 apparently people still need
使用 Python 读取 App Engine 上的文件？

是否可以在 GAE 上打开文件来读取其内容并获取最后修改的标签我收到 IOError Errno 13 文件无法访问我知道我无法删除或更新但我相信阅读应该是可能的有人遇到过类似的问题吗 os stat f r st mtim 您可能
Python Raspberry pi - 如果路径不存在，则跳过循环

我有一个收集温度文本文件中的值的功能它使用部分预定义的路径但是有时如果温度传感器未加载断开连接则路径不存在如果路径不可用如何设置条件或例外来跳过循环我想使用 continue 但我不知道要设置什么条件 def read
使用 scikit 包在 Python 中绘制集群区域的边界

这是我处理 3 个属性 x y 值中的数据聚类的简单示例每个样本代表其位置 x y 及其所属变量我的代码发布在这里 x np arange 100 200 1 y np arange 100 200 1 value np random
Flask-Mail - 基于 Flask-Cookiecutter 异步发送电子邮件

我的烧瓶项目基于烧瓶饼干切割机 https github com sloria cookiecutter flask我需要异步发送电子邮件发送电子邮件的功能由以下配置米格尔的教程 https blog miguelgrinberg com
Keras ImageDataGenerator 相当于 csv 文件

我在文件夹中排序了一堆数据如下图所示我需要构建一个 DataIterator 以便将数据放入神经网络模型中当数据是图像时我找到了很多例子来解决这个问题使用 Keras 类图像数据生成器及其方法流自目录但当数据是 csv 结构时则
django REST框架多源领域

假设我的 models py 中有这些 models py class Theme models Model An theme is an asset of multiple levels adventure models ForeignK
按最小值分组并用另一列中的值填充 NA

我有一个如下所示的示例数据框 df pd DataFrame data uid 1 1 1 2 2 3 pagename home blah blah home blah blah startpage NA NA NA home home
在python中打开带有重音符号的文本文件

我尝试使用 Python 2 7 打开法语文本文件我使用了命令 f open textfr r 但是当我使用 f read 我失去了重音字符我明白了u J xc3 xa9tais xc3 xa0巴黎而不是J tais 巴黎等当在lin
为什么计算大整数阶乘的“分而治之”方法如此快？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
Python Pandas DateOffset 使用另一列中的值

我以为这会很容易但下面的内容并不适合我想要的只是尝试通过使用另一列中的值将天数添加到预先存在的日期时间列来计算新的日期列我下面的偏移列只有 1 位数字 df new date df orig date apply lambda x
预训练 inception v3 模型的层名称（tensorflow）[重复]

这个问题在这里已经有答案了任务是获取a的每层输出预训练的 cnn inceptionv3 https www tensorflow org versions master tutorials image recognition index
如何将 c_uint 的 ctypes 数组转换为 numpy 数组

我有以下 ctypes 数组 data ctypes c uint 100 我想创建一个 numpy 数组np data包含来自 ctypes 数组数据的整数值 ctypes 数组显然稍后会填充值我看到numpy中有一个ctypes接口

随机推荐

Azure 上的 Web Api 使用“return InternalServerError(ex)”不显示错误详细信息

我的 Web Api 在本地运行时在发布模式下将返回以下格式的任何错误 Message An error has occurred ExceptionMessage No text specified ExceptionType Sys
如何在 PrimeFaces 中的 CommandButton 上定义带有闭包的 oncomplete 事件？

我正在使用一些 JavaScript 交互性扩展 PrimeFaces 应用程序的一部分一切都始于CommandButton它从 bean 获取一些数据并调用 JavaScript 目前它看起来像这样
如何显示xml文件中的视频？

您好我使用下面给出的 xml 文件如何从 xml 文件获取视频
使用CMD在Mysql中导入压缩文件

我正在尝试使用命令提示符将压缩数据库文件导入 Mysql 使用以下命令 7z lt backup sql 7z mysql u root test The root user don t有什么password与之相关 test是我的目标空白
WinForm应用程序数据持久化（C#）

我相信 ASP NET 应用程序中可变短期持久性的最佳方法是会话变量会话范围应用变量应用范围页面视图页面范围应用设置应用范围 Windows 窗体应用程序中可变短期持久性的最佳方法是什么表格范围用户会话范围应用
如何将数据转换为非等列？

我有一个事件数据集按以下分组let像这样 set seed 3 events lt data frame let rep LETTERS 1 2 each 3 age c 0 sample 1 20 size 2 0 sample 1 2
使用 boost 的 async_write 的异步 tcp 服务器会导致错误的文件描述符

首先我不是以英语为母语的人所以我可能会犯一些语法错误对此感到抱歉我正在尝试使用 C 和 Boost 创建一个异步 TCP 服务器我已经成功接受客户并收到他们的消息但我无法回复他们的消息我想要实现的是在 TCPServer 类上
从 Xamarin / C# 中的 URL 加载 UIImage

已经过去4年了这个问题 https stackoverflow com questions 2095635 load an image from a url已得到答复这篇博文 http escoz com blog displaying w
使用 PHP 从 Microsoft Teams 自定义机器人验证 HMAC

我正在尝试使用 PHP 验证 Microsoft Teams 自定义机器人遵循 Microsoft指示 https learn microsoft com en us microsoftteams platform concepts cu
CUDA 确定每个块的线程、每个网格的块

我是 CUDA 范式的新手我的问题是确定每个块的线程数和每个网格的块数这是否需要一些艺术和尝试我发现许多例子似乎为这些事情选择了任意的数字我正在考虑一个问题我可以将任意大小的矩阵传递给乘法方法这样 C 的每个元素如 C A B
Java 8 中流的笛卡尔积作为流（仅使用流）

我想创建一种方法该方法创建一个元素流这些元素是多个给定流的笛卡尔积最后由二元运算符聚合为相同类型请注意参数和结果都是流 not收藏例如对于两个流 A B and X Y 我希望它产生价值流 AX AY BX BY 简单的串联用
Docx4j 字符串中的换行符

我有这个字符串 Prueba Lista li1 li2 li3 li4 Tabulado Tabulado Tabulado Tabulado Tabulado Tabulado Tabulado Tabulado Tabulado Ta
dplyr 中的 substr %>% mutate

pcd lt data frame tripNo c 618 618 610 610 610 619 procDate as Date c 2016 03 02 2016 03 03 2016 03 02 2016 03 03 2016 0
手动调用按钮上的 click() ，我可以传递任何参数吗？

我在 jquery javascript 代码中手动调用页面上的按钮上的 click 我需要传递一个参数来单击然后我可以在响应单击事件的函数上读取该参数这可能吗你需要调用 trigger 您可以在那里传递任意数量的参数 element
将尾部输出通过管道传输到另一个脚本中

我正在尝试将 tail 命令的输出通过管道传输到另一个 bash 脚本中进行处理 tail n 1 f your log file myscript sh 但是当我运行它时永远不会到达 1 参数在 myscript sh 内我缺少什
ORA-38104: ON 子句中引用的列无法更新

我有一个带有删除标志的简单表记录应在此列中更新而不是删除 create table PSEUDODELETETABLE ID NUMBER 8 not null PKEY NAME VARCHAR2 50 not null ISDELET
为订阅优惠生成签名 - Xcode - Swift

我想问是否有人已经实现了 inapp 订阅自动续订的新优惠如果可能的话在服务器端创建系统以使用 p8 密钥和 php 创建此签名的难度我在苹果文档中找到了这个我不确定是否理解它 https developer apple com
Jquery 无法检测 IE 11

刚刚偶然发现一个问题当尝试使用 Jquery 检测 IE 11 当前正在播出的测试版时结果是 firefox 相同的代码检测 IE 10 我需要知道用户正在使用什么浏览器才能显示不同的指令我正在 Oracle VirtualBox
Spark DataFrame 架构可为空字段

我在 Scala 和 Python 中编写了以下代码但是返回的 DataFrame 似乎没有应用我正在应用的架构中的非空字段 italianVotes csv是一个 csv 文件以作为分隔符和四个字段我正在使用火花2 1 0 意大利
在多索引数据框中选择行

我想单独提取 S 的 bin 其中每列 X Y gt 0 5 或多个 bin gt 0 5 行数在示例中对于 AR1 应仅选择 bin 4 因为 X 和 Y gt 0 5 蓝色指示对于 PO1 应选择 bin 1 2 3 和 4 因为

在多索引数据框中选择行

解释

在多索引数据框中选择行 的相关文章

随机推荐

热门标签

在多索引数据框中选择行的相关文章