Pandas - 按连续范围分组

2023-11-27

我有一个具有以下结构的数据框 - 开始、结束和高度。

数据框的一些属性：

数据帧中的一行始终从上一行结束的位置开始，即如果第 n 行的结尾是 100，则第 n+1 行的开头是 101。
第 n+1 行的高度始终与第 n+1 行的高度不同（这就是数据位于不同行的原因）。

我想对数据帧进行分组，将高度分组到 5 个长的桶中，即桶是0、1-5、6-10、11-15 和 >15.

请参阅下面的代码示例，其中我正在寻找的是实现按桶分组功能。

我尝试查看其他问题，但无法得到我正在寻找的确切答案。

提前致谢！

>>> d = pd.DataFrame([[1,3,5], [4,10,7], [11,17,6], [18,26, 12], [27,30, 15], [31,40,6], [41, 42, 7]], columns=['start','end', 'height'])
>>> d
   start  end  height
0      1    3       8
1      4   10       7
2     11   17       6
3     18   26      12
4     27   30      15
5     31   40       6
6     41   42       7
>>> d_gb = group_by_bucket(d)
>>> d_gb
   start  end height_grouped
0      1   17           6_10
1     18   30          11_15
2     31   42           6_10

一种方法：

df = pd.DataFrame([[1,3,10], [4,10,7], [11,17,6], [18,26, 12],
[27,30, 15], [31,40,6], [41, 42, 6]], columns=['start','end', 'height'])

Use cut分组：

df['groups']=pd.cut(df.height,[-1,0,5,10,15,1000])

找到断点：

df['categories']=(df.groups!=df.groups.shift()).cumsum()

Then df is :

"""
   start  end  height    groups  categories
0      1    3      10   (5, 10]           0
1      4   10       7   (5, 10]           0
2     11   17       6   (5, 10]           0
3     18   26      12  (10, 15]           1
4     27   30      15  (10, 15]           1
5     31   40       6   (5, 10]           2
6     41   42       6   (5, 10]           2
"""

定义有趣的数据：

f = {'start':['first'],'end':['last'], 'groups':['first']}

并使用groupby.agg功能：

df.groupby('categories').agg(f)
"""
              groups  end start
               first last first
categories                     
0            (5, 10]   17     1
1           (10, 15]   30    18
2            (5, 10]   42    31
"""

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

groupby

intervals

Pandas - 按连续范围分组的相关文章

行未从树视图复制

该行未在树视图中复制我在按行并复制并粘贴到未粘贴的任何地方后制作了弹出复制 The code popup tk Menu tree opportunity tearoff 0 def row copy item tree opportun
为什么 .setGeometry() 不改变 QWidget 实例的大小？

我想使用 QWidget 更改 QPushButton 的大小 setGeometry https doc qt io qtforpython 5 PySide2 QtWidgets QWidget html PySide2 QtWidge
在Python3.6中调用C#代码

由于完全不了解 C 编码我希望在我的 python 代码中调用 C 函数我知道有很多关于同一问题的问答但由于一些奇怪的原因我无法从示例 python 模块导入简单的 c 类库以下是我所做的事情 C 类库设置我使用的是 VS 20
一次将Python dict的内容分配给多个变量？

我想做这样的事情 def f return a 1 b 2 c 3 a b f or a b f IE 这样 a 被分配为 1 b 被分配为 2 并且 c 是未定义的这与此类似 def f return 1 2 a b f 依赖于变量名称
如何确定非阻塞套接字是否真正连接？

这个问题不仅限于Python 这是一个一般的套接字问题我有一个非阻塞套接字想要连接到一台可访问的机器在另一端该端口不存在为什么 select 仍然成功我预计会超时 sock send 因管道损坏而失败 select 之后如何确定
即使使用 .loc[row_indexer,col_indexer] = value 时也会设置 WithCopyWarning

这是我的代码中得到的行之一SettingWithCopyWarning value1 Total Population value1 Total Population replace to replace value 4 然后我将其更改为
Pandas重置索引未生效[重复]

这个问题在这里已经有答案了我不确定我在哪里误入歧途但我似乎无法重置数据帧上的索引当我跑步时test head 我得到以下输出正如您所看到的数据帧是一个切片因此索引超出范围我想做的是重置该数据帧的索引所以我跑test rese
带图像的简单 GUI [关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 我试图在简单的 GUI 上显示一些卡
sudo pip install python-Levenshtein 失败，错误代码 1

我正在尝试在 Linux 上安装 python Levenshtein 库但每当我尝试通过以下方式安装它时 sudo pip install python Levenshtein 我收到此错误命令 usr bin python c 导入
Python Kivy - 在本机网络浏览器中打开 url 的应用程序

我尝试制作一个简单的应用程序在单击 Screen One 上的按钮后在 Kivy 中打开一个网页我使用了这个主题 Python 在应用程序中直接显示网络浏览器 iframe https stackoverflow com questi
更改 pandas 中多个日期时间列的时区信息

有没有一种简单的方法可以将数据帧中的所有时间戳列转换为本地任何时区不是逐列进行吗您可以有选择地将转换应用于所有日期时间列首先选择它们select dtypes https pandas pydata org pandas docs
获取列表中倒数第二个元素[重复]

这个问题在这里已经有答案了我可以通过以下方式获取列表的倒数第二个元素 gt gt gt lst a b c d e f gt gt gt print lst len lst 2 e 有没有比使用更好的方法print lst len lst
在可编辑的QSqlQueryModel中实现setEditStrategy

这是后续这个问题 https stackoverflow com questions 49752388 editable qtableview of complex sql query 在那里我们创建了 QSqlQueryModel 的可
如何列出 python PDB 中的当前行？

在 perl 调试器中如果重复列出离开当前行的代码段可以通过输入命令返回到当前行点我无法使用 python PDB 模块找到任何类似的东西如果我list如果我自己离开当前行并想再次查看它似乎我必须记住当前正在执行的行号对我来说
select() 可以在 Windows 下使用 Python 中的文件吗？

我正在尝试在 Windows 下运行以下 python 服务器 An echo server that uses select to handle multiple clients at a time Entering any line o
Pandas Dataframe：将包含列表的行扩展到多行，并为所有列提供所需的索引

我在 pandas 数据框中有时间序列数据索引为测量开始时的时间列中包含以固定采样率记录的值列表连续索引列表中元素数量的差异这是它的样子 Time A B Z 0 1 2 3 4 1 2 3 4 2 5 6 7 8 5 6 7 8
如何有效地从 loadmat 函数生成的嵌套 numpy 数组中提取值？

python中是否有更有效的方法从嵌套的python列表中提取数据例如A array array 12000000 dtype object 我一直在使用A 0 0 0 0 当你有很多像 A 这样的数据时这似乎不是一个有效的方法我也用
如何通过字符串匹配加速 pandas 行过滤？

我经常需要过滤 pandas 数据框df by df df col name string value 并且我想加快行选择操作有没有快速的方法可以做到这一点例如 In 1 df mul df 3000 2000 3 reset inde
全局变量是 None 而不是实例 - Python

我正在处理Python 中的全局变量代码应该可以正常工作但是有一个问题我必须使用全局变量作为类的实例Back 当我运行应用程序时它说 back is None 这应该不是真的因为第二行setup 功能 back Back Back
检查字符串是否只有字母和空格 - Python

试图让 python 返回一个字符串仅包含字母和空格 string input Enter a string if all x isalpha and x isspace for x in string print Only alphabe

随机推荐

每个 CPU 架构的真正 ELF TLS ABI 要求是什么？

乌尔里希德雷珀的论文on thread local storage 概述了几种不同 cpu 架构的 TLS ABI 但我发现它不足以作为实现 TLS 的基础原因有两个它省略了许多重要的体系结构如 ARM MIPS 等同时包括一堆完
模板参数推导和 cons 限定

谁能解释一下为什么代码不能编译 template
如何将字符串与 chrono::milliseconds 连接起来？

我需要一个带有时间戳以毫秒为单位的字符串我通过这种方式得到了毫秒在 stackoverflow 上查找之后 milliseconds ms duration cast lt milliseconds gt system clock
如何检查模板参数的类型？

假设我有一个模板函数和两个类 class animal class person template
使用本机库进行 Surefire JUnit 测试

我们在 Hudson 中使用 Maven 来运行 Java 构建过程并使用 Surefire 插件来执行 JUnit 测试但是我在一个需要本机 dll 的项目的单元测试中遇到了问题我们看到的错误是测试错误 TestFormRegis
将脚本插入多个 Google 电子表格

我是一名业余程序员我实际上只做了一些事情来让我的生活更轻松我设置了 Google 表单和电子表格来跟踪学校不同年级的纪律问题我编写了一个简短的脚本通过电子邮件通知适当的人员任何提交并且可以过滤和创建有关选定学习者的报告因为我做D
使用 Perl 查找文件

File Find and the wanted 子程序这个问题比原来的标题子例程的原型和前向声明要简单得多我希望答案无论多么简单都能帮助我理解子例程函数原型和范围以及File Find module 使用 Perl 子例程
Python 将元组转换为整数

有没有可以将元组转换为整数的函数 Example input 1 3 7 output 137 gt gt gt reduce lambda rst d rst 10 d 1 2 3 123
CS8019 临时文件 MSBuild 服务器上的 Assemblyinfo 错误

我的构建服务器上出现代码分析错误错误是 NETFramework 版本 v4 6 AssemblyAttributes cs 3 1 错误CS8019 不必要的using指令它位于 Visual Studio 创建的临时文件中在我的项
Send() 之后的 UdpClient、Receive() 不起作用？

考虑以下代码 client Send data data Length endpoint byte response client Receive ref endpoint 然而根据 WireShark 网络嗅探器的说法远程主机确实会
键盘显示元素的位置混乱

我有需要手机触摸键盘输入的游戏它的显示有问题每当键盘出现在文本输入焦点时我的所有位置绝对的元素都会变得混乱是否有一个插件可以使移动键盘始终显示以便我重新定位所有元素或者我需要更改 css 来制作元素以便键盘显示时不会混乱我
直接连接到 SQL Azure 时的登录前握手问题

目前我们的开发环境中遇到了一个相当麻烦的问题并显示以下消息 A connection was successfully established with the server but then an error occurred dur
使用 java 处理 Postgresql 事务

我有两个带有preparedStatement 的查询块这是第一个 String sql update cikan malzeme set miktar where proje id and malzeme id PreparedStat
支持转储和加载的纯 Javascript YAML 库？ [复制]

这个问题在这里已经有答案了这样的事情存在吗YAML aka YAML 如果这个曾经存在过那么它一定已经被抹去了因为最新的搜索结果一无所获看起来有很多实现dump仅从 Javascript 到 YAML 输出但很难找到支持转储和加载
serviceAccountKey 在哪里或者是什么。json 是 firebase 实时数据库的 Node js 示例

我已经下载了 zipFirebase real time database node js sample并导航到数据库部分 https github com firebase quickstart nodejs tree master da
如何从 URL 字符串中获取参数？

我有一个 HTML 表单字段 POST url 有一些 URL 字符串作为值示例值是 https example com test email protected https example com test email protecte
在原始返回类型函数上返回“null”？

我有一个函数返回一个int给定键的值来自HashMap
查找nohup命令运行的进程

我使用以下命令在 Centos 中运行服务器可执行文件 nohup server 现在我需要终止该进程 server 但我尝试过 ps a 命令来获取PID但我无法获得该过程知道如何杀死 server now ps auxwww grep
“R 无法解析为变量”？ [复制]

这个问题在这里已经有答案了在 Eclipse 中我从源创建了一个项目现在它显示错误 R 无法解析为变量从我在这里发现的情况来看我已经清除并重建了项目但 R 文件仍然没有出现在 gen 文件夹中有任何想法吗不用担心首先您可
Pandas - 按连续范围分组

我有一个具有以下结构的数据框开始结束和高度数据框的一些属性数据帧中的一行始终从上一行结束的位置开始即如果第 n 行的结尾是 100 则第 n 1 行的开头是 101 第 n 1 行的高度始终与第 n 1 行的高度不同这就是数据位

Pandas - 按连续范围分组

Pandas - 按连续范围分组 的相关文章

随机推荐

热门标签

Pandas - 按连续范围分组的相关文章