如何计算熊猫的重叠并找到重叠的伙伴？

2023-12-02

我很困惑如何最有效地做到这一点pandas.

我有以下熊猫DataFrame，当前包含两列starts and ends, 代表区间[1, 10], [5, 15], and [3, 8].

import pandas as pd

dict1 = {'start': [1, 5, 3], 'end': [10, 15, 8]}

df = pd.DataFrame(dict1)
print(df)
   start  end
0      1   10
1      5   15
2      3    8

从 0 开始，我想计算间隔如何重叠。这是正确的合并结构（不必过多担心闭/开区间）：

间隔[0, 1]没有间隔，[1,3]有 1 个间隔（从[1, 10]), [3, 5]有两个区间（一对[1, 10] and [3, 8]），间隔[5, 8]有三个区间 ([1, 10], [3, 8], [5, 15]), [8, 10]有两个区间 ([1, 10], [5, 15]），等等。

以表格形式总结结果，预期结果是：

  start  end  total  interval
0      0   1   0     []
1      1   3   1     [[1, 10]] 
2      3   5   2     [[1, 10], [3, 8]]
3      5   8   3     [[1, 10], [3, 8], [5, 15]]
4      8   10  2     [[1, 10], [5, 15]]
5      10  15  1     [[5, 15]]
6      15  75  0     []

从而该列intervals当前是包含每个间隔列表的列表的列表。（我加入了一个大于 15 的整数，以表明那里什么都没有；75 是任意的）

我应该如何用 pandas 完成上述任务？这三个步骤似乎是：

(1) 将区间解构为给定任何其他区间的并集的部分

(2)统计重叠间隔

(3) 存储间隔以供以后检索

Is pandas甚至为这次行动做好了准备？

From pandas 0.24.0一个可以使用pd.Interval.overlaps:

endpoints = df.stack().sort_values().reset_index(drop=True)
intervals = pd.DataFrame({'start':endpoints.shift().fillna(0), 
                          'end':endpoints}).astype(int)
# construct the list of intervals from the endpoints
intervals['intv'] = [pd.Interval(a,b) for a,b in zip(intervals.start, intervals.end)]

# these are the original intervals
orig_invt = pd.arrays.IntervalArray([pd.Interval(a,b) for a,b in zip(df.start, df.end)])

# walk through the intervals and compute the intersections
intervals['total'] = intervals.intv.apply(lambda x: org_intv.overlaps(x).sum())

Output:

+----+--------+------+-----------+-------+
|    | start  | end  |   intv    | total |
+----+--------+------+-----------+-------+
| 0  |     0  |   1  | (0, 1]    |     0 |
| 1  |     1  |   3  | (1, 3]    |     1 |
| 2  |     3  |   5  | (3, 5]    |     2 |
| 3  |     5  |   8  | (5, 8]    |     3 |
| 4  |     8  |  10  | (8, 10]   |     2 |
| 5  |    10  |  15  | (10, 15]  |     1 |
+----+--------+------+-----------+-------+

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

如何计算熊猫的重叠并找到重叠的伙伴？的相关文章

如何使用 django (python) 和 s3 上传文件？

我正在寻找一种将文件上传到 s3 的方法我正在使用 django 我目前正在使用亚马逊的 python 库进行上传以及以下代码 View def submitpicture request fuser request session lo
如何移动我的图像？ python 3.10.4 pygame

我会移动我的图像图像是matiskinfinal png 我尝试将像素添加到 x 或其他我不知道它是什么的东西因为我真的是 python 的初学者 pygame但是是 x x 变化但图像没有移动 import os import py
如何使用 lxml 解析包含前缀但没有名称空间声明的 XML？

我有一堆使用前缀但没有相应名称空间声明的 XML 文件像这样的东西
Python grpc protobuf 存根生成问题：--grpc_out: protoc-gen-grpc: 插件失败，状态代码 1

正如问题所说我从源代码编译了 grpc 并且也做了sudo pip install grpcio 但是那which grpc python plugin不返回任何内容这是一个问题因为route guide的grpc python示例
检测/删除 Python 2 + GTK 中不成对的代理字符

在Python 2 7中我可以成功转换Unicode字符串 abc udc34xyz 转换为 UTF 8 结果是 abc xed xb0 xb4xyz 但是当我将 UTF 8 字符串传递给例如时 pango parse markup or
在 vim 折叠线中语法高亮 Python

我发现代码折叠 http en wikipedia org wiki Code folding帮助我更好地组织我的文件因此在我的底部 vimrc 我启用vim代码折叠 http vimdoc sourceforge net htmldo
如何在Python中求和

我想知道如何在 python 中表示总和而不需要像这样的循环here http docs scipy org doc scipy reference tutorial optimize html 我们有 def rosen x The Ro
如何使用 xlrd 将新列和行添加到 .xls 文件

如何向 xlrd 中的工作表添加新列和或行我有一个使用 open workbook 读取的 xls 文件我需要在第一张表中添加一个新列 bouncebacks 然后在该表中添加新行但我在 xlrd 文档中找不到任何显示如何添加新行和
Python，多线程，获取网页，下载网页

我想在一个站点批量下载网页我的 urls txt 文件中有 5000000 个 url 链接大约有300M 如何让多线程链接这些网址并下载这些网页或者如何批量下载这些网页我的想法 with open urls txt r as f
如何在 Pytorch 中将一维 IntTensor 转换为 int

如何将一维 IntTensor 转换为整数这 IntTensor int 给出错误 KeyError Variable containing 423 torch IntTensor of size 1 我所知道的最简单最干净的方法 In
检查多个 pd.DataFrame 是否相等

是否有一种 Pythonic 方式无循环或递归来检查是否超过两个pd DataFrames 例如 pd DataFrames 列表彼此相等吗就像是 all x equals dfs 0 for x in dfs with dfs数据
如何测试列表中多个值的成员资格

我想测试两个或多个值是否在列表中具有成员资格但我得到了意外的结果 gt gt gt a b in b a foo bar a True 那么 Python 可以同时测试列表中多个值的成员资格吗这个结果意味着什么 See also How
如何在 Sublime 2 REPL Mac 中运行 Python 3

我的问题如下我安装了 sublime 2 和 sublime repl 插件一切正常我唯一需要的是更改在控制台内置的 sublimerepl 上运行的 python 版本我的意思是我有 python 2 7 5 预先安装了 mav
Celery：每个工作人员的 task_acks_late 的不同设置/向 celery 添加自定义选项

这个问题是后续问题django celery 禁用一个工作者的预取有错误吗 https stackoverflow com questions 58290045 django celery disable prefetch for one
如何修改 contenteditable 元素的innerHTML

我使用 Selenium 与 Chrome driver 和 python3 6 来测试网站我在网页中有代码片段如下 div class 3F6QL 2WovP div class 39LWd Type a message div div
Qcut Pandas：ValueError：Bin 边缘必须是唯一的

我使用 Pandas 中的 Qcut 将数据离散化为大小相等的存储桶我想要有价格桶这是我的数据框 productId sell prix categ popularity 11997 16758760 0 28 75 50 524137
Pip 突然使用了错误版本的 Python

在 os x 上使用 pip 时遇到一个奇怪的问题据我所知快速查看我的 bash history 似乎可以确认我最近没有对我的配置进行任何更改唉 pip 命令似乎突然使用了与以前不同的 python 版本到目前为止我使用命令 p
Flask 扩展未在 app.extensions 中注册

我想访问在我的 Flask 应用程序上注册的一些扩展我尝试使用app extensions 但我初始化的一些扩展不在字典中 from flask import current app current app extensions get
VSCode无法切换matplotlib后端：ImportError：无法加载需要“qt5”交互框架的后端“Qt5Agg”

我只想通过在 VSCode 中运行 Python 来进行绘图但结果失败了我无法将后端从 agg 切换到 Qt5Agg 但是我可以在 VSCode 的终端中轻松执行此操作 VSCode集成终端中的问题如下所示我尝试了各种解决方案但失败
部署 Flask 应用程序时如何检测额外文件的更改并重新加载应用程序？ [关闭]

Closed 这个问题需要调试细节 help minimal reproducible example 目前不接受答案我在 Flask 中构建了一个小型 Web 应用程序并尝试将其部署在 Pythonanywhere 上在开发过程中

随机推荐

如何在 Spring 中使用列表作为模型属性？

我的家庭控制器是这样的 RequestMapping public ModelAndView welcome ModelAttribute myValuesInRows List
FolderItem.InvokeVerb("Delete") 无需确认

我正在尝试编写一个工具该工具将自动存档服务器上的旧日志文件并从存档中删除太旧的文件并且有问题我需要使用 powershell 从 ZIP 存档中删除单个文件所以我这样做 testFile C test logs FirstEntry
Avaje - EBean - 部分对象查询禁用延迟加载

我正在使用 Play 开发一个应用程序框架 2 1 3 使用 EBean 作为模型层我希望能够执行部分对象查询并且当我序列化为 JSON 准备将结果发送回用户时不要按需延迟加载未选择的属性我尝试将 AutoFetch 设置为 fal
无法在 Rmarkdown 报告中生成交互式绘图

我有一个 Rmarkdown 文档其中包含用plotly绘制的图并且想生成一个html文件当我点击时它起作用编织为 HTML在 Rstudio 中但当我在命令行上运行以下命令时则不然 Rscript e require knitr
为什么这个 Less 表达式根据数学运算而成为语法错误？

我有以下 Less 片段 Foo 50px someClass width calc 100 Foo 5px 这很好用但是如果我将其更改为 Foo 50px someClass width calc 100 Foo 5px 我们现在有一
如何测试是否已获得管理员同意

我们正在开发一个 Office 加载项可使用 Azure AD 的组织帐户进行身份验证该加载项需要管理同意因此如果管理员登录应引导他表达管理同意我们使用 OAuth 进行身份验证 https login microsoftonl
Mysql事务：提交和回滚

我将 PhpMyAdmin 数据库引擎从 MyISAM 更新为 INNODB 以允许回滚这是我的 SQL 查询 START TRANSACTION UPDATE jkm content SET state 0 WHERE title IN
在 Android 中动态加载 .dex 文件时出现“ClassNotFound”异常

我正在尝试学习在 Android 中动态加载类 dex jar 我从教程和 Stack Overflow 问题中收集了基本想法 tutorial this and this 但我未能实现动态加载类文件并不断给出的目的ClassNotFoun
我应该设置什么 COLLATE 才能使用所有可能的语言？

我有一个专栏叫username 我希望用户能够插入日语罗马语阿拉伯语韩语以及所有可能的文本包括特殊字符 https en wiktionary org wiki Index All languages what COLLATE我应该
在 Lua 中使用 32 位按位运算比较有符号的 64 位数字

我在 Redis 上使用 Lua 想要比较两个有符号的 64 位数字它们存储在两个 8 字节字符的字符串中如何使用 Redis 中可用的库来比较它们 http redis io commands EVAL available libr
为什么在 asp.net mvc 中先映射特殊路由，然后再映射普通路由？

来自www 路由引擎将采用与所提供的 URL 匹配的第一个路由并尝试使用该路由中的路由值因此应首先将不太常见或较专业的路由添加到表中而应稍后添加更通用的路由为什么要先绘制专门的路线有人可以给我一个例子我可以在哪里看到首先映射
如何从输入流重新打开文件

我想重新打开一个文件我在输入流中有一个文件我尝试过使用 Scanner 和 BufferedReader 但使用 close 方法关闭文件后我无法再次打开该文件请帮助如何再次打开文件我写了下面的代码 InputStream file
MySql。单击 HTML 按钮后 - TRUNCATE 数据库表

所以我需要简单的事情我需要在我的网站中创建按钮单击按钮后它应该截断数据库表但我自己无法成功完成那么你能帮我一下吗我在这里尝试创建按钮
在 Ruby 中生成符合概率分布的数字数组？

假设我有 100 条记录我想模拟出created at日期以便它适合某些曲线有没有一个库可以做到这一点或者我可以使用什么公式我认为这是沿着同一条轨道生成具有概率分布的随机数我不太了解它们在数学中是如何分类的但我正在研究以下内
将 Django 项目从 MySQL 迁移到 PostgreSQL 的最简单方法

我想将 Django 项目的数据库从 MySQL 转换为 PostgreSQL 不幸的是我不能只使用 Django 的 dumpdata 和 loaddata 管理命令因为我的数据库表太大了我已经读过这篇文章了http www ofb
如何找到源代码中的所有注释？

注释有两种风格 C风格和C 风格如何识别它们 comments comments 我可以随意使用任何方法和第三个库为了可靠地查找 Java 源文件中的所有注释我不会使用正则表达式而是使用真正的词法分析器又名分词器 Java 的两个
通过jquery获取浏览器名称

我使用 jquery v1 9 1 我知道 jquery browser 在 1 9 中被删除但我必须使用它我使用迁移插件来获取浏览器类型它工作正常但对于 IE 11 和 firefox 25 jquery browser 显示相同
Discord.py 用户昵称更改

我一直在努力让自己成为一个机器人ArmA 3单元在此过程中我尝试创建一个Enlisting命令该命令将服务器中用户现有的昵称更改为他们登记时使用的昵称他们的昵称 ArmA士兵姓名但我在弄清楚如何做到这一点时遇到了一些困难我将在下面
Xcode 调试器：蓝色斜体文本是什么意思？

这是一个屏幕截图显然它表明我的结构的 x 坐标与 y 坐标不同但它们的值是相同的它们有何不同当我们这样做时这个应该更容易大写的 L 图标表示什么蓝色斜体文本表示该变量或表达式的值自上次程序暂停以来已更改绿色方块中的 L
如何计算熊猫的重叠并找到重叠的伙伴？

我很困惑如何最有效地做到这一点pandas 我有以下熊猫DataFrame 当前包含两列starts and ends 代表区间 1 10 5 15 and 3 8 import pandas as pd dict1 start 1 5 3

如何计算熊猫的重叠并找到重叠的伙伴？

如何计算熊猫的重叠并找到重叠的伙伴？ 的相关文章

随机推荐

热门标签

如何计算熊猫的重叠并找到重叠的伙伴？的相关文章