Pandas：如何根据不同列的值对列元素的组合进行分组以指示共现？

2023-12-25

我有一个以下形式的 pandas 数据框df,

Batch_ID    Product_ID
   1            A
   1            B
   1            C
   2            B
   2            B
   2            C
   2            C
   3            B
   3            B
   3            C
   4            C
   4            D
   5            D

我想从中获得一个边缘列表，本质上是一个新的数据框边列表df（我无法将其转换为 networkx 对象）的形式，

Source       Target         Weight
  A             B             1.0
  A             C             1.0
  A             D             0.0
  B             C             3.0
  B             D             0.0
  C             D             1.0

请注意，我在示例中给出了多种不同的可能性，以确保我的问题清晰。例如，即使对于 Batch_ID=2，B-C 组合出现两次，计数器也不会增加两次。

实现这一目标最有效的方法是什么？

这是我的看法：

from itertools import combinations

def combine(batch):
    """Combine all products within one batch into pairs"""
    return pd.Series(list(combinations(set(batch), 2)))

edges = df.groupby('Batch_ID')['Product_ID'].apply(combine).value_counts()
edges
#(B, C)    3
#(A, B)    1
#(A, C)    1
#(D, C)    1

据我了解，实际上并不需要 0 次出现的边。

如果需要，您可以将索引进一步拆分为源索引和目标索引：

edges = edges.reset_index()
edges = pd.concat([edges, edges['index'].apply(pd.Series)], axis=1)
edges.drop(['index'], axis=1, inplace=True)
edges.columns = 'Weight','Source','Target'
#       Weight Source Target
#0       3      B      C
#1       1      A      B
#2       1      A      C
#3       1      D      C

Or:

c = ['Source', 'Target']
L = edges.index.values.tolist()
edges = pd.DataFrame(L, columns=c).join(edges.reset_index(drop=True))

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

NumPy

networkx

Pandas：如何根据不同列的值对列元素的组合进行分组以指示共现？的相关文章

需要在python中找到print或printf的源代码[关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 我正在做一些我不能完全谈论的事情我
跟踪 pypi 依赖项 - 谁在使用我的包

无论如何是否可以通过 pip 或 PyPi 来识别哪些项目在 Pypi 上发布可能正在使用我的包也在 PyPi 上发布我想确定每个包的用户群以及可能尝试积极与他们互动预先感谢您的任何答案即使我想做的事情是不可能的这实际上是不
删除flask中的一对一关系

我目前正在使用 Flask 开发一个应用程序并且在删除一对一关系中的项目时遇到了一个大问题我的模型中有以下结构 class User db Model tablename user user id db Column db String
Python zmq SUB 套接字未接收 MQL5 Zmq PUB 套接字

我正在尝试在 MQL5 中设置一个 PUB 套接字并在 Python 中设置一个 SUB 套接字来接收消息我在 MQL5 中有这个 include
立体太阳图 matplotlib 极坐标图 python

我正在尝试创建一个与以下类似的简单的立体太阳路径图 http wiki naturalfrequent com wiki Sun Path Diagram http wiki naturalfrequency com wiki Sun Pa
使用 xlrd 打开 BytesIO (xlsx)

我正在使用 Django 需要读取上传的 xlsx 文件的工作表和单元格使用 xlrd 应该可以但因为文件必须保留在内存中并且可能不会保存到我不知道如何继续的位置本例中的起点是一个带有上传输入和提交按钮的网页提交后文件被捕获req
如何在 Python 中解析和比较 ISO 8601 持续时间？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我正在寻找一个 Python v2 库它允许我解析和比较 ISO 8601 持续时间may处于不同单
如何使用 Mysql Python 连接器检索二进制数据？

如果我在 MySQL 中创建一个包含二进制数据的简单表 CREATE TABLE foo bar binary 4 INSERT INTO foo bar VALUES UNHEX de12 然后尝试使用 MySQL Connector P
Docker 中的 Python 日志记录

我正在 Ubuntu Web 服务器上的 Docker 容器中测试运行 python 脚本我正在尝试查找由 Python Logger 模块生成的日志文件下面是我的Python脚本 import time import logging
Numpy - 根据表示一维的坐标向量的条件替换数组中的值

我有一个data多维数组最后一个是距离另一方面我有距离向量r 例如 Data np ones 20 30 100 r np linspace 10 50 100 最后我还有一个临界距离值列表称为r0 使得 r0 shape Dat
javascript 是否有等效的 __repr__ ？

我最接近Python的东西repr这是 function User name password this name name this password password User prototype toString function r
pip 列出活动 virtualenv 中的全局包

将 pip 从 1 4 x 升级到 1 5 后pip freeze输出我的全局安装系统软件包的列表而不是我的 virtualenv 中安装的软件包的列表我尝试再次降级到 1 4 但这并不能解决我的问题这有点类似于这个问题 http
从 NumPy ndarray 中选择行

我只想从 a 中选择某些行NumPy http en wikipedia org wiki NumPy基于第二列中的值的数组例如此测试数组的第二列包含从 1 到 10 的整数 gt gt gt test numpy array nump
仅第一个加载的 Django 站点有效

我最近向 stackoverflow 提交了一个问题标题为使用mod wsgi在apache上多次请求后Django无限加载 https stackoverflow com questions 71705909 django infini
如何使用原始 SQL 查询实现搜索功能

我正在创建一个由 CS50 的网络系列指导的应用程序这要求我仅使用原始 SQL 查询而不是 ORM 我正在尝试创建一个搜索功能用户可以在其中查找存储在数据库中的书籍列表我希望他们能够查询书籍表中的 ISBN 标题作者列目前它
python import inside函数隐藏现有变量

我在我正在处理的多子模块项目中遇到了一个奇怪的 UnboundLocalError 分配之前引用的局部变量问题并将其精简为这个片段使用标准库中的日志记录模块 import logging def foo logging info fo
实现 XGboost 自定义目标函数

我正在尝试使用 XGboost 实现自定义目标函数在 R 中但我也使用 python 所以有关 python 的任何反馈也很好我创建了一个返回梯度和粗麻布的函数它工作正常但是当我尝试运行 xgb train 时它不起作用然后我
如何应用一个函数 n 次？ [关闭]

Closed 这个问题需要细节或清晰度 help closed questions 目前不接受答案假设我有一个函数它接受一个参数并返回相同类型的结果 def increment x return x 1 如何制作高阶函数repeat可以
更改 Tk 标签小部件中单个单词的颜色

我想更改 Tkinter 标签小部件中单个单词的字体颜色我知道可以使用文本小部件来实现与我想要完成的类似的事情例如使单词 YELLOW 显示为黄色 self text tag config tag yel fg clr yellow s
cv2.VideoWriter：请求一个元组作为 Size 参数，然后拒绝它

我正在使用 OpenCV 4 0 和 Python 3 7 创建延时视频构造 VideoWriter 对象时文档表示 Size 参数应该是一个元组当我给它一个元组时它拒绝它当我尝试用其他东西替换它时它不会接受它因为它说参数不是

随机推荐

是否可以仅将一个类的 MediaTypeFormatter 更改为 JSON？

我有一个 Web api 其中全局配置配置为使用 XmlMediaTypeFormatter 我的问题是我不会使用新的控制器扩展此 Web api 而是使用 JsonMediaTypeFormatter 是否可以仅将一个 API 控制器类的
如何以编程方式从共享点文档库下载文件

在按钮单击事件或链接按钮单击时我想从共享点文档库下载文档并将其保存到用户的本地磁盘请帮助我如果您有任何代码示例请分享输出文件的直接链接的问题是对于某些内容类型它可能只是在浏览器窗口中打开如果这不是所需的结果并且您想要强制保
如何存储 Websphere MQ 消息以实现持久性？

Websphere MQ 消息存储在数据库还是文件系统中我可以将其配置为使用 MySQL 吗 WebSphere MQ 持久性始终是分布式平台的本地文件系统在大型机上可以在具有耦合设施的 Sysplex 中使用 DB2 数据库但对于
Deno 顶级等待

正在阅读homepage https deno land 新的 JS 运行时 deno 我看到了下面的代码 import serve from https deno land email protected cdn cgi l email
使用 Gulp 较新版本的 Gulp Vinyl FTP 没有注意到文件中的更改，因此没有部署更新：时区问题

解决我构建了一个 gulp 插件来解决这个问题 https www npmjs com package gulp mtime Correction https www npmjs com package gulp mtime correc
如何使用 mvcsitemapprovider 呈现特定站点地图部分

假设我有站点地图
Oxite：你打算用它做什么？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
在 Nginx 配置中运行 Lua？

因此当涉及到 Google 搜索时可能只是我不是超级聪明或超级不幸但我实际上找不到任何方法可以在 Nginx 配置中运行 Lua 而无需使用 LuaJIT 重新编译整个服务器问题是我们希望对一些变量进行微小的编辑而不必在每次构建
如何使用 pymodbus 写入 PLC 输入寄存器

我想使用 pymodbus 写入 PLC 输入寄存器我能够阅读它们 from pymodbus client sync import ModbusTcpClient client ModbusTcpClient 10 10 10 32 c
如何为新的面板类重用现有的布局代码？

tl dr 我想重用预定义的现有布局逻辑WPF面板 https msdn microsoft com en us library system windows controls panel 28v vs 110 29 aspx用于自定义 W
如何将自定义用户信息表添加到django中的auth_user_groups？

我有一个用户表 UserInfo 并创建了两个组 admin 和普通用户并授予这些组一些权限我根据用户的类型将用户添加到特定组即如果用户是管理员我会将管理员的权限授予该用户现在我想检查特定用户是否具有权限并且我想将该用户添加到
两个 java.util.Iterators 到同一个集合：它们是否必须以相同的顺序返回元素？

这更多的是一个理论问题如果我有一个任意集合c没有订购我得到了两个java util Iterator通过调用c iterator 两次两个迭代器都必须返回吗c的元素顺序相同吗我的意思是实际上他们可能总是会这样做但是他们是通过合同
使用 VBA 循环遍历文件夹中的文件？

我想使用循环遍历目录的文件vba questions tagged vba在 Excel 2010 中在循环中我需要文件名以及文件格式化的日期我编写了以下代码如果文件夹中的文件不超过 50 个则该代码可以正常工作否则速度会
使用 Google 地图时超过 OVER_QUERY_LIMIT

我在从应用程序访问谷歌地图时遇到问题当我从 java 脚本循环发送超过 10 个请求时我从地理编码器服务中收到 OVER QUERY LIMIT 异常有什么方法可以摆脱这个问题我尝试使用 setInterval 等给予一些时间延迟
iOS 8 - 设置状态栏颜色（当您的导航栏背景图像为零时）

我在我的应用程序中使用视图寻呼机特别是 ICViewPager 要使视图寻呼机融入导航栏如下所示我必须将这些代码行放入我的AppDelegate m UINavigationBar appearance setBackgroundIm
递归搜索给定名称的文件，查找特定短语的实例并显示该文件的路径

我有一堆文件夹和子文件夹除其他外每个文件都包含一个名为index yml与有用的数据我想搜索所有不同的index yml文件来查找搜索字符串的实例我必须能够看到几行上下文和目录index yml找到的文件这几乎有效但它没有给我文
有谁知道'top'命令的结果在android中的含义吗？

我发现 top 的结果与标准linux中的结果不同我在网上搜索了一下但找不到答案例如以下是我的android中top的部分结果 PID CPU S THR VSS RSS PCY UID Name 814 2 R 1 940K 37
你用过KMP或者BM算法吗？

我知道KMP Knuth Morris Pratt 和BM Boyers Moore 算法都是很好的字符串搜索操作算法我还知道BM比KMP快3 5倍在您的行业软件编程经验中您是否使用过BM或KMP算法算法在这里真的很重要吗如果你看
纯虚方法调用错误

我有以下定义 class PartitioningMethod public virtual void addConstraints ConstraintManager cm 0 virtual bool hasMoreConstraint
Pandas：如何根据不同列的值对列元素的组合进行分组以指示共现？

我有一个以下形式的 pandas 数据框df Batch ID Product ID 1 A 1 B 1 C 2 B 2 B 2 C 2 C 3 B 3 B 3 C 4 C 4 D 5 D 我想从中获得一个边缘列表本质上是一个新的数据框边

Pandas：如何根据不同列的值对列元素的组合进行分组以指示共现？

Pandas：如何根据不同列的值对列元素的组合进行分组以指示共现？ 的相关文章

随机推荐

热门标签

Pandas：如何根据不同列的值对列元素的组合进行分组以指示共现？的相关文章