在 numpy 中快速找到对称对

2024-04-25

from itertools import product
import pandas as pd

df = pd.DataFrame.from_records(product(range(10), range(10)))
df = df.sample(90)
df.columns = "c1 c2".split()
df = df.sort_values(df.columns.tolist()).reset_index(drop=True)
#     c1  c2
# 0    0   0
# 1    0   1
# 2    0   2
# 3    0   3
# 4    0   4
# ..  ..  ..
# 85   9   4
# 86   9   5
# 87   9   7
# 88   9   8
# 89   9   9
# 
# [90 rows x 2 columns]

如何快速查找、识别和删除该数据框中所有对称对的最后一个重复项？

对称对的一个示例是“(0, 1)”等于“(1, 0)”。后者应该被删除。

算法一定要快，所以推荐使用numpy。不允许转换为 python 对象。

您可以对值进行排序，然后groupby:

a= np.sort(df.to_numpy(), axis=1)
df.groupby([a[:,0], a[:,1]], as_index=False, sort=False).first()

Option 2: 如果你有很多对c1, c2, groupby可能会很慢。在这种情况下，我们可以分配新值并按以下条件过滤drop_duplicates:

a= np.sort(df.to_numpy(), axis=1) 

(df.assign(one=a[:,0], two=a[:,1])   # one and two can be changed
   .drop_duplicates(['one','two'])   # taken from above
   .reindex(df.columns, axis=1)
)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

NumPy

在 numpy 中快速找到对称对的相关文章

当你不需要Python中的索引时，如何创建For循环？ [复制]

这个问题在这里已经有答案了如果我需要一个forPython 中的循环 for i in range 1 42 print spam 但不要使用i对于任何事情 pylint 都会抱怨未使用的变量我应该如何处理这个问题我知道你可以这样做
如何在多个端口上运行 FastAPI 应用程序？

我有一个 FastAPI 应用程序正在使用 Uvicorn 以编程方式在端口 30000 上运行现在我也想在端口 8443 上运行相同的应用程序相同的应用程序需要在这两个端口上运行我怎样才能在Python代码中做到这一点最小可重现
python 2.7 字符 \u2013 [重复]

这个问题在这里已经有答案了我有以下代码 coding utf 8 print u William Burges 1827 81 was an English architect and designer 当我尝试从cmd运行它时我收到以
Redis SYNC 套接字上的错误情况：连接被拒绝

在我的 django 应用程序中使用 celery 和 redis 一切都工作正常直到我遇到了问题 redis 文件的位置已更改 redis 无法访问它们经过查找原来这是由于网络随机攻击造成的需要添加confg 我添加文件后一段时
Python 中意外的缩进错误[重复]

这个问题在这里已经有答案了我有一段简单的代码我不明白我的错误来自哪里解析器在第 5 行 if 语句上用意外的缩进向我咆哮有人看到这里的问题吗我不 def gen fibs a b 0 1 while True a b b a b
Python 有哪些重要的语言特性（习语）需要尽早学习[重复]

这个问题在这里已经有答案了我有兴趣了解 StackOverflow 社区认为 Python 的重要语言特性习语是什么将程序员定义为 Pythonic 的特征 Python pythonic 习语 Python 语言自然的或特有的代
如何动态构造方法？

我设计了一个类它非常标准具有一些方法属性 class foo def f1 self print f1 def f2 self print f2 def fn self print fn 现在我想创建一个包含一组 foo 实例的类 cl
单击按钮时执行 python 脚本

我有一个带有一个按钮的 HTML 页面当我们单击该按钮时我需要执行一个 python 脚本并返回到包含结果的同一 HTML 页面所以我需要对返回值进行一些验证并执行一些操作这是我的代码 HTML
如何使用生成器遍历文件系统？

我正在尝试创建一个实用程序类来遍历目录中的所有文件包括子目录和子子目录中的文件我尝试使用发电机因为发电机很酷然而我遇到了困难 def grab files directory for name in os listdir dire
UserDict 类的优点？

使用有什么好处UserDict class 我的意思是我真正得到的不是 class MyClass object def init self self a 0 self b 0 m MyClass m a 5 m b 7 我将写下以下内容
如何在 python 中将 selenium webelement 转换为字符串变量

from selenium import webdriver from time import sleep from selenium common exceptions import NoSuchAttributeException fr
如何找到运行代码的 conda 环境的名称？

我正在寻找一种好方法来从正在运行的代码或交互式 python 实例中找出我所在的 conda 环境的名称用例是我通过 miniconda 安装运行带有 Python 2 和 Python 3 内核的 Jupyter 笔记本默认环境是Py
如何在 Python 中小写字符串？

有没有办法将字符串转换为小写 Kilometers kilometers See How to change a string into uppercase https stackoverflow com questions 9257094
如何解析代码（Python）？

我需要解析一些特殊的数据结构它们采用某种类似 C 的格式大致如下所示 Group GroupName C Style comment Group AnotherGroupName Entry some variables 0 3 141
如何使用 python / pywinusb 将 hid 数据发送到设备？

我正在尝试使用 pywinusb 将输出报告发送到 pic18f4550 该设备可以接收数据我已经使用 C 应用程序对其进行了测试效果很好另外我可以使用 pywinusb 从设备读取数据但我在尝试发送数据时遇到问题这是我正在运行
抑制来自 python pandas 描述的名称 dtype

可以说我有 r pd DataFrame A 1 B pd Series 1 index list range 4 dtype float32 And r B describe mean std min max 给出输出 mean 1 0
如何编辑多个 Pandas DataFrame 浮点列的字符串格式？

我有一个pd DataFrame浮点数 import numpy as np import pandas as pd pd DataFrame np random rand 5 5 0 1 2 3 4 0 0 795329 0 125540
将 2D 数组中的每一列与另一个 2D 数组中的每一列相乘

我有两个 Numpy 数组x有形状 m i and y有形状 m j 所以行数是相同的我想将每一列相乘x每一列y逐元素使结果具有形状 m i j Example import numpy as np np random seed 1 x
Django - 在启动时执行代码

我正在使用 Django 1 9 3 我有一个包含多个应用程序的项目我想在项目启动时更新其中一个应用程序的表用例例如假设我想在我的网站上销售商品我有一个包含模型项目的应用程序我在 Django 之外有一个网络服务它提供服务 g
Python 用 lambda 函数封闭作用域变量

我写了这个简单的代码 def makelist L for i in range 5 L append lambda x i x return L 好的现在我打电话 mylist makelist 因为稍后调用嵌套函数时会查找封闭范围变量

随机推荐

我可以使用什么正则表达式来匹配以点十进制表示法表示的任何有效 IP 地址？

我可以使用什么正则表达式来匹配以点十进制表示法表示的任何有效 IP 地址 if ip d 1 3 d 1 3 d 1 3 d 1 3 1 lt 255 2 lt 255 3 lt 255 4 lt 255 print valid n els
如何使用 Jade 和 Node.js 迭代 JSON 数组

所以我有这个 JSON 数组apiData被传递到视图作为data Backend router get function req res var data JSON stringify apiData res render gallery
将 LINQ 序列中的项目发送到返回 void 的方法

通常当我处理 LINQ 序列时我希望将每个项目发送到返回 void 的方法从而避免 foreach 循环但是我还没有找到一种优雅的方法来做到这一点今天我写了如下代码 private StreamWriter sw privat
SimpleInjector 和 FluentValidationFactory

我正在尝试自动化视图模型的验证我知道我可以添加一个属性来指定我的验证但有一个选项可以设置一个工厂来自动化所有这些我查看了这个答案 https stackoverflow com questions 9984144 what is t
Nodejs mongodb驱动的同步函数调用

我有一个处理 mongodb 数据库的开源项目我正在尝试创建一个查询数据库以检查条目是否存在的函数问题是当if exists 返回 true 或 false 它会返回 undefined 因为 mongodb 驱动程序函数是异步的该文
将 pdf 文件转换为 tiff 文件的最佳方法 [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
intellij 是否可以像在 Eclipse 中一样组织导入？

我正在开发一个项目所有团队成员都使用 Eclipse 而我是唯一的 IDEA 用户这会因导入重新排列而产生大量噪音 eclipse导入的顺序是 Java Javax Org Com 其他一切按字母顺序排列是否可以配置 IDEA 来遵循
使用 Tkinter/Python 使用 ImageTk.PhotoImage 调整图像大小

我正在尝试使用 Tkinter 制作幻灯片但在调整图像大小时遇到问题它们仅显示为默认尺寸而我想让它们全部统一我可以使用 Image open 和调整大小来对单个图像执行此操作但我无法弄清楚如何让它在迭代中工作我将不胜感激的帮助
为了让 WCF 传递大字符串，在哪里增加 maxStringContentLength ？

好的我已经设置并测试了一个不错的小型 WCF 服务客户端创建一个字符串并将其传递给服务上的方法然后服务将其保存为文件与少量的测试数据完美配合但是当我尝试它应该做的事情时传递一些序列化的 net 对象它崩溃了并出现错误格式化
在 PHP 中打印货币数字格式

我的页面中要显示一些价格值我正在编写一个函数它接受浮动价格并返回带有货币代码的格式化货币 val 例如 fnPrice 1001 01 应该打印 1 000 01 最简单的答案是number format http www php ne
伊斯坦布尔封面报告对于摩卡测试是错误的（使用 Mongoose）

我已经尝试在伊斯坦布尔为我的申请进行封面测试一切似乎都工作正常但有些方法被标记为未涵盖并且我确信由于日志这些功能已被涵盖这是我想测试的代码使用 Mongoose var mongoose require mongoose Sc
使用 PHPExcel 将 Excel 中的单元格按行和列合并在一起

我需要使用以下命令按行合并 Excel xlsx 中的单元格并再次按列合并PHPExcel http phpexcel codeplex com downloads get 212184 我尝试了以下方法 sheet gt mergeCel
字符串数组上的 VBA“类型不匹配：需要数组或用户定义的类型”

我有一个全局声明的动态字符串 DMA 数组 Dim DMAs As String 我 ReDim 数组并在 CreateArrayOf 函数中为其赋值该函数的类型为 String 返回 String 类型的数组 DMAs CreateAr
我如何告诉 matplotlib 我已经完成了绘图？

下面的代码绘制了两个后记 http en wikipedia org wiki PostScript ps 文件但第二个文件包含这两行 import matplotlib import matplotlib pyplot as plt i
Android：更新后重新启动应用程序 - ACTION_PACKAGE_REPLACED

我的应用程序不在 Play 商店中请在网络上验证是否有新版本并下载并启动它安装后我想重新启动应用程序并使用BroadcastRecevier with ACTION PACKAGE REPLACED 这是代码播送 public voi
分支输出 Keras

我的模型分为 2 个输出层如下所示输入 gt L1 gt L2 gt L3 gt 输出1 输入 gt L1 gt L2 gt L3 gt 输出2 我这样使用它是因为我想要out1 and out2有2个不同的激活函数因此我创建了一个
D 中的特征可以用于类型类吗？

我是 D 新手我正在寻找一种使用类似 Haskell 的类型类进行编程的好方法例如D 中的函子幺半群等 Tango 或 Phobos 中是否实现了类似的功能我听说过可以对某些属性进行编译时类型检查的特征它们可以用于类型类吗我尝试
如何使用 git format-patch 将提交压缩到一个补丁中？

我在一个分支上有 8 个提交我想通过电子邮件发送给一些尚未了解 git 的人到目前为止我所做的一切要么给我 8 个补丁文件要么开始为分支历史记录中的每个提交提供补丁文件从一开始我使用 git rebase interactive
浏览器选项卡存储？

是否有一个浏览器存储只能由创建它的页面使用我正在制作一个 TamperMonkey 脚本来自动化我的工作当打开来自特定域的页面时会触发它然后它会在所述页面中找到特定链接同一域并在同一选项卡中将其打开如果新打开的页面符合条件则
在 numpy 中快速找到对称对

from itertools import product import pandas as pd df pd DataFrame from records product range 10 range 10 df df sample 90

在 numpy 中快速找到对称对

在 numpy 中快速找到对称对 的相关文章

随机推荐

热门标签

在 numpy 中快速找到对称对的相关文章