Python：快速提取大量列表中所有可能的2组合之间的交集

2024-06-18

我有一个大约的数据集。 9K 可变长度列表（1 到 100K 元素）。我需要计算交集的长度所有可能的 2 列表组合在此数据集中。请注意，每个列表中的元素都是唯一的，因此它们可以在 python 中存储为集合。

在 python 中执行此操作最有效的方法是什么？

Edit我忘记指定我需要能够将交集值与相应的列表对进行匹配。感谢大家的及时回复并对造成的困惑表示歉意！

如果你的集合存储在 s 中，例如：

s = [set([1, 2]), set([1, 3]), set([1, 2, 3]), set([2, 4])]

然后你可以使用itertools.combinations http://docs.python.org/library/itertools.html?highlight=itertools#itertools.combinations将它们两两相交，并计算交集（请注意，正如亚历克斯指出的那样，combinations仅自版本 2.6 起可用）。这里有一个列表理解（只是为了示例）：

from itertools import combinations
[ i[0] & i[1] for i in combinations(s,2) ]

或者，在一个循环中，这可能就是您所需要的：

for i in combinations(s, 2):
    inter = i[0] & i[1]
    # processes the intersection set result "inter"

因此，要获得其中每一个的长度，“处理”将是：

    l = len(inter)

这将非常有效，因为它使用迭代器来计算每个组合，并且不会提前准备所有组合。

Edit：请注意，使用此方法，列表“s”中的每个集合实际上可以是其他内容返回一个集合，就像发电机一样。如果您的内存不足，列表本身可以只是一个生成器。不过，它可能会慢得多，具体取决于您生成这些元素的方式，但您不需要同时将整个集合列表存储在内存中（这在您的情况下并不是一个问题）。

例如，如果每个集合都由一个函数组成gen:

def gen(parameter):
    while more_sets():
        # ... some code to generate the next set 'x'
        yield x

with open("results", "wt") as f_results:
    for i in combinations(gen("data"), 2):
        inter = i[0] & i[1]
        f_results.write("%d\n" % len(inter))

Edit 2：如何收集索引（根据 redrat 的评论）。

除了我在评论中回答的快速解决方案之外，收集集合索引的更有效方法是拥有一个列表(index, set)而不是一个列表set.

新格式的示例：

s = [(0, set([1, 2])), (1, set([1, 3])), (2, set([1, 2, 3]))]

如果您构建此列表是为了计算组合，那么适应您的新要求应该很简单。主循环变为：

with open("results", "wt") as f_results:
    for i in combinations(s, 2):
        inter = i[0][1] & i[1][1]
        f_results.write("length of %d & %d: %d\n" % (i[0][0],i[1][0],len(inter))

在循环，i[0] and i[1]将是一个元组(index, set), so i[0][1]是第一组，i[0][0]它的索引。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Python：快速提取大量列表中所有可能的2组合之间的交集的相关文章

整数 numpy 数组乘以浮点数

我有一个包含整数值的 numpy 数组如果我将整个矩阵乘以一个浮点数结果是一个浮点矩阵但如果我通过 for 循环逐列相乘它只给出整数部分 import numpy as np A np array 1 2 3 4 5 6 7 8 9
如何使用 pywin32 在 Python 中获取特定应用程序窗口的句柄？

我正在尝试修改一些在 Windows 10 中截取特定应用程序窗口屏幕截图的 Python 代码我正在尝试使用win32ui win32guipywin32 包中的模块用于此目的这是损坏的代码 def getWindow name Wi
OCaml：设置模块

我想使用 OCaml 生成数据集并在它们之间进行比较我看过模块类型的文档例如Set OrderType Set Make等等但我不知道如何初始化一组或以其他方式使用它们集合是使用函数接口定义的对于任何给定的类型您必须创建一个Se
Python select() 行为很奇怪

我在理解 select select 的行为时遇到一些困难请考虑以下 Python 程序 def str to hex s def dig n if n gt 9 return chr 65 10 n else return chr 48
使用python，自动确定用户当前时区的最准确方法是什么

我已经验证 dateutils tz tzlocal 在heroku上不起作用即使它起作用它不是只是从计算机的操作系统中获取tz 而不是用户吗如果没有存储用户时区有什么方法可以确定请求来自哪里我用的是烧瓶 Twitter 确实有一
如何在 pandas 中添加堆叠条形图孵化？（...或者如何在 pandas 绘图与 matplotlib 中获得 BarContainer 与 AxesSubplot ？）

我有一个使用的代码示例matplotlib pyplot plot 这是可行的我想复制它以在堆叠条形图上制作阴影条形段然而我一直在使用pandas DataFrame plot 代替matplotlib pyplot plot 并且也
当我执行 pip --version 时，它显示错误为 ImportError：没有名为 pyparsing 的模块

我尝试安装卸载py解析以及它不起作用我被这个问题困住了我还必须安装额外的库这是错误消息 Traceback most recent call last File usr bin pip line 5 in
转换为 Base 64 时，TypeError: 'str' 不支持缓冲区接口 [重复]

这个问题在这里已经有答案了 im Image open filePath load image self msg str bytearray list im getdata convert image data to string enco
限制并行工作的线程数量

我正在创建一个函数将文件从本地计算机复制到远程创建线程以并行执行 sftp def copyToServer does copy file given host name and credentials for i in hostsLis
AttributeError：模块“rest_framework.serializers”没有属性“NullBooleanField”

升级后djangorest框架 https pypi org project djangorestframework from djangorestframework 3 13 1 to djangorestframework 3 14 0
强制 shell 在 SunGrid 引擎中使用 conda 变量中的 python [重复]

这个问题在这里已经有答案了我正在尝试在 SunGrid 引擎中执行 python 文件并且从 anaconda3 环境变量中执行它我的代码很简单 from future import print function import url
使用 spaCy 添加多个 EntityRuler（ValueError：'entity_ruler' 已存在于管道中）

下列link https stackoverflow com questions 57477852 spacy matcher with entities spanning more than a single token展示如何在实体跨越
如何使用python在ID3v2 mp3文件上添加SYLT（同步歌词）标签？

我想使用 python 在我的 mp3 文件上添加来自 vtt 的同步歌词我尝试使用诱变模块但它没有按预期工作 from mutagen id3 import ID3 USLT SLT import sys import webvtt
python pandas 将两行或多行文本合并为一行

我有包含文本数据的数据框如下所示 name address number 1 Bob bob No 56 2 gmail com 3 Carly email protected cdn cgi l email protection No
django 返回记录的最近日期

我正在尝试从用户的多个记录中返回最近的日期当用户创建文档时创建日期存储在 CreatedDocumentDetails 模型中我无法返回用户最近创建的文档的日期我问这个关于SO的问题 https stackoverflow com
在 django 中运行普通 sql 查询时如何获取字段名称

在我的 django 视图之一中我使用纯 sql 不是 orm 查询数据库并返回结果 sql select from foo bar cursor connection cursor cursor execute sql rows cur
创建将一把小提琴按色调分割的小提琴图的正确方法是什么？

创建将一把小提琴分开的小提琴图的正确方法是什么hue 我尝试了不同的方法似乎唯一的方法是创建一个为数据集中的每个条目共享相同值的功能并将该功能的名称传递为x fig plt figure figsize 20 8 fig add sub
Scipy odeint 非负解

显然从 ODE 求解器获得非负解并非易事 https stackoverflow com questions 6977107 solving a delay differential equation dde system constra
如何使用 python 绘制具有两个斜率的线

我使用下面的代码绘制一条具有两个斜率的线如图所示斜率应该在一定限制 limit 5 之后下降我正在使用矢量化方法来设置斜率值还有其他方法来设置斜率值有人可以帮助我吗 import matplotlib pyplot as plt
Django 类视图未返回 HttpResponse 对象。它返回 None 相反

urls py from housepost views import ListingPost url r house post ListingPost as view name post house views py from djang

随机推荐

用于查找最近邻居的空间划分算法如何工作？

为了找到最近的邻居空间分区 http en wikipedia org wiki Nearest neighbor search Space partitioning是算法之一它是如何工作的假设我有一组 2D 点 x 和 y 坐标并
如何单独升级一个元素及其所有子元素

Using componentHandler upgradeAllRegistered 升级 DOM 中的所有匹配元素在我的例子中这是不必要的性能成本当我在 DOM 中插入一个元素时从父元素到根元素的任何内容都不需要重新升级只有该元
Ruby on Rails：Cucumber：如何点击打开新窗口的链接？

我有一个在新窗口中打开的链接我需要测试该新窗口中的应用程序部分任何建议将不胜感激定义一个包含以下代码的步骤 page driver browser switch to window page driver browser window
ListView 滚动时隐藏和显示浮动按钮

我正在我的应用程序中创建一个 listView 和一个浮动按钮我希望根据滚动状态实现隐藏和返回的效果当的时候ListView滚动时按钮隐藏得很好但是当滚动停止时按钮不会返回到其初始位置有任何想法吗 My Code public c
声明的包与预期的包“”不匹配

我正在使用 Eclipse 有一段时间没有使用 Java 了但是我可以在命令行上编译我的代码并生成必要的 class文件在 Eclipse 中它抱怨说The declared package Devices does not mat
Android Studio 无法在 Mac OSX (Mavericks) 上加载 JVM

我正在尝试在我的 Mac 上设置 Android Studio 它运行的是 OSX 10 9 1 Mavericks 我已经安装了最新的 JDK 在撰写本文时为 1 7 update 45 并且安装了 Android Studio 我使用
无法加载文件或程序集“System.Data.SqlServerCe，版本=4.0.0.0”

我在我的 C 代码中使用 Visual Studio 2012 Ultimate 和 SQL Server Compact 4 0 本地数据库创建了一个 ASP NET 网站不是 Web 应用程序我能够成功编译网站并将其发布到另一个使
Android问题：Eclipse找不到ADB.exe

首先我知道这个问题之前已经被问过即在我的工具文件夹中找不到 adb exe https stackoverflow com questions 4659014 could not find adb exe on my tools fo
Xamarin：找不到“libmonodroid.so”模拟器错误

我已经遇到这个问题几天了但还没有找到解决方案我一直在使用Android 7 0 ARM armeabi v7a 我的模拟器的图像因为它太慢了我一直在尝试使用Android 7 0 Intel Atom x86 64 with HAX
图书馆神经实验室培训纽夫

我对 python 和 Neurolab 的使用还很陌生我在前馈神经网络的训练方面遇到了问题我已经构建了如下网络 net nl net newff 1 1 64 60 1 net init testerr net train Input
更改文本值的脚本 - Javascript

从这个问题我开始知道文本元素的值可以通过JS改变设置选择列表中的最大项目数 html https stackoverflow com questions 6243303 set maximum number of item in selec
如何使用Spring Boot设置ElasticSearch的数据目录

我的问题类似于 1 https stackoverflow com questions 25687545 control elasticsearch configuration in spring data setup我有一个 Spring
批处理脚本 - 逐行读取

我有一个日志文件我需要逐行读入并将该行传送到下一个循环首先我在一个单独的文件中 grep 日志文件中的主字如错误以保持其较小现在我需要获取单独的文件并逐行读取它每行都需要进入另一个循环在这些循环中我 grep 日志并将
为什么在 Python 中“请求宽恕比获得许可更容易”？

为什么请求宽恕比获得许可更容易 EAFP https docs python org 2 glossary html term eafp 在Python中被认为是好的实践吗作为一名编程新手我的印象是使用很多try except与使用其
使用 TinyMCE 编辑器在 div 上进行 jquery-ui 排序会导致文本消失

请按照以下网址的说明进行操作 http www farinspace com multiple wordpress wysiwyg visual editors http www farinspace com multiple wordpr
“DataFrame”对象没有属性“isna”

我为我的一个项目改编了一种机器学习代码在我的笔记本电脑上运行良好的代码现在在我的台式机上出现问题我正在检查所有数据框列是否有缺失值 File g100 py line 11 in
pandas 按乘积而不是总和或计数进行分组

在 python pandas 中我想按列对数据帧进行分组然后对每个 ID 的行进行乘积求和和计数函数是存在的但是乘积呢 df2 pd DataFrame X B B A A Y 1 2 3 4 print df2 groupby
将密钥发送到进程的非活动窗口[重复]

这个问题在这里已经有答案了我想用 C 创建一个简单的程序它将 SPACE 键发送到非活动窗口或进程 Wow exe 然而我对 C 一无所知所以如果你想尝试帮助我请帮忙但如果你懒得向菜鸟解释也没关系所以基本上这个小程序将用于魔
在 Spring MVC（使用 hibernate Validator）中提交包含无效数据的表单时发送的语法错误请求

登录表单
Python：快速提取大量列表中所有可能的2组合之间的交集

我有一个大约的数据集 9K 可变长度列表 1 到 100K 元素我需要计算交集的长度所有可能的 2 列表组合在此数据集中请注意每个列表中的元素都是唯一的因此它们可以在 python 中存储为集合在 python 中执行此操作最有效

Python：快速提取大量列表中所有可能的2组合之间的交集

Python：快速提取大量列表中所有可能的2组合之间的交集 的相关文章

随机推荐

热门标签

Python：快速提取大量列表中所有可能的2组合之间的交集的相关文章