查找两个非常大的列表之间重叠的最快算法？

2024-03-15

我正在尝试用 Python 构建一个算法来过滤大量 RDF 数据。

我有一个包含大约 70,000 个项目的列表，格式如下<"datum">.

然后我有大约 6GB 的项目（三元组），格式如下<"A"> <"B"> <"C">

我想提取包含第一个列表中任何项目的所有三元组，然后从第一次提取中提取包含任何单个项目的任何三元组（最终效果是形成通过一步连接到种子的图的分区从第一个列表开始）。

我一直没能为此想出一个很好的算法（因为我没有接受过正式的 CS 训练，这对我没有帮助。）

到目前为止，我想到的最好的方法是首先将大列表中的三元组拆分为三个项目列表的列表[<"A">, <"B">, <"C">]。然后我将其分成块，并使用多重处理来创建进程，该进程获取完整的小列表和大列表的一部分......

for line in big list:
    for item in small list:
      if item in line:
       bucket.append(line)

这个算法需要相当长的时间。

有没有更快的方法来做到这一点？如果有具体的算法，你可以给我名字，我会弄清楚如何实现它。

Thanks!

每条评论的澄清：

所有数据项都是字符串。所以小列表可能包含["Mickey", "Mouse", "Minny", "Cat"]大名单可能是[["Mickey","Pluto","Bluto"],["John", "Jane", "Jim]...]
每个大列表三元组中只有一个项目需要与小列表中的一个项目相匹配才能计数
小列表中的所有项目实际上都是唯一的，所以我无论如何也不想将它们转换为集合。但我会尝试一下。
我可以创建任何我想要的中间结构。我现在正在尝试使用架子构建的倒排索引。

您可能应该首先将小列表存储在一个集合中，这样查找速度会更快。这可以防止 big_list 中的每个项目经历 70,000 次迭代。

small_list_set = set(small_list)
for line in big_list:
    for item in line:
        if item in small_list_set:
            bucket.append(line)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

Algorithm

list

rdf

查找两个非常大的列表之间重叠的最快算法？的相关文章

生成 Flask 中使用的签名会话 cookie 值

我正在用另一个需要将项目注入会话的 Flask 服务器代理 Flask 服务器两台服务器具有相同的密钥因此加密签名将相同当使用 Flask 和会话时 http 响应包含一个 Set Cookie 标头session text 其中 t
如何将人物传奇带到前台？

我有一系列子图其中每个子图都有一个图例我想在每个子图之外与相邻子图重叠问题在于图例位于其自己的图的顶部但位于相邻图的下方 Legend 不将 zorder 作为参数所以我不知道如何解决这个问题这是我使用过的代码 import
将文件标记为从 Python 中删除？

在我的一个脚本中我需要删除当时可能正在使用的文件我知道我无法删除正在使用的文件直到它不再使用为止但我也知道我可以将该文件标记为由操作系统 Windows XP 删除我将如何在 Python 中做到这一点以及另一个不依赖于 pyw
TCP打孔问题

我尝试使用 Python 3 中概述的原则为防火墙编写一个基本的 TCP 打孔器本文 http www bford info pub net p2pnat index html 不过我无法连接任何东西这是代码 usr bin pytho
Python，将字典存储在数据库中

在数据库中存储和检索 python 字典的最佳方法是什么如果您对使用传统 SQL 数据库例如 MySQL 不是特别感兴趣您可以研究非结构化文档数据库其中文档自然映射到 python 字典例如MongoDB http www mon
使用 Matplotlib 的范围绘制图像的 3D 轮廓

正如我所介绍的here https stackoverflow com questions 18792624 fits image input to a range in plot python 在二维中我想知道如何缩放要绘制到绘图中
Tensorflow 训练期间 GPU 使用率非常低

我正在尝试为 10 类图像分类任务训练一个简单的多层感知器这是 Udacity 深度学习课程作业的一部分更准确地说任务是对各种字体呈现的字母进行分类数据集称为 notMNIST 我最终得到的代码看起来相当简单但无论如何我在训练期间
如何将嵌套的Python字典转换为简单的命名空间？

假设我有一个深度为 N 的嵌套字典如何将每个内部嵌套字典转换为简单的命名空间 example input key0a test key0b key1a key2a keyNx key2b test key1b test example o
self.__dict__.update(**kwargs) 的风格是好是坏？

在 Python 中假设我有一些类 Circle 它继承自 Shape Shape 需要 x 和 y 坐标此外 Circle 需要半径我希望能够通过执行类似的操作来初始化 Circle c Circle x 1 y 5 r 3 Cir
Python 中嵌套列表的排序和分组

我有以下数据结构列表的列表 4 21 1 14 2008 10 24 15 42 58 3 22 4 2somename 2008 10 24 15 22 03 5 21 3 19 2008 10 24 15 45 45 6 21 1 1
自定义 Keras 损失函数中的 conv2d

我正在尝试基于两个图像的拉普拉斯算子在带有 TF 后端的 Keras 中实现自定义损失函数 def blur loss y true y pred weighting of blur loss alpha 1 mae losses mean
t /= d 是什么意思？ Python 和错误

t current time b begInnIng value c change In value d duration def easeOutQuad swing function x t b c d alert jQuery easi
进行异步调用时，“yield”在龙卷风中如何工作？

最近我在学习龙卷风简介我遇到了以下代码 class IndexHandler tornado web RequestHandler tornado web asynchronous tornado gen engine def get s
Python itertools groupby 中令人不安的奇怪行为/错误？

我在用itertools groupby解析一个短的制表符分隔的文本文件文本文件有几列我想做的就是对具有特定值的所有条目进行分组x在特定的列中下面的代码对名为的列执行此操作name2 寻找变量中的值x 我尝试使用以下方法来做到这一点c
如何连接多个字符串？ [复制]

这个问题在这里已经有答案了如何将 stringList 中的所有字符串合并为一个而不打印它例如 s joinStrings very hot day returns string print s Veryhotday 感觉有点倒退但是
执行许多插入重复键更新错误：未使用所有参数

所以我一直在尝试使用 python 2 7 15 使用 mysql connector 执行此查询但由于某种原因它似乎不起作用并且总是返回错误并非所有参数都被使用表更新有一个主键即 ID 这是我尝试运行此 SQL 的查询 sql
Python 包安装：pip 与 yum，还是两者一起安装？

我刚刚开始管理 Hadoop 集群我们使用 Bright Cluster Manager 直至操作系统级别 CentOS 7 1 然后使用 Ambari 以及适用于 Hadoop 的 Hortonworks HDP 2 3 我不断收到安装
Python 中的颜色处理

对于我的聚类 GUI 我目前对聚类使用随机颜色因为我事先不知道最终会得到多少个聚类在 Python 中这看起来像 import random def randomColor return random random random ra
Pandas：按日历周分组，然后绘制真实日期时间的分组条形图

EDIT 我找到了一个非常好的解决方案并将其发布在下面作为答案结果将如下所示您可以为此问题生成一些示例数据 codes list ABCDEFGH dates pd Series pd date range 2013 11 01 201
将 .parquet 编码为 io.Bytes

目标将 Parquet 文件上传到 MinIO 这需要将文件转换为字节我已经能够做到这一点了 csv json and txt bytes data to csv encode utf 8 bytes json dumps self d

随机推荐

这种模式似乎很详尽，但我仍然收到警告

我正在学习 sml 并编写了以下简单函数 Return a list with every other element of the input list fun everyOther everyOther x x everyOther x
使用键绑定在 VSCode 中执行预定义的查找替换全部

我似乎找不到可以从 VSCode 键绑定运行的记录命令的良好列表在在线 VSCode 文档中命令指南 https code visualstudio com api extension guides command列出了两种发现命令的方
具有下一个和上一个功能的一张一张显示图像

我已将图像存储在单独的文件夹图像中并创建了一个存储 letterNumber 的数据库并且每个 letterNumber 都关联了多个图像表 animages 如下 letterNo imageNo path height wid
Rails 4 find_by 是否已弃用？

我听说 find by 已被弃用这是真的吗我一直在考虑替代方案例如为每个人创建find另一种方法例如 before Model find by username username 后模型中 class lt lt self def
我可以使用异步函数进行无限递归而不产生堆栈溢出吗

我有一个异步函数我想调用它等待用户操作并在一些处理后解析 async function waitOnUserInput 我想等待用户输入进行一些处理并重复所以我想像这样递归地实现这个 async function actionUser
模态呈现的视图控制器的透明背景

我正在使用 Parse 和 ParseUI 我希望我的 PFLoginViewController 子类具有透明背景将来我想在背景上放置一个模糊的视图但是一旦 PFMLogin ViewController 的动画输入完成背景就会
电子表格函数根据另一列的条件对一列中的所有值求和

我想要一个电子表格函数当 A 列等于时它将生成 B 列中所有值的总和X当它等于Y A B X 10 Y 3 X 7 X 22 Y 4 Y 9 输出应如下所示其中39 and 16是公式的结果 X 39 gt 10 7 22 Y 16
如何在 Spring 中创建默认的可重写组件？

我正在尝试创建一个Component那将是Autowired除非用户创建不同的实现我使用以下代码来尝试隔离问题界面 public interface A 实施 Component ConditionalOnMissingBean A c
当声明这样的指针时，“pointer[restrict static 1]”会带来什么优化好处？

我正在阅读库 QNNPack 的源代码并注意到这一行 https github com pytorch QNNPACK blob 24d57f21503ba8ab0f8bb5d24148754a91266b9c src q8gemm 6x4
用于匹配 C# 字符串文字的正则表达式

我正在尝试写一个正则表达式 http en wikipedia org wiki Regular expression它将匹配包含以下形式的名称值对的字符串
如何在 TypeScript 中向装饰器添加可选参数？

我想创建一个可以选择接受参数的字段装饰器该参数应包含以下任意值无布尔值或函数我知道如何做到这一点但我对结果并不是 100 满意 export class TestClass Required isRequired public t
使用公钥/私钥而不是共享密钥进行 IdentityServer 客户端身份验证

我正在尝试使用公钥私钥而不是 IdentityServer4 的客户端机密的共享机密这种方法有记录here https identityserver4 readthedocs io en latest topics secrets ht
UICollectionView 中的动画滚动到项目并不总是有效

Problem 我想让 UICollectionView 对特定项目进行动画滚动这在大多数情况下都有效但有时我尝试滚动到的项目最终没有显示出来 Code void onClick Possibly recompute the items
如何设置 Docker 容器内的 Wildfly 堆大小？

我正在尝试增加 docker 容器中 Wildfly 的堆大小这可以通过更新轻松完成wildfly bin standalone conf在常规的野蝇设置中我们的 Wildfly 基础 docker 镜像的默认堆大小为512 MB这需要
为什么 POST 重定向到 GET，PUT 重定向到 PUT？

我正在使用快递4 13 3 最新和以下代码 var express require express var app express app get test function req res next res send hello app
在内存中有数百万个六面体的情况下，在结构和类之间做出决定来表示六面体[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我在 net 4 5 上遇到了一个非常重要的设计问题我有一个应该有数百万个六面体的网格每个六面体有 8 个点和 6 个四边形面每个四
使用Python的xml.etree查找元素开始和结束字符偏移量

我的 XML 数据如下所示
使用 DotnetopenAuth 时报告和记录错误

想要连接 Withings API 我在另一个项目中使用了相同的控制器他在那里工作得很好在站点是 Azure webrole 的项目中不知道这是怎么回事它不起作用首先我得到了 DotNetOpenAuth Reporting 的类
android创建不带_app前缀的内部存储文件夹

我正在使用以下代码成功在内部存储器上创建文件夹但添加了前缀 app 因此如果我创建 applications 文件夹它将被命名为 app aplications 如何关闭它并设置所需的名称谢谢 public class Direct
查找两个非常大的列表之间重叠的最快算法？

我正在尝试用 Python 构建一个算法来过滤大量 RDF 数据我有一个包含大约 70 000 个项目的列表格式如下 lt datum gt 然后我有大约 6GB 的项目三元组格式如下 lt A gt lt B gt lt C gt

查找两个非常大的列表之间重叠的最快算法？

查找两个非常大的列表之间重叠的最快算法？ 的相关文章

随机推荐

热门标签

查找两个非常大的列表之间重叠的最快算法？的相关文章