如何根据2个键删除重复的字典？

2023-12-11

我想删除基于 2 个键的重复字典。有没有更快的方法来做到这一点？

到目前为止我已经尝试过的。

def remove_duplicates(documents):
    unique_documents = [documents[0]]  # Initialize first dict
    for document in documents:
        for index, unique_document in enumerate(unique_documents):
            if unique_document['user'] == document['user']:
                if unique_document['text'] == document['text']:
                    # If the user and text are found, then it's a duplicate.
                    # Go to next document.
                    break
                if index == len(unique_documents)-1:
                    # If it reaches the last dict of the unique_documents,
                    # append to list because the dict is unique
                    unique_documents.append(document)

    return unique_documents

字典列表中每个字典有 7 个键，并使用上面的代码和测试数据99942 文件 took 1457.94099998s or 24mins来处理。有没有更有效的方法来做到这一点？

在最坏的情况下，您的方法需要 O(N**2) 时间（所有文档都是唯一的，您循环遍历每个测试文档的所有唯一文档）。

使用单独的集合来跟踪您已经见过的用户文本元组，这样您就可以将其简化为 O(N) 算法，而与唯一文档的数量无关。集合允许您在 O(1) 时间内测试对象是否存在，从而无需嵌套循环：

def remove_duplicates(documents):
    unique_documents = []
    seen = set()
    for document in documents:
        if (document['user'], document['text']) in seen:
            continue
        unique_documents.append(document)
        seen.add((document['user'], document['text']))

    return unique_documents

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

如何根据2个键删除重复的字典？的相关文章

如何在 django 中获取复选框值？

tr td td tr
如何从Python中的阿拉伯字符串中删除英文文本？

我有一个带有英文文本和标点符号的阿拉伯字符串我需要过滤阿拉伯文本我尝试使用 sting 删除标点符号和英语单词但是我失去了阿拉伯语单词之间的空格我哪里错了 import string exclude set string punc
有没有办法在 Altair 箱线图中格式化工具提示值

是否可以格式化箱线图工具提示中的值由此织女星文档 https vega github io vega lite docs boxplot html tooltip encoding channels 看起来是这样但我不太清楚如何使用 A
为什么any (True for ... if cond) 比any (cond for ...) 快得多？

检查列表是否包含奇数的两种类似方法 any x 2 for x in a any True for x in a if x 2 计时结果与a 0 10000000 每次尝试五次次数以秒为单位 0 60 0 60 0 60 0 61 0 6
在 Windows 上的 python2.5 上安装 Openpyxl

我努力了easy install install openpyxl and python setup install 两者都失败了我也尝试过easy install openpyxl并再次失败我包括了我得到的输出当我尝试时easy i
SQLAlchemy 在 MySQL 上使用什么列类型作为“文本”？

我的总体用例是试图确定我是否可以编写一个与数据库无关的至少支持 Postgres 和 MySQL 存储一些大数据作为原始文本认为 500MB 作为粗略的理论上限基于这个答案 https stackoverflow com a 2557
如何更改 Python 函数的表示形式？

gt gt gt def hehe return spam gt gt gt repr hehe
numpy 中用最少内存对上三角元素求和的最快方法

我需要进行此类求和i
忽略覆盖率报告中的空文件

覆盖率 py https github com nedbat coveragepy会包括 init py在其报告中并将其显示为 0 行但覆盖率为 100 我想从覆盖率报告中排除所有空白文件我不能只添加 init py to omit作为
在 Windows 上安装 PyGIMP

在网上我可以找到有关使用 python 编写 gimp 脚本的各种示例 http www jamesh id au software pygimp http www jamesh id au software pygimp http ww
Python 调试器是否会介入生成器？

我目前正在使用 NetBeans IDE 和 Jython 2 5 1 当逐步调试我的项目时一旦遇到生成器的迭代调试器就会直接转到代码末尾输出工作正常但是一旦满足第一个生成器就无法进行逐步调试这是所有 Python IDE 中 P
Pygame 旋转射击

我和几个朋友一直在编写一种有趣的新射击机制为了让它发挥作用我们需要朝玩家面对的方向射击 Sprite 正在使用 Pygame Transform Rotate 进行旋转我们怎样才能找到一个角度然后朝那个方向发射子弹呢这是我们的精灵
从 Java 调用 Python 代码时出现问题（不使用 jython）

我发现这是从 java 运行使用 exec 方法 python 脚本的方法之一我在 python 文件中有一个简单的打印语句但是我的程序在运行时什么也没做它既不打印Python文件中编写的语句也不抛出异常程序什么都不做就终止了
Pandas 对 HDFStore 中的大数据进行“分组”查询？

我有大约 700 万行HDFStore有60多个柱子数据超出了我的记忆能力我希望根据 A 列的值将数据聚合到组中 pandas 的文档分割聚合组合 http pandas pydata org pandas docs stable
我以为 Python 通过引用传递了所有内容？

采取以下代码 module functions py def foo input new val input new val module main py input 5 functions foo input 10 print input
为什么我只能在异步函数中使用await关键字？

假设我有这样的代码 async def fetch text gt str return text async def show something something await fetch text print something 这很
无法使用 Python 3 编写的 gzip.open() 将压缩文件上传到云存储

当我尝试在 Cloud Shell 实例上使用 python 脚本将压缩的 gzip 文件上传到云存储时它总是上传一个空文件这是重现错误的代码 import gzip from google cloud import storage s
计算列表中的子列表

L 2 4 5 6 2 1 6 6 3 2 4 5 3 4 5 我想知道任意子序列出现了多少次 s 2 4 5 例如会返回2次 I tried L count s 但它不起作用因为我认为它期望寻找类似的东西 random numbers
python生成器太慢，无法使用它。我为什么要使用它？什么时候？

最近我收到一个问题哪一个是最快的 iterator list comprehension iter list comprehension and generator 然后编写简单的代码如下 n 1000000 iter a iter ra
使用自定义层运行 Keras 模型时出现问题

我目前正在攻读学士学位论文FIIT STU https www fiit stuba sk en html page id 749 其主要目标是尝试复制和验证以下结果study http arxiv org abs 2006 00885 这

随机推荐

在 Ubuntu 18.04 上使用 Python3.6 安装底图

我一直在努力得到Basemap在过去的几个小时内已启动并运行下列的本教程 I run conda install basemap in my venv在 Pycharm 上安装按计划进行我在术语中收到一条消息指出已经安装了 base
如何在flutter上使用cookie发出http请求？

我想在正确处理 cookie 的同时向远程服务器发出 http 请求例如存储服务器发送的 cookie 并在发出后续请求时发送这些 cookie 最好保留所有 cookie 对于我正在使用的http请求 static Future
UserControl 的相对源绑定

我创建了一个UserControl用于在我的应用程序中显示超链接这个的标记UserControl好像
PayPal Orders V2 未处理批准 url

根据PayPal订单API作为此处的文档我们必须首先创建订单然后从响应中我们必须复制批准 url 并在浏览器中运行这将打开 PayPal 页面买家将批准该请求此后应发出捕获请求问题详情我有以下使用 PayPal API 创建
使 div 表现得像图像

如果 div 的背景是图像如何使 div 的大小调整属性的行为与图像标签的行为完全相同这个想法是复制图像标签在此代码片段中的行为方式 div background color 2DBCFF text align center box s
DocuSign Java Rest Api - 结合锚标记自定义文件和 PDF 表单字段转换（复合模板）

在我的应用程序中我有一个 PDF 包我将其合并并发送给 DocuSign 使用 SignHere 和 Initial here AnchorTags 可以完美地完成此操作但是我现在需要包含某些需要用户输入字段的 PDF 例如 W 9
Emacs Python：Echoing、Hooks 和 Org-mode

基于这个问题我发现了如何修复 emacs 中 python shell 的回显问题我想要做的是将其添加到我的 emacs 文件中以便它会自动发生 defun python startup setq comint process echo
Jquery 移动日期选择器未显示在弹出字段中

I used jtsage jquery mobile date picker 我想在单击弹出窗口内的文本时显示日期选择器但弹出窗口背面显示的日期选择器我想在弹出窗口前面显示日期选择器我的代码就像 div a href datepop
使用 smtp SendAsync 发送邮件

这就是当我需要发送电子邮件时给我带来错误的方式但此后给我的错误是这样的此时无法启动异步操作异步操作只能在异步处理程序中启动或者模块或页面生命周期中的某些事件期间如果这执行Page时发生异常请确保该Page是标记为此异常
页面加载时间减少 200 毫秒是否显着？ [关闭]

Closed 这个问题是无关目前不接受答案我在我开发的一个网站中使用实验室 js 进行了一些测试页面加载时间减少了 200 毫秒现在后端处理后花费的总时间约为1 5秒我在想是否值得这么麻烦 200ms 是一个巨大的增益吗可笑吗
一些非常基本的 HTML 中无法解释的偏移量 [重复]

这个问题在这里已经有答案了有时我发现自己处于这样的情况基本上非常简单的 HTML CSS 中有一些我不理解的偏移这是一个example div style width 100 height 92px div
Java JComboBox 是否可以将 editable true 设置为仅一项？

我想创建一个JComboBox上面有三个项目我想将其设置为仅可编辑到最后一个项目JComboBox例如 JComboBox cb new JComboBox cb addItem Dog cb addItem Cat cb addItem
如何使用 Selenium Python 从 reddit.com 搜索页面的问题中提取 title 和 href 属性

我想抓取页面上所有问题的链接和标题一个元素具有以下结构 a class SQnoC3ObvgnGjWt90zD9Z href r excel comments ayiahc calculating expiration dates pre
Python 请求模块中的 SSLError

我想使用从服务器生成的证书对客户端进行身份验证我有一个 server ca crt 下面是正在运行的 CURL 命令如何使用 python requests 模块发送类似的请求 curl X GET u sat username sat
http.get 解析错误，代码：“HPE_UNEXPECTED_CONTENT_LENGTH”

我有一个简单的节点脚本来处理来自我的家庭自动化 API 的一些数据直到上次 Node 更新之前一切都运行良好现在使用 Node 版本 4 3 0 或 5 6 0 http 模块会出现以下错误 Error Parse Error byt
如何从设备和打印机 IShellFolder 获取打印机名称？

我使用代码获取系统打印机图标我发现的唯一方法是使用 IShellFolder 现在我想将它们与 InstalledPrinters 连接但问题是我找不到找到真实打印机名称的方法例如 ServerName PrinterName 与
如何开始使用WCF/WPF？

我已经使用 net 有一段时间了这些天在我面试的所有地方我都不断被问及我对 NET 3 0 3 5 技术 WF WPF WCF 等的了解你如何开始学习这些有什么好的链接吗我应该更改当前的代码以开始像这样工作吗我尝试以学习新技术
处理 ASP.NET MVC 中的 JavaScript 注入

我们如何处理 asp net mvc C 应用程序中的 javascript 注入我可以在我的视图中使用 Html Encode 但问题是我也有 html 可以像博客文章一样显示在页面中我需要删除在应用程序的输入元素中输入的脚本我怎样
为什么 Prolog 将变量与直接插入时失败的结果相匹配？

我正在制作一个 Prolog 程序用于查找一组列表的子集该子集必须匹配一些特定条件其中一个方面是子集的列表不能相同让我困惑的是当我尝试查找变量 X 的匹配项时如果我将它们插入查询中代替 X 它会生成返回 false 的结果例如
如何根据2个键删除重复的字典？

我想删除基于 2 个键的重复字典有没有更快的方法来做到这一点到目前为止我已经尝试过的 def remove duplicates documents unique documents documents 0 Initialize fir

如何根据2个键删除重复的字典？

如何根据2个键删除重复的字典？ 的相关文章

随机推荐

热门标签

如何根据2个键删除重复的字典？的相关文章