Python - 按索引对列表列表中的重复项进行分组

2023-12-12

我见过很多关于从列表中删除重复项并对其进行计数的问题。但我正在尝试找到将它们分组的最佳方法 - 列表列表。

鉴于此示例，我想按第三个字段进行分组：

[[1, "text", "name1", "text"],
 [2, "text", "name2", "text"],
 [3, "text", "name2", "text"],
 [4, "text", "name1", "text"]]

我想得到这个：

[[[1, "text", "name1", "text"],
  [4, "text", "name1", "text"]],
 [[2, "text", "name2", "text"],
  [3, "text", "name2", "text"]]]

我可以想到一种简单的方法，即循环并跟踪找到的内容（O(n^2)）。但我认为有更好的方法。

您可以排序并使用 groupby 但那是O(n log n):

from operator import itemgetter
from itertools import groupby

print([list(v) for _,v in groupby( sorted(l,key=itemgetter(2)),itemgetter(2))])

或者使用有序字典按第三个元素分组O(n)解决方案是使用第三个元素作为键并将子列表附加为值。 setdefault 将处理重复的键：

from collections import OrderedDict

od = OrderedDict()

for sub in l:
    od.setdefault(sub[2],[]).append(sub)
from pprint import pprint as pp
pp(od.values())
[[[1, 'text', 'name1', 'text'], [4, 'text', 'name1', 'text']],
[[2, 'text', 'name2', 'text'], [3, 'text', 'name2', 'text']]]

如果顺序不重要，您可以使用默认字典代替 OrderedDict。

如果顺序不重要，defaultdict 是迄今为止最有效的。

In [7]: from itertools import groupby

In [8]: from collections import OrderedDict, defaultdict                               

In [9]: l = [[1, "text", "name{}".format(choice(list(range(2000)))), "text"] for _ in xrange(40000)]

In [13]: from operator import  itemgetter

In [14]: timeit [list(v) for _,v in groupby( sorted(l,key=itemgetter(2)),itemgetter(2))]
10 loops, best of 3: 42.5 ms per loop

In [15]: %%timeit                                                                       
od = defaultdict(list)
for sub in l:
    od[sub[2]].append(sub)
   ....: 
100 loops, best of 3: 9.42 ms per loop

In [16]: %%timeit                                                                       
od = OrderedDict()
for sub in l:
     od.setdefault(sub[2],[]).append(sub)
   ....: 
10 loops, best of 3: 25.5 ms per loop

In [17]: lists = l

In [18]: %%timeit
   ....: groupers = set(l[2] for l in lists)
   ....: [filter(lambda x: x[2] == y, lists) for y in groupers]
   ....: 

1 loops, best of 3: 8.48 s per loop

In [19]: timeit l = [filter(lambda x: x[2] == y, lists) for y in   set(l[2] for l in lists)]
1 loops, best of 3: 8.29 s per loop

因此，如果顺序不重要，那么 defaultdict 会获胜，groupby 仍然表现得相当好，因为与二次方法相比，排序仍然相当便宜。正如您所看到的，随着数据的增长，过滤器的二次复杂度表现得很差。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

list

Python - 按索引对列表列表中的重复项进行分组的相关文章

Django：如何测试“HttpResponsePermanentRedirect”

我正在为我的 django 应用程序编写一些测试在我看来它使用 HttpResponseRedirect 重定向到其他一些网址那么我该如何测试呢姜戈TestCase类有一个方法assertRedirects https docs d
行未从树视图复制

该行未在树视图中复制我在按行并复制并粘贴到未粘贴的任何地方后制作了弹出复制 The code popup tk Menu tree opportunity tearoff 0 def row copy item tree opportun
从字符串到类型的词法转换

最近我尝试用Python存储和读取文件中的信息遇到了一个小问题我想从文本文件中读取类型信息从 string 到 int 或 float 的类型转换非常有效但从 string 到 type 的类型转换似乎是另一个问题当然我尝试了
在python中将文本文件解析为列表

我对 Python 完全陌生我正在尝试读取包含单词和数字组合的 txt 文件我可以很好地读取 txt 文件但我正在努力将字符串转换为我可以使用的格式 import matplotlib pyplot as plt import num
Python BeautifulSoup XML 解析

我编写了一个简单的脚本来使用 BeautifulSoup 模块解析 XML 聊天日志标准 soup prettify 工作正常只是聊天日志中有很多绒毛您可以在下面看到我正在使用的脚本代码和一些 XML 输入文件 Code import
Pandas重置索引未生效[重复]

这个问题在这里已经有答案了我不确定我在哪里误入歧途但我似乎无法重置数据帧上的索引当我跑步时test head 我得到以下输出正如您所看到的数据帧是一个切片因此索引超出范围我想做的是重置该数据帧的索引所以我跑test rese
如果字段值在外部列表中，Django 会注释布尔值

想象一下我有这个 Django 模型 class Letter models Model name models CharField max length 1 unique True 还有这个列表 vowels a e i o u 我想查询
Python igraph：从图中删除顶点

我正在使用安然电子邮件数据集并尝试删除没有 enron com 的电子邮件地址即我只想拥有安然电子邮件当我尝试删除那些没有 enron com 的地址时一些电子邮件由于某些原因被跳过下面显示了一个小图其中顶点是电子邮件地址这是
“char”/“character”类型的类型提示

char 或 character 没有内置的原始类型因此显然必须使用长度为 1 的字符串但是为了暗示这一点并暗示它应该被视为一个字符如何通过类型提示来实现这一点 grade chr A 一种方法可能是使用内置的 chr 函数来表示这一
无法打开 Python。错误 0xc000007b

我最近一直在学习 Python 3 我在我的上网本 32 位 Windows 7 上创建简单的小程序没有任何问题当我将它安装在我的上网本上时我没有遇到任何问题但现在我已经开始使用它了我想将它安装在我的台式机上并且我有一个我的桌面
spacy 如何使用词嵌入进行命名实体识别 (NER)？

我正在尝试使用以下方法训练 NER 模型spaCy识别位置人名和组织我试图理解如何spaCy识别文本中的实体但我无法找到答案从这个问题 https github com explosion spaCy issues 491在 Gi
将输入发送到 python 子进程而不等待结果

我正在尝试为一段代码编写一些基本测试该代码通常通过 stdin 无休止地接受输入直到给出特定的退出命令我想检查程序是否在给出一些输入字符串时崩溃经过一段时间来考虑处理但似乎无法弄清楚如何发送数据而不是陷入等待我不知道的输出关心我
无法截取宽度为 0 的屏幕截图

我正在尝试截取 Bootstrap 模态内元素的屏幕截图经过一番努力我终于想出了这段代码 driver get https enlinea sunedu gob pe driver find element by xpath div c
Airflow Python 单元测试？

我想为我们的 DAG 添加一些单元测试但找不到任何单元测试有 DAG 单元测试框架吗有一个端到端的测试框架存在但我猜它已经死了 https issues apache org jira browse AIRFLOW 79 https
如何通过字符串匹配加速 pandas 行过滤？

我经常需要过滤 pandas 数据框df by df df col name string value 并且我想加快行选择操作有没有快速的方法可以做到这一点例如 In 1 df mul df 3000 2000 3 reset inde
Scipy 稀疏 Cumsum

假设我有一个scipy sparse csr matrix代表下面的值 0 0 1 2 0 3 0 4 1 0 0 2 0 3 4 0 我想就地计算非零值的累积和这会将数组更改为 0 0 1 3 0 6 0 10 1 0 0 3 0 6
Python - 如何查询定义方法的类？

我的问题有点类似于this one https stackoverflow com questions 5520580 how do you get all classes defined in a module but not impor
Python组合目录中的所有csv文件并按日期时间排序

我有 2 年的每日数据分成每月文件我想将所有这些数据合并到一个按日期和时间排序的文件中我正在使用的代码组合了所有文件但不按顺序我正在使用的代码 import pandas as pd import glob os import cs
为什么我们应该在 def __init__(self, n) -> None: 中使用 -> ？

我们为什么要使用 gt in def init self n gt None 我读了以下摘录来自 PEP 484 https www python org dev peps pep 0484 the meaning of annotatio
如何禁止 celery 中的 pickle 序列化

Celery 默认使用 pickle 作为任务的序列化方法如中所述FAQ http ask github com celery faq html isn t using pickle a security concern 这代表一个安全漏

随机推荐

.load() 在 ipad 上不起作用

我有简单的脚本来检查图像但它在我的 iOS 5 1 的 iPad 上无法正常工作在图像中我收到 jpg 流因此加载必须在每个帧上工作如在 big safari 中但在 ipad 中它只触发一次可能有一些建议吗 image lo
使用指定编码记录多个模块和多个处理程序的最 Pythonic 方式是什么？

我正在寻找有关如何完成多模块和多处理程序日志记录的具体建议我在这里添加了简化的代码但我不想让答案产生偏差告诉我最佳实践是什么我想将所有内容记录到文件中并在控制台上发出警告这是我的level0 py我希望它记录到指定的文件 imp
primefaces 自动完成功能支持 f:param 或 f:attribute？

我读到核心 JSF 组件支持f param and f 属性标签以便将一些值传递到服务器端以用于封闭的 UI 组件我需要能够为 primefaces 的自动完成组件执行此操作这样自动完成方法就能够使用由f param or f 属性
YouTube 视频在片段中播放时卡住

我是 Android 新手我正在尝试在片段加载时播放 YouTube 视频这意味着打开应用程序时应该播放视频当我在活动中使用它时它可以工作 YouTubePlayerView 但是当我使用 YouTubePlayerSupportF
从类型中提取调用签名

给定一个包含调用签名和附加属性的类型例如 export interface Foo
python 中使用 O(1) 空间的自底向上斐波那契

我想使用 O 1 空间编写自下而上的斐波那契数我的问题是 python 的递归堆栈限制了我测试大量数据有人可以为我所拥有的提供替代或优化吗这是我的代码 def fib in place n def fibo f2 f1 i if i
激活手电筒应用程序的 LED

我正在尝试为我的 iPhone 制作一个手电筒应用程序我有一部 iPhone 4 想在我的项目中使用 iPhone 上的 LED 谁能帮助我开始使用它这是一个较短的版本您现在可以使用它来打开或关闭 LED void torchOnOf
如何从 ASP.NET Web 应用程序在特定时间发送邮件

我是 ASP NET 新手我有一个项目正在运行我需要每天中午12点向不同的用户发送不同的邮件我需要知道如何实现每天在某个时间段醒来的方法请帮助我提供尽可能多的细节因为我是一个完全的初学者 Use 石英网 Quartz NET 是一
将 Imgur API 与 Angular4 结合使用

我正在使用 Angular 开发一个 Web 应用程序但在使用 Imgur API 时遇到问题我的目标是建立一个表单用户可以选择其照片然后将其上传到 imgur 并将链接存储在存储图像的位置但是我有两个问题存储图像的最佳方式
如何构建 mtp 设备的路径（可在文件夹浏览对话框中使用）？

我实现了从Windows PC到Android设备的文件传输该设备通过MTP连接到计算机复制实现已准备就绪我使用了这个示例 http code msdn microsoft com windowsdesktop Portable De
NodeJS/express：缓存和 304 状态码

当我重新加载使用express制作的网站时我在Safari 而不是Chrome 中得到一个空白页面因为NodeJS服务器向我发送了304状态代码怎么解决这个问题呢当然这也可能只是 Safari 的问题但实际上它在所有其他网站上都
在python中设置http响应读取方法的超时

我正在用 python 构建一个下载管理器来娱乐有时与服务器的连接仍然存在但服务器不向我发送数据因此 HTTPResponse 的读取方法永远阻止我例如当我从位于我国境外的服务器下载时就会发生这种情况这会限制其他国家地区的
如何从命令行设置列表类型的 CMake 变量

我正在尝试做这样的事情 cmake G Visual Studio 15 2017 Win64 DCMAKE CONFIGURATION TYPES ReleaseDebug But the CMAKE CONFIGURATION TYPE
使用线程安全更新单例的属性

我们的设置是 Asp NET MVC5 使用 AutoFac 进行 DI 我们有一个类单例它管理各种服务的访问令牌有时这些令牌即将到期不到 10 分钟我们会请求新令牌并刷新它们我当前的实现如下所示 member int use
将 R 中 data.frame 的每一列中的所有值相加

给定这个数据集 Name Height Weight 1 Mary 65 110 2 John 70 200 3 Jane 64 115 我想对每个限定符列身高和体重求和 199 425 问题是限定符可能不止 2 个即更多不仅仅是身
JSF 为组件声明定义自定义命名空间

当您在 JSF 页面中使用外部库或自定义组件中的组件时您需要添加 xmlns 声明例如 xmlns util http java sun com jsf composite component util 我想知道如何在 Namasp
如何从视图中调用控制器 - Laravel

我有一个列出时间表的视图在该视图上每个时间表都有一个可交付成果字段我有一个 DeliverableController 它有一个操作 DropdownList 该操作调用模型并获取可交付成果列表并将它们推送到可交付成果视图这只是创建
如何给jqgrid添加Tooltip

我正在使用 jqgrid 显示服务器中存在的数据如何在鼠标悬停工具提示上显示数据描述在 jqgrid 上显示工具提示的最佳方式是什么鼠标悬停时 jqGrid 中显示的工具提示只不过是相应 HTML 元素的标题属性如果您想更改工具
Java将字符串转换为日期然后比较

我有一个二维字符串数组 static String TaskStorage Task 1 02 07 13 Task 2 02 08 13 Task 3 02 09 13 Task 4 02 10 13 Task 5 02 11 13 Ta
Python - 按索引对列表列表中的重复项进行分组

我见过很多关于从列表中删除重复项并对其进行计数的问题但我正在尝试找到将它们分组的最佳方法列表列表鉴于此示例我想按第三个字段进行分组 1 text name1 text 2 text name2 text 3 text name2 t

Python - 按索引对列表列表中的重复项进行分组

Python - 按索引对列表列表中的重复项进行分组 的相关文章

随机推荐

热门标签

Python - 按索引对列表列表中的重复项进行分组的相关文章