Python - 按索引对列表列表中的重复项进行分组

2023-12-12

我见过很多关于从列表中删除重复项并对其进行计数的问题。但我正在尝试找到将它们分组的最佳方法 - 列表列表。

鉴于此示例,我想按第三个字段进行分组:

[[1, "text", "name1", "text"],
 [2, "text", "name2", "text"],
 [3, "text", "name2", "text"],
 [4, "text", "name1", "text"]]

我想得到这个:

[[[1, "text", "name1", "text"],
  [4, "text", "name1", "text"]],
 [[2, "text", "name2", "text"],
  [3, "text", "name2", "text"]]]

我可以想到一种简单的方法,即循环并跟踪找到的内容(O(n^2))。但我认为有更好的方法。


您可以排序并使用 groupby 但那是O(n log n):

from operator import itemgetter
from itertools import groupby

print([list(v) for _,v in groupby( sorted(l,key=itemgetter(2)),itemgetter(2))])

或者使用有序字典按第三个元素分组O(n)解决方案是使用第三个元素作为键并将子列表附加为值。 setdefault 将处理重复的键:

from collections import OrderedDict

od = OrderedDict()

for sub in l:
    od.setdefault(sub[2],[]).append(sub)
from pprint import pprint as pp
pp(od.values())
[[[1, 'text', 'name1', 'text'], [4, 'text', 'name1', 'text']],
[[2, 'text', 'name2', 'text'], [3, 'text', 'name2', 'text']]]

如果顺序不重要,您可以使用默认字典代替 OrderedDict。

如果顺序不重要,defaultdict 是迄今为止最有效的。

In [7]: from itertools import groupby

In [8]: from collections import OrderedDict, defaultdict                               

In [9]: l = [[1, "text", "name{}".format(choice(list(range(2000)))), "text"] for _ in xrange(40000)]

In [13]: from operator import  itemgetter

In [14]: timeit [list(v) for _,v in groupby( sorted(l,key=itemgetter(2)),itemgetter(2))]
10 loops, best of 3: 42.5 ms per loop

In [15]: %%timeit                                                                       
od = defaultdict(list)
for sub in l:
    od[sub[2]].append(sub)
   ....: 
100 loops, best of 3: 9.42 ms per loop

In [16]: %%timeit                                                                       
od = OrderedDict()
for sub in l:
     od.setdefault(sub[2],[]).append(sub)
   ....: 
10 loops, best of 3: 25.5 ms per loop

In [17]: lists = l

In [18]: %%timeit
   ....: groupers = set(l[2] for l in lists)
   ....: [filter(lambda x: x[2] == y, lists) for y in groupers]
   ....: 

1 loops, best of 3: 8.48 s per loop

In [19]: timeit l = [filter(lambda x: x[2] == y, lists) for y in   set(l[2] for l in lists)]
1 loops, best of 3: 8.29 s per loop

因此,如果顺序不重要,那么 defaultdict 会获胜,groupby 仍然表现得相当好,因为与二次方法相比,排序仍然相当便宜。正如您所看到的,随着数据的增长,过滤器的二次复杂度表现得很差。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Python - 按索引对列表列表中的重复项进行分组 的相关文章

  • Django:如何测试“HttpResponsePermanentRedirect”

    我正在为我的 django 应用程序编写一些测试 在我看来 它使用 HttpResponseRedirect 重定向到其他一些网址 那么我该如何测试呢 姜戈TestCase类有一个方法assertRedirects https docs d
  • 行未从树视图复制

    该行未在树视图中复制 我在按行并复制并粘贴到未粘贴的任何地方后制作了弹出复制 The code popup tk Menu tree opportunity tearoff 0 def row copy item tree opportun
  • 从字符串到类型的词法转换

    最近 我尝试用Python存储和读取文件中的信息 遇到了一个小问题 我想从文本文件中读取类型信息 从 string 到 int 或 float 的类型转换非常有效 但从 string 到 type 的类型转换似乎是另一个问题 当然 我尝试了
  • 在python中将文本文件解析为列表

    我对 Python 完全陌生 我正在尝试读取包含单词和数字组合的 txt 文件 我可以很好地读取 txt 文件 但我正在努力将字符串转换为我可以使用的格式 import matplotlib pyplot as plt import num
  • Python BeautifulSoup XML 解析

    我编写了一个简单的脚本来使用 BeautifulSoup 模块解析 XML 聊天日志 标准 soup prettify 工作正常 只是聊天日志中有很多绒毛 您可以在下面看到我正在使用的脚本代码和一些 XML 输入文件 Code import
  • Pandas重置索引未生效[重复]

    这个问题在这里已经有答案了 我不确定我在哪里误入歧途 但我似乎无法重置数据帧上的索引 当我跑步时test head 我得到以下输出 正如您所看到的 数据帧是一个切片 因此索引超出范围 我想做的是重置该数据帧的索引 所以我跑test rese
  • 如果字段值在外部列表中,Django 会注释布尔值

    想象一下我有这个 Django 模型 class Letter models Model name models CharField max length 1 unique True 还有这个列表 vowels a e i o u 我想查询
  • Python igraph:从图中删除顶点

    我正在使用安然电子邮件数据集 并尝试删除没有 enron com 的电子邮件地址 即我只想拥有安然电子邮件 当我尝试删除那些没有 enron com 的地址时 一些电子邮件由于某些原因被跳过 下面显示了一个小图 其中顶点是电子邮件地址 这是
  • “char”/“character”类型的类型提示

    char 或 character 没有内置的原始类型 因此显然必须使用长度为 1 的字符串 但是为了暗示这一点并暗示它应该被视为一个字符 如何通过类型提示来实现这一点 grade chr A 一种方法可能是使用内置的 chr 函数来表示这一
  • 无法打开 Python。错误 0xc000007b

    我最近一直在学习 Python 3 我在我的上网本 32 位 Windows 7 上创建简单的小程序没有任何问题 当我将它安装在我的上网本上时 我没有遇到任何问题 但现在我已经开始使用它了 我想将它安装在我的台式机上 并且我有一个 我的桌面
  • spacy 如何使用词嵌入进行命名实体识别 (NER)?

    我正在尝试使用以下方法训练 NER 模型spaCy识别位置 人 名和组织 我试图理解如何spaCy识别文本中的实体 但我无法找到答案 从这个问题 https github com explosion spaCy issues 491在 Gi
  • 将输入发送到 python 子进程而不等待结果

    我正在尝试为一段代码编写一些基本测试 该代码通常通过 stdin 无休止地接受输入 直到给出特定的退出命令 我想检查程序是否在给出一些输入字符串时崩溃 经过一段时间来考虑处理 但似乎无法弄清楚如何发送数据而不是陷入等待我不知道的输出关心 我
  • 无法截取宽度为 0 的屏幕截图

    我正在尝试截取 Bootstrap 模态内元素的屏幕截图 经过一番努力 我终于想出了这段代码 driver get https enlinea sunedu gob pe driver find element by xpath div c
  • Airflow Python 单元测试?

    我想为我们的 DAG 添加一些单元测试 但找不到任何单元测试 有 DAG 单元测试框架吗 有一个端到端的测试框架存在 但我猜它已经死了 https issues apache org jira browse AIRFLOW 79 https
  • 如何通过字符串匹配加速 pandas 行过滤?

    我经常需要过滤 pandas 数据框df by df df col name string value 并且我想加快行选择操作 有没有快速的方法可以做到这一点 例如 In 1 df mul df 3000 2000 3 reset inde
  • Scipy 稀疏 Cumsum

    假设我有一个scipy sparse csr matrix代表下面的值 0 0 1 2 0 3 0 4 1 0 0 2 0 3 4 0 我想就地计算非零值的累积和 这会将数组更改为 0 0 1 3 0 6 0 10 1 0 0 3 0 6
  • Python - 如何查询定义方法的类?

    我的问题有点类似于this one https stackoverflow com questions 5520580 how do you get all classes defined in a module but not impor
  • Python组合目录中的所有csv文件并按日期时间排序

    我有 2 年的每日数据分成每月文件 我想将所有这些数据合并到一个按日期和时间排序的文件中 我正在使用的代码组合了所有文件 但不按顺序 我正在使用的代码 import pandas as pd import glob os import cs
  • 为什么我们应该在 def __init__(self, n) -> None: 中使用 -> ?

    我们为什么要使用 gt in def init self n gt None 我读了以下摘录来自 PEP 484 https www python org dev peps pep 0484 the meaning of annotatio
  • 如何禁止 celery 中的 pickle 序列化

    Celery 默认使用 pickle 作为任务的序列化方法 如中所述FAQ http ask github com celery faq html isn t using pickle a security concern 这代表一个安全漏

随机推荐

  • .load() 在 ipad 上不起作用

    我有简单的脚本来检查图像 但它在我的 iOS 5 1 的 iPad 上无法正常工作 在图像中 我收到 jpg 流 因此加载必须在每个帧上工作 如在 big safari 中 但在 ipad 中它只触发一次 可能有一些建议吗 image lo
  • 使用指定编码记录多个模块和多个处理程序的最 Pythonic 方式是什么?

    我正在寻找有关如何完成多模块和多处理程序日志记录的具体建议 我在这里添加了简化的代码 但我不想让答案产生偏差 告诉我最佳实践是什么 我想将所有内容记录到文件中 并在控制台上发出警告 这是我的level0 py我希望它记录到指定的文件 imp
  • primefaces 自动完成功能支持 f:param 或 f:attribute?

    我读到核心 JSF 组件支持f param and f 属性标签 以便将一些值传递到服务器端以用于封闭的 UI 组件 我需要能够为 primefaces 的自动完成组件执行此操作 这样自动完成方法就能够使用由f param or f 属性
  • YouTube 视频在片段中播放时卡住

    我是 Android 新手 我正在尝试在片段加载时播放 YouTube 视频 这意味着打开应用程序时应该播放视频 当我在活动中使用它时 它可以工作 YouTubePlayerView 但是当我使用 YouTubePlayerSupportF
  • 从类型中提取调用签名

    给定一个包含调用签名和附加属性的类型 例如 export interface Foo
  • python 中使用 O(1) 空间的自底向上斐波那契

    我想使用 O 1 空间编写自下而上的斐波那契数 我的问题是 python 的递归堆栈限制了我测试大量数据 有人可以为我所拥有的提供替代或优化吗 这是我的代码 def fib in place n def fibo f2 f1 i if i
  • 激活手电筒应用程序的 LED

    我正在尝试为我的 iPhone 制作一个手电筒应用程序 我有一部 iPhone 4 想在我的项目中使用 iPhone 上的 LED 谁能帮助我开始使用它 这是一个较短的版本 您现在可以使用它来打开或关闭 LED void torchOnOf
  • 如何从 ASP.NET Web 应用程序在特定时间发送邮件

    我是 ASP NET 新手 我有一个项目正在运行 我需要每天中午12点向不同的用户发送不同的邮件 我需要知道如何实现每天在某个时间段醒来的方法 请帮助我提供尽可能多的细节 因为我是一个完全的初学者 Use 石英网 Quartz NET 是一
  • 将 Imgur API 与 Angular4 结合使用

    我正在使用 Angular 开发一个 Web 应用程序 但在使用 Imgur API 时遇到问题 我的目标是建立一个表单 用户可以选择其照片 然后将其上传到 imgur 并将链接存储在存储图像的位置 但是 我有两个问题 存储 图像的最佳方式
  • 如何构建 mtp 设备的路径(可在文件夹浏览对话框中使用)?

    我实现了从Windows PC到Android设备的文件传输 该设备通过MTP连接到计算机 复制实现已准备就绪 我使用了这个示例 http code msdn microsoft com windowsdesktop Portable De
  • NodeJS/express:缓存和 304 状态码

    当我重新加载使用express制作的网站时 我在Safari 而不是Chrome 中得到一个空白页面 因为NodeJS服务器向我发送了304状态代码 怎么解决这个问题呢 当然 这也可能只是 Safari 的问题 但实际上它在所有其他网站上都
  • 在python中设置http响应读取方法的超时

    我正在用 python 构建一个下载管理器来娱乐 有时与服务器的连接仍然存在 但服务器不向我发送数据 因此 HTTPResponse 的 读取方法永远阻止我 例如 当我从位于我国境外的服务器下载时 就会发生这种情况 这会限制其他国家 地区的
  • 如何从命令行设置列表类型的 CMake 变量

    我正在尝试做这样的事情 cmake G Visual Studio 15 2017 Win64 DCMAKE CONFIGURATION TYPES ReleaseDebug But the CMAKE CONFIGURATION TYPE
  • 使用线程安全更新单例的属性

    我们的设置是 Asp NET MVC5 使用 AutoFac 进行 DI 我们有一个类 单例 它管理各种服务的访问令牌 有时 这些令牌即将到期 不到 10 分钟 我们会请求新令牌并刷新它们 我当前的实现如下所示 member int use
  • 将 R 中 data.frame 的每一列中的所有值相加

    给定这个数据集 Name Height Weight 1 Mary 65 110 2 John 70 200 3 Jane 64 115 我想对每个限定符列 身高和体重 求和 199 425 问题是限定符可能不止 2 个 即更多 不仅仅是身
  • JSF 为组件声明定义自定义命名空间

    当您在 JSF 页面中使用外部库 或自定义组件 中的组件时 您需要添加 xmlns 声明 例如 xmlns util http java sun com jsf composite component util 我想知道如何在 Namasp
  • 如何从视图中调用控制器 - Laravel

    我有一个列出时间表的视图 在该视图上 每个时间表都有一个可交付成果字段 我有一个 DeliverableController 它有一个操作 DropdownList 该操作调用模型并获取可交付成果列表并将它们推送到可交付成果视图 这只是创建
  • 如何给jqgrid添加Tooltip

    我正在使用 jqgrid 显示服务器中存在的数据 如何在鼠标悬停工具提示上显示数据描述 在 jqgrid 上显示工具提示的最佳方式是什么 鼠标悬停时 jqGrid 中显示的工具提示只不过是相应 HTML 元素的 标题 属性 如果您想更改工具
  • Java将字符串转换为日期然后比较

    我有一个二维字符串数组 static String TaskStorage Task 1 02 07 13 Task 2 02 08 13 Task 3 02 09 13 Task 4 02 10 13 Task 5 02 11 13 Ta
  • Python - 按索引对列表列表中的重复项进行分组

    我见过很多关于从列表中删除重复项并对其进行计数的问题 但我正在尝试找到将它们分组的最佳方法 列表列表 鉴于此示例 我想按第三个字段进行分组 1 text name1 text 2 text name2 text 3 text name2 t