过滤在非常大的列表中仅出现一次的项目

2024-01-02

我有一个很大的列表（超过 1,000,000 个项目），其中包含英语单词：

tokens = ["today", "good", "computer", "people", "good", ... ]

我想获取列表中仅出现一次的所有项目

现在我正在使用：

tokens_once = set(word for word in set(tokens) if tokens.count(word) == 1)

但它真的很慢。我怎样才能让它更快？

您迭代一个列表，然后对每个元素重复一次，这使得它的复杂度为 O(N²)。如果您更换您的count by a Counter，您对列表进行一次迭代，然后再次对唯一元素的列表进行迭代，这使得在最坏的情况下，它的复杂度为 O(2N)，即 O(N)。

from collections import Counter

tokens = ["today", "good", "computer", "people", "good"]
single_tokens = [k for k, v in Counter(tokens).iteritems() if v == 1 ]
# single_tokens == ['today', 'computer', 'people']

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

performance

Algorithm

list

filter

过滤在非常大的列表中仅出现一次的项目的相关文章

如何检查字符串是否仅包含字母数字字符和破折号？

我正在测试的字符串可以匹配 w 我可以在 Python 中测试字符串是否符合此要求而不是列出不允许的字符并对其进行测试吗如果要根据正则表达式测试字符串请使用re http docs python org library re html
使用 Python 进行依赖性测试

我想编写单元测试来测试两个 python 包之间是否存在依赖关系例如 a init py models py views py b init py models py views py 单元测试来检查包中的模块b不要从包中的模块导入任何内
Python 中“public static void main”的等价物

Python 中 public static void main String args 的等价物是什么我记得以前用过后来就忘记了我基本上想要记住的是一个我认为包含一些下划线的函数 thx usr bin env python im
如何用Python检查一个单词是否是英文单词？

我想在 Python 程序中检查一个单词是否在英语词典中我相信 nltk wordnet 接口可能是可行的方法但我不知道如何使用它来完成如此简单的任务 def is english word word pass how to I imp
类型错误：“str”不支持缓冲区接口

import hashlib infile open P r mp3 r b data infile readline hash hashlib md5 hash update data hash digest hash hexdigest
matplotlib 慢速 3D 散点旋转

我正在使用 matplotlib 来散点图 3D 点矩阵我正在使用以下代码 import pylab as plt from mpl toolkits mplot3d import Axes3D import numpy as np my
Django Tastypie 高级过滤：如何使用 Q 对象进行复杂查找

我有一个基本的 Django 模型例如 class Business models Model name models CharField max length 200 unique True email models EmailFiel
使用线程时的套接字问题

闲暇时我一直在做一个python游戏遇到了一个问题我正在使用基本线程模块来处理套接字当我使用一个客户端连接到服务器文件时它工作正常但更重要的是在第一个之后的任何连接都会冻结服务器和第一个客户端这是服务器的代码 import s
在 Flask 中捕获会话过期

在 Flask 中我使用 app permanent session lifetime 强制会话超时有没有办法在会话到期之前接收回调以便我可以执行清理查看文档我没有看到相应的信号 None
在 AWS Transcribe 中实时获取 BadRequestException

我从亚马逊流 api 收到此响应任何人都可以帮我解决我在这里做错的事情吗 b x00 x00 x00 xa3 x00 x00 x00ah x10k xe1 x0f 异常类型 x07 x00 x13BadRequestException r
如何在不在 iPython 笔记本中使用离线模式下的plotly进行绘图？

我需要使用plotly绘制我的数据但是这段代码没有给我任何结果我显示我的数据但没有任何数字 import plotly graph objs as go from plotly offline import download plot
获得熊猫按群体连续几周的最长连续记录

目前我正在处理不同主题的每周数据但可能会有一些没有数据的长连续所以我想做的就是保留每个连续几周的最长连续id 我的数据如下所示 id week 1 8 1 15 1 60 1 61 1 62 2 10 2 11 2 12 2 13 2
设置面积图 openpyxl 的透明度（alpha）

我想使用 openpyxl 设置面积图背景的透明度我的图表代码是 from openpyxl drawing fill import PatternFillProperties ColorChoice c2 AreaChart c2 gr
使用 JSON 将数据从 Python 导出到 Tableau？

如何以表格形式从 Python 获取 400 万行和 28 列我假设基于搜索我应该使用 JSON 格式这种格式可以处理大量数据并且足够快我制作了 12 行数据的子集并尝试使其正常工作好消息是它正在发挥作用坏消息不是我想要的
如何显示 pymongo.errors.OperationFailure 详细信息？

写入 MongoDB 时我在 python 中遇到 pymongo OperationsFailure 除了回溯之外还有没有办法打印出详细信息或代码属性另请参阅 http api mongodb org python current
为什么这个“[::-1]”在Python中返回一个反向列表？ [复制]

这个问题在这里已经有答案了可能的重复 Python 切片表示法的良好入门指南 https stackoverflow com questions 509211 good primer for python slice notation P
尝试打开 Excel 时出现“KeyError：“存档中没有名为“xl/sharedStrings.xml”的项目”

我正在尝试使用 Python 脚本将数据导入 PowerBi 以便我可以安排它定期刷新数据我面临着从 Excel 文件获取数据并收到错误的挑战 KeyError 没有名为 xl sharedStrings xml 的项目在档案中导入时
在 C# 中生成 Excel 列字母的最快函数

接受 int 并返回包含一个或多个字母的字符串以便在 Excel 函数中使用的最快 C 函数是什么例如 1 返回 A 26 返回 Z 27 返回 AA 等这被调用了数万次并且占用了生成包含许多公式的大型电子表格所需时间的 25 pub
在Python中绘制像素的最佳方法[关闭]

Closed 这个问题需要细节或清晰度 help closed questions 目前不接受答案我想知道用 x 和 y 值在 python 中绘制像素的最简单方法是什么可能最简单的方法是使用PIL http effbot org i
从 paramiko 获取 PID

我找不到一个简单的答案我正在使用 paramiko 远程登录并执行多个进程我需要每个进程的 PID 以便稍后检查它们 paramiko 中似乎没有函数来获取执行命令的 PID 所以我尝试使用以下命令 stdin stdout stder

随机推荐

MongoDB 文本索引错误：不支持语言覆盖

我使用的是2 6 1版本我正在尝试创建文本索引但出现错误 connectionId 4932 err language override unsupported en US code 17262 n 0 ok 1 正在搜索的文档有一个值
合并 k 个排序链表 - 分析

我正在考虑针对一个问题的不同解决方案假设我们有 K 个已排序的链表并且我们将它们合并为一个所有这些列表总共有 N 个元素众所周知的解决方案是使用优先级队列并从每个列表中弹出推送第一个元素我可以理解为什么它需要O N log K
Python在for循环中创建对象

我有一个类来分配一些参数 class body def init self name number L self name name self number number self L L 我想将这些参数分配给 10 个几乎相等的物体例如
Clojure 从 zipmap 中获得最高价值

所以我在这里得到了我建议的邮政地图它工作得很好正如你所看到的我已经加载了数据这就是 repl 中的样子非常完美这是地图 Year 2020 Day 27 January 59 February 38 Year 2020 Day
SSIS Foreach 循环文件夹作为变量

我需要将 Foreach 循环中的文件夹设置为可变位置我尝试将位置添加到我的包配置中它的表现就像它工作一样但是当我打开配置文件时它不在那里我将其设置为 Foreach File Enumerator 并对路径进行硬编码并检索完全
Laravel 9 - 在 artisan 路线中显示中间件：列表

如何显示 Laravel 路由中使用的中间件 php artisan route list 我找到了显示方式只需添加详细选项 php artisan route list v
Windows DPI 设置影响 Graphics.DrawString

我已经创建了一个新的 Bitmap 对象现在想要使用 GDI 向其绘制一些文本所以我调用 Graphics DrawString 问题是字符串的大小取决于 Windows 7 的 DPI 设置有什么方法可以使我的文本绘制独立于 Win
在 Django 之外运行 Python 脚本

我有一个使用 Django ORM 功能以及其他外部库的脚本我想在 Django 之外运行该脚本即从命令行执行编辑目前我可以通过导航到 URL 来启动它我该如何为此设置环境最简单的方法是将脚本设置为manage py子命令这
::伪元素堆叠顺序问题之前

静态定位时 before 伪元素堆叠 z index 在子元素的内容之前但在子元素的背景之后任何人都可以解释为什么甚至是如何发生这种情况或者这是否是所有主要浏览器都存在的问题 div div
如何通过.net core使用微软报告服务

我有兴趣在我的 vue js net core 项目中使用报告服务我不需要reportviewer 控件只需执行适当的代码来远程处理它以将其作为字节流返回到 pdf 中我以前的代码在 ASP net MVC angularjs 项目
Angular.js 数据访问器

我正在尝试学习 Angular 但我陷入了以下困境我有 PHP 背景主要使用 Laravel 在 Laravel 中您可以在模型中使用访问器所以如果你有一个模型User 其中有一个firstname and lastname 您可以创
处理无序执行

我最近偶然发现了这个维基百科文章 http en wikipedia org wiki Memory barrier 根据我的多线程经验我意识到程序能够随时在线程之间切换线程而导致的众多问题然而我从来不知道编译器和硬件优化可以以保证适
将 SecureString 放入 PasswordBox

我有一个现有的安全字符串 http msdn microsoft com en us library system security securestring 28v vs 110 29 aspx我想放入一个密码盒 http msdn mi
Ruby on Rails 每次都会触发序列化属性的更新

我有一个带有名称和设置的简单用户模型用户每次保存后 AREL 都会对设置列执行更新例如 user User find by name kevin user save 0 3ms UPDATE users SET updated at 2
VSCode 自动完成函数 * 和方法 * 括号 (js/ts)

这是一个超集VSCode 自动补全函数时添加括号 https stackoverflow com questions 55533379 vscode add parentheses when automcompleting function
强制 Renderscript 在 CPU 或 GPU 上运行（至少用于性能调整目的）

我有几个basic算法 DCT IDCT 和其他一些在 Nexus 10 上移植并工作至少在功能上符合预期由于这些算法是首次实现因此它们的执行时间目前已达到几秒这是可以理解的然而考虑到 Renderscript 的架构我发现
WebDriverException：消息：服务 /content/chromedriver 意外退出。状态代码为：-6（使用 ChromeDriver Google Colab 和 Selenium）

我试图使用 Selenium 运行无头 Chrome 浏览器来从网络上抓取内容我使用 wget 安装了 headless Chrome 然后将其解压到当前文件夹中 wget http chromedriver storage google
使用 C# 在两个线程之间来回传递数据的推荐方法是什么

我正在尝试制作一个应用程序它将使用套接字在两个服务器 Connection1 和 Conenction2 之间传递数据我想做的是从 Connection1 接收数据并将其传递给 Connection2 反之亦然 Connection1
电子和打字稿“找不到模块‘电子’”

关于https electron atom io blog 2017 06 01 typescript https electron atom io blog 2017 06 01 typescript电子支持打字稿但在我的设置中不起作用
过滤在非常大的列表中仅出现一次的项目

我有一个很大的列表超过 1 000 000 个项目其中包含英语单词 tokens today good computer people good 我想获取列表中仅出现一次的所有项目现在我正在使用 tokens once set wor

过滤在非常大的列表中仅出现一次的项目

过滤在非常大的列表中仅出现一次的项目 的相关文章

随机推荐

热门标签

过滤在非常大的列表中仅出现一次的项目的相关文章