使用 numpy 对数组进行高效阈值过滤

2024-04-14

我需要过滤一个数组以删除低于某个阈值的元素。我当前的代码是这样的：

threshold = 5
a = numpy.array(range(10)) # testing data
b = numpy.array(filter(lambda x: x >= threshold, a))

问题是，这会创建一个临时列表，使用带有 lambda 函数的过滤器（慢）。

由于这是一个非常简单的操作，也许有一个 numpy 函数可以有效地完成它，但我一直找不到它。

我认为实现此目的的另一种方法可以是对数组进行排序，找到阈值的索引并从该索引开始返回一个切片，但即使这对于小输入来说会更快（而且无论如何都不会被注意到），随着输入大小的增加，它的效率肯定会逐渐降低。

Update：我也进行了一些测量，当输入为 100.000.000 个条目时，排序+切片仍然是纯 python 过滤器的两倍。

r = numpy.random.uniform(0, 1, 100000000)

%timeit test1(r) # filter
# 1 loops, best of 3: 21.3 s per loop

%timeit test2(r) # sort and slice
# 1 loops, best of 3: 11.1 s per loop

%timeit test3(r) # boolean indexing
# 1 loops, best of 3: 1.26 s per loop

b = a[a>threshold]这应该做

我测试如下：

import numpy as np, datetime
# array of zeros and ones interleaved
lrg = np.arange(2).reshape((2,-1)).repeat(1000000,-1).flatten()

t0 = datetime.datetime.now()
flt = lrg[lrg==0]
print datetime.datetime.now() - t0

t0 = datetime.datetime.now()
flt = np.array(filter(lambda x:x==0, lrg))
print datetime.datetime.now() - t0

I got

$ python test.py
0:00:00.028000
0:00:02.461000

http://docs.scipy.org/doc/numpy/user/basics.indexing.html#boolean-or-mask-index-arrays http://docs.scipy.org/doc/numpy/user/basics.indexing.html#boolean-or-mask-index-arrays

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

Arrays

NumPy

Filtering

threshold

使用 numpy 对数组进行高效阈值过滤的相关文章

无法将 datetime.datetime 与 datetime.date 进行比较

我有以下代码并收到上述错误由于我是 python 新手我无法理解这里的语法以及如何修复错误 if not start or date lt start start date 有一个datetime date 从日期时间转换为日期的方法
为什么 int 数组的最大大小小于 Int32.MaxValue？ [复制]

这个问题在这里已经有答案了虽然这篇文章说它应该有效 https stackoverflow com questions 2338778 what is the maximum length of an array in net on 64
使用 Python 解析 XML，解析外部 ENTITY 引用

在我的 S1000D xml 中它指定了一个带有对公共 URL 的引用的 DOCTYPE 该 URL 包含对包含所有有效字符实体的许多其他文件的引用我使用 xml etree ElementTree 和 lxml 尝试解析它并得到解析错
以编程方式将列名称添加到 numpy ndarray

我正在尝试将列名称添加到 numpy ndarray 然后按名称选择列但这不起作用我无法判断问题是在添加名称时出现还是在稍后尝试调用它们时出现这是我的代码 data np genfromtxt csv file delimiter
Python 相当于 Bit Twiddling Hacks 中的 C 代码？

我有一个位计数方法我正在尝试尽可能快地实现我想尝试下面的算法位摆弄黑客 http graphics stanford edu seander bithacks html CountBitsSetParallel 但我不知道 C 什么是
在 GAE/Python 中放置一次性代码和每次代码的最佳位置在哪里？

我是 Google App Engine 和 Python 的新手我无法理解有关在 Google App Engine 上运行的 Python 应用程序的一些基本问题如果我想要执行代码对于每个传入的请求我应该将其放在哪里我们正在捕
如何解码 dtype=numpy.string_ 的 numpy 数组？

我需要使用 Python 3 解码按以下方式编码的字符串 gt gt gt s numpy asarray numpy string hello nworld gt gt gt s array b hello nworld dtype S1
如何在 Keras 中使用部分输入进行训练，其余部分用于损失函数

我是 Keras 新手正在尝试实现神经网络机器学习模型输入张量看起来像 X1 X2 和输出 Y 注意 X1 和 X2 是相关的在模型中只有 X1 将用于训练但 X1 和 X2 都将传递给损失函数该损失函数是 X1 X2 y pr
如何使用注释和聚合在 Django 的 ORM 中执行此 GROUP BY 查询

我真的不知道如何翻译GROUP BY and HAVING到姜戈的QuerySet annotate and QuerySet aggregate 我正在尝试将这个 SQL 查询转换为 ORM 语言 SELECT EXTRACT year
Matplotlib 将颜色图 tab20 更改为三种颜色

Matplotlib 有一些新的且非常方便的颜色图选项卡颜色图 https matplotlib org examples color colormaps reference html 我错过的是生成像 tab20b 或 tab20c 这
PermanentTaskFailure：“模块”对象没有属性“迁移”

我在 google appengine 上使用 Nick Johnson 的批量更新库 http blog notdot net 2010 03 Announcing a robust datastore bulk update utili
django如何将字符串转换为模块？

我试图了解 django 的另一个神奇之处它可以将字符串转换为模块 In settings py INSTALLED APPS声明如下 INSTALLED APPS django contrib auth django contrib c
Pandas DataFrame：如何计算组中第一行和最后一行的差异？

这是我的熊猫数据框 import pandas as pd import numpy as np data column1 338 519 871 1731 2693 2963 3379 3789 3910 4109 4307 4800 4
SpaCy 中的自定义句子边界检测

我正在尝试在 spaCy 中编写一个自定义句子分段器它将整个文档作为单个句子返回我编写了一个自定义管道组件它使用以下代码来执行此操作here https github com explosion spaCy issues 1850 但
Melt() 函数复制数据集

我有一个这样的表 id name doggo floofer puppo pupper 1 rowa NaN NaN NaN NaN 2 ray NaN NaN NaN NaN 3 emma NaN NaN NaN pupper 4 sop
在 Haskell 中增长数组

我想在 Haskell 中实现以下命令式算法给定一个序列对 e0 s0 e1 s1 e2 s2 en sn 其中 e 和 s 部分不一定是自然数不同的是在每个时间步都会随机选择该序列的一个元素例如 ei si 并根据 ei si
Django - 缺少 1 个必需的位置参数：'request'

我收到错误 get indiceComercioVarejista 缺少 1 个必需的位置参数要求当尝试访问 get indiceComercioVarejista 方法时我不知道这是怎么回事 views from django ht
bool() 和operator.truth() 有什么区别？

bool https docs python org 3 library functions html bool and operator truth https docs python org 3 library operator htm
如何将 Pandas Dataframe 中的字符串转换为字符列表或数组？

我有一个名为的数据框data 其中一列包含字符串我想从字符串中提取字符因为我的目标是对它们进行一次性编码并使之可用于分类包含字符串的列存储在预测因子如下 predictors pd DataFrame data columns Seq
从 Flask 中的 S3 返回 PDF

我正在尝试在 Flask 应用程序的浏览器中返回 PDF 我使用 AWS S3 来存储文件并使用 boto3 作为与 S3 交互的 SDK 到目前为止我的代码是 s3 boto3 resource s3 aws access key id

随机推荐

两个日期之间的输出 mysql [关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 我需要像这样在MYSQL中输出记录
在 mongodb 中创建安全数据库

我想在 mongodb 中创建安全的数据库安全意味着应用程序必须传递用户名密码才能连接到我的 mongodb 数据库来自 Mongo Java 教程 MongoDB 可以在安全模式下运行其中通过名称和密码身份验证控制对数据库的访问
模拟Android AssetManager

我有一段代码接受 Context 并将该上下文传递给私有方法私有方法调用 getAssets open 来读取我的应用程序的资产文件夹中存在的文件 public void methodA Context ctx throws IOExce
将服务器端 MVC 与 Backbone.js 相结合

我将 NET MVC 用于所有服务器端逻辑并提供初始页面但我的应用程序在客户端非常繁重因此我采用了 Backbone JS 事实证明它非常有用但我不确定如何构建我的系统以整合这两种技术在我看来我有两个选择在服务器端从 MVC 中
ios中如何将字节数组转换为图像

今天我的任务是将字节数组转换为图像首先我尝试将图像转换为字节数组为了将图像转换为字节数组我们首先要做的就是转换该特定图像 UIImage to NSData 然后我们将其转换为NSData到字节数组这里我将给出示例代码只需浏览
为什么enable_shared_from_this有一个非虚拟析构函数？

我有一个宠物项目我用它来试验 C 11 的新功能虽然我有使用 C 的经验但我对 C 还很陌生为了训练自己采用最佳实践除了大量阅读之外我启用了一些严格的编译器参数使用 GCC 4 4 1 std c 0x Werror Wall
Twig 中的 {{ exception.message }} 不渲染 HTML

我有这个控制器在哪里 Exception被提出了我还没弄清楚哪个SF2Exception尚未使用在一定条件下就这个
Django - 将参数传递给 CBV 装饰器的正确方法？

文档功能应用装饰器的不错选择例如login required基于类的视图 https docs djangoproject com en dev topics class based views intro decorating the
ANDROID CAMERA：获取参数失败（空参数）

您好我仅在棒棒糖以下的操作系统版本中遇到此问题对此进行了大量搜索但没有找到正确的解决方案我认为问题出在操作系统版本上它在 5 中工作正常我的代码是 private void setCameraPhotoQuality Camer
设置 li 标签内的字体颜色

我的标记如下所示 div class c1 li class c2 a href blah a li div 我希望文字 blah 是红色的 c1 在其他地方使用所以我想在不影响其他标记的情况下尽可能深入在您的 css 文件中使用此样式
C#：绘制自己的条形图

我正在尝试通过绘制一个简单的条形图C 但我从未尝试过 Graphics 和 Drawing 命名空间我想生成一个开始和结束图形然后以某种方式重复图像以显示长度但我不知道如何做到这一点如果您能指出正确的方向和或您有示例代
尽管包含必需的标头，但仍出现“‘sockaddr_in’未声明（在此函数中首次使用）”错误

include
如何将列表转换为可枚举

我的以下代码有问题 public IEnumerable
为什么 php 脚本速度变慢？

我正在编写迁移脚本该脚本从一个 MySQL 数据库中选择数据并通过原则导入到另一个 MySQL 数据库中问题是在创建每个实体块之后我的脚本速度就会变慢导入前 100 篇文章大约需要 5 秒接下来的 100 篇文章需要 7 秒接
T-SQL 中的随机加权选择

如何根据所有候选行的应用权重在 T SQL 中随机选择表行例如我在表中有一组行的权重分别为 50 25 和 25 加起来为 100 但不是必须的我想随机选择其中一个其统计结果相当于相应的行重量 Dane 的答案包括以引入平方律的方式
使用 ionic zip 时压缩失败

我正在使用最新版本的 ionic zip 版本 1 9 1 8 我已经设置了 ionic zip 的属性ParallelDeflateThreshold 0 过去两个月压缩机制工作得很好突然它停止工作了压缩线程挂起 ionic zi
bash 是否存在内存泄漏？

我在跑bashv4 4 19 1 在 Ubuntu 18 10 上发布如果我跑valgrind在一个简单的脚本上或者甚至bash version 我发现我确实丢失了 12 个字节的内存但仍然可以访问大约 46kB 的内存仍然可访问的
删除 Pig 输出中的括号和逗号

目前我的输出如下 130 1 131 1 132 1 133 1 137 1 138 2 139 1 140 1 142 2 143 1 我想要这样 130 1 131 1 132 1 我的代码如下 A LOAD user links sm
xcode9 / SceneKit - .dae 文件未加载到 SCNScene 中 - 返回 nil

我正在尝试使用以下代码将 dae 文件加载到 SCNScene 中 let solutionScene SCNScene named art scnassets level1 dae print solutionScene rootNode
使用 numpy 对数组进行高效阈值过滤

我需要过滤一个数组以删除低于某个阈值的元素我当前的代码是这样的 threshold 5 a numpy array range 10 testing data b numpy array filter lambda x x gt thre

使用 numpy 对数组进行高效阈值过滤

使用 numpy 对数组进行高效阈值过滤 的相关文章

随机推荐

热门标签

使用 numpy 对数组进行高效阈值过滤的相关文章