哪一个更可取？ np.where 还是 .loc？

2024-03-07

我发现了两种根据条件替换数据框某些值的形式：

.loc

mask = df['param'].isnull()
df.loc[mask, 'param'] = 'new_value'

np.where()

mask = df['param'].isnull()
df['param'] = np.where(mask, 'new_value', df['param'])

两种形式都很好用，但哪一种是首选呢？关于这个问题，我什么时候应该使用.loc什么时候np.where?

好吧，这不是一个完整的测试，但这是一个示例。在每次运行中（loc, np.where），数据被重置为带有种子的原始随机数。

玩具数据1

这里，还有更多np.nan比有效值。此外，该列是浮动类型的。

np.random.seed(1)
df = pd.DataFrame({'param': np.random.choice((1, np.nan), 1000000, p=(0.3,0.7))})

# loc
%%timeit
mask = df['param'].isnull()
df.loc[mask, 'param'] = 'new_value'
# 46.7 ms ± 177 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)

# np.where
%%timeit
mask = df['param'].isnull()
df['param'] = np.where(mask, 'new_value', df['param'])
# 86.8 ms ± 2.4 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

玩具数据2：

这里的比较少np.nan比有效值，并且该列是对象类型：

np.random.seed(1)
df = pd.DataFrame({'param': np.random.choice(("1", np.nan), 1000000, p=(0.7,0.3))})

相同的故事：

df.loc[mask, 'param'] = 'new_value'
# 47.8 ms ± 350 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)

df['param'] = np.where(mask, 'new_value', df['param'])
# 58.9 ms ± 1.72 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)

与@cs95的评论相反，loc似乎表现优于np.where.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

NumPy

哪一个更可取？ np.where 还是 .loc？的相关文章

键入的完整命令行

我想获得输入时的完整命令行 This join sys argv 在这里不起作用删除双引号另外我不想重新加入已解析和拆分的内容有任何想法吗你太迟了当键入的命令到达 Python 时您的 shell 已经发挥了它的魔力例如引
如何计算数据框中按另一列的列值分组的一列的连续字符串值？

我有以下数据框 Levels Labels Confidence 0 Hands 0 8 0 Leg 0 7 0 Eye 0 9 1 Ear 0 9 1 Eye 0 8 2 Hands 0 9 2 Eye 0 8 3 Eye 0 8 我想检
将 Python Pandas DataFrame 写入 Word 文档

我正在努力创建一个使用 Pandas DataFrames 的 Python 生成的报告目前我正在使用DataFrame to string 方法但是这会作为字符串写入文件有没有办法让我实现这一目标同时将其保留为表格以便我可以使
使用 NumPy 编写一个函数来计算具有特定公差的积分

我想编写一个自定义函数来以特定容差对表达式 python 或 lambda 函数进行数字积分我知道与scipy integrate quad人们可以简单地改变epsabs但我想使用 numpy 自己编写该函数 From 这篇博文 htt
django 模板 - 如何动态访问变量？

假设我有一个具有以下上下文的 django 模板 data1 this is data1 data2 this is data2 data name data2 现在我知道了data name 假设它是 data2 是否可以用它来访问变量d
使用pathlib获取主目录

翻看新的pathlib在 Python 3 4 中我注意到没有任何简单的方法来获取用户的主目录我能想到的获取用户主目录的唯一方法是使用旧的os path像这样的库 import pathlib from os import path p
查找与另一列 Pandas 中的唯一值关联的列中的值的交集

如果我有一个像这样的数据框非常小的例子 col1 col2 0 a 1 1 a 2 2 b 1 3 b 2 4 b 4 5 c 1 6 c 2 7 c 3 我想要所有的交集col2当价值观与其独特性相关时col1值因此在这种情况下交集
在 Linux 上使用多处理时，TKinter 窗口不会出现

我想生成另一个进程来异步显示错误消息同时应用程序的其余部分继续我正在使用multiprocessingPython 2 6 中的模块来创建进程我试图用以下命令显示窗口TKinter 这段代码在Windows上运行良好但在Linux上
使用 subprocess.Popen() 或 subprocess.check_call() 时程序卡住

我想从 python 运行一个程序并找到它的内存使用情况为此我正在使用 l a out lt in txt gt out txt p subprocess Popen l shell False stdout subprocess PI
在请求中设置端口

我正在尝试利用cgminer使用 Python 的 API 我对利用requests图书馆我了解如何做基本的事情requests but cgminer想要更具体一点我想缩小 import socket import json sock
数据框中 .map(str) 和 .astype(str) 有什么区别

我有一个数据框其列名为 col1 和 col2 的整数类型条目我想将 col1 和 col2 的条目以及其间的点连接起来我搜索并发现添加两个列条目 df col df col1 map str df col2 map str 并添
如何用正则表达式替换多个匹配/组？

通常我们会编写以下内容来替换一场比赛 namesRegex re compile r is life re I replaced namesRegex sub r butter There is no life in the void pr
使用 Python 绘制 USGS 水文数据甘特图？

我编译了一个数据帧其中包含几个不同流计的 USGS 流数据现在我想创建一个类似的甘特图this https stackoverflow com questions 31820578 how to plot stacked event d
Django 2、python 3.4 无法解码 urlsafe_base64_decode(uidb64)

我正在尝试通过电子邮件激活用户电子邮件有效编码有效我使用了 django1 11 中的方法该方法运行成功在 Django 1 11 中以下内容成功解码为 28 其中 uidb64 b Mjg force text urlsafe
如何获取分类数据的分组条形图

I have a big dataset with information about students And I have to build a graph of dependencies between different value
无法导入QUERY_TERMS

我正在运行一个网站Python and Django Django filters 2 1 installed Django 2 1 installed 当我运行时我收到以下错误 importError Could not import
是否可以使用 Anaconda 包作为 Google Cloud Functions 的依赖项？

我正在使用 Python 运行时编写 Google Cloud Function 我需要包含一些无法使用的依赖项pip 如文档中所述here https cloud google com functions docs writing spe
两种 ODE 求解器之间的差异

我想知道两者之间有什么区别ODEINT and solve ivp用于求解微分方程它们之间有什么优点和缺点 f1 solve ivp f 0 1 y0 y0 is the initial point f2 odeint f y0 0 1
使用 MPI 的 Allreduce 对 Python 对象求和

我正在使用使用 Python 中的字典和计数器构建的稀疏张量数组操作我想让并行使用这个数组操作成为可能最重要的是我最终在每个节点上都有计数器我想使用 MPI Allreduce 或另一个不错的解决方案将其添加在一起例如使用计数
在Python中停止ThreadPool中的进程

我一直在尝试为控制某些硬件的库编写一个交互式包装器用于 ipython 有些调用对 IO 的影响很大因此并行执行任务是有意义的使用 ThreadPool 几乎效果很好 from multiprocessing pool import

随机推荐

“catch”在原生 Promise 链中如何工作？

在 Chrome 或 Firefox 的控制台选项卡上尝试这段代码 var p new Promise function resolve reject setTimeout function reject 10 1000 p then fu
在r中按长格式data.table中的id填充可变单元格

我有一个长格式的表其中随时间变化的数据仅按 id 出现一次如下所示 dt lt data table ID c rep 1 3 rep 2 3 Time rep 1 3 2 Sex c M NA NA F NA NA V1 c 1 1
有没有办法在 svelte 组件中使用 pugjs？

我正在尝试重写用 pugjs 制作的应用程序并用 sveltejs 表达我真的很喜欢在 pugjs 中写 html 我想知道是否可以在 svelte 组件中使用 pugjs 我假设我可能需要使用苗条装载机 https github com
下载大文件时 httr GET 函数空间不足

我正在尝试下载一个 1 1 GB 的文件httr但我遇到了以下错误 x lt GET extract path Error in curlPerform curl handle handle opts curl opts values ca
如何从 Team Foundation Server 删除工作项

是否有机会从 TFS 中删除工作项或者我所能做的只是重命名它更新这个问题是针对 TFS 2008 的正如 Rob Cannon 建议的那样新版本 2010 具有开箱即用的解决方案这里的答案对于 TFS 2010 来说已经过时了
在python中的二进制图像中绘制多个对象周围的边界矩形

I am trying to write some easy code in python to produce bounding rectangles around objects in a binary image where ther
响应式设计移动和桌面

有几件事我实在是想不通如今手机的分辨率与桌面显示器一样好在构建响应式网站时您可以使用媒体查询并使事情变得流畅这些媒体查询基于屏幕大小以像素为单位假设我制作了一个响应式网站并将其设计为 480px 800px 和 1080px
让编译器找到 Cmake 创建的文件

我正在使用configure file按描述在功能可用性检查中使用 Cmake 命令在本页 http www cmake org Wiki CMake How To Write Platform Checks 该页面建议使用如下命令 con
加载两个包含相同符号的本机库时出现内存问题

我正在尝试使用 JNA 同时操作本机非线程安全的 Fortran 库由于该库不是线程安全的我尝试实例化同一库的不同副本但显然它们似乎共享内存地址如果我修改一个库中的一个变量则另一个库中的变量也会被修改这种行为使得它们不可能在单
在不安装 Visual C++ Redistributable Packages 的情况下运行 Visual Studio 2015 C++ 可执行文件 [重复]

这个问题在这里已经有答案了简洁版本是否可以在不安装 Visual C Redistributable Packages 的情况下运行使用 Visual Studio 2015 编译的可执行文件而是将运行时 DLL 复制到与可执行文件相
如何使用 LINQ 来汇总此数据 - 按这些关系的计数分组的关系数量

我有一个简单的表例如 fkId Item 1 A 1 B 1 C 1 D 2 H 2 I 3 Y 3 Z 我想要一个 LINQ 查询它首先计算每个 fkId 的 Item 数量然后报告具有给定 Item count 的 fkId 数量
谷歌在nodejs中流行的时代

Google 提供了最新的 Api 流行时间来获取有关特定业务或其他繁忙或流行的特定时间的数据然而它带有 python 实现有谁知道如何在 Node js 项目中使用谷歌流行时间 api https github com m wrzr
HRTB：由包含生命周期类型参数的特征界定的具体类型与仅由生命周期类型参数界定的具体类型

这实际上是一个offshoot https stackoverflow com questions 54791718 whats the difference between a traits generic type and a gene
golang 闭包从范围内捕获错误的值

测试代码如下 func main lans 5 string java python erlang cpp go fin make chan bool for l range lans go func fmt Println l lt fi
如果将列表附加到自身会发生什么？

如果我尝试将列表附加到自身会发生什么 Let s say empty list is created some list Now append it with self some list append some list Output s
如何在 Puppet 模板中包含子模板

我正在尝试在我的 Puppet 模块之一的模板中包含一个子模板以下是我在基本模板中执行包含操作的方法如果我使用 erb 命令行工具渲染它效果很好然而在 Puppet 运行期间导入会被默默地忽略即基本模板在渲染的子模板应在的位置
无法使用 ProGuard 实例化 AndroidPlatform 类

Expect 预计对于release启用后成功运行的 Android 应用程序版本minifyEnabled and shrinkResources根据安卓系统文档 https developer android com studio bu
Laravel v5.6 错误显示“未定义的偏移量：0（视图：C:\xampp\htdocs\schoolmanagement\resources\views\displaycombinedata.blade.php）”

我正在尝试将数据合并到我已经创建的表中这是显示它的代码两个表名分别是students teachers 在此代码中我收到一条错误消息未定义的偏移量 0 视图 C xampp htdocs schoolmanagement resour
如何在Revit中找到坡道的起点/终点，也许用草图？

我有一堆坡道我想知道它们的起点和终点如果有多个起点终点我想知道它们如何连接我目前得到这些作为 List
哪一个更可取？ np.where 还是 .loc？

我发现了两种根据条件替换数据框某些值的形式 loc mask df param isnull df loc mask param new value np where mask df param isnull df param np whe

哪一个更可取？ np.where 还是 .loc？

玩具数据1

玩具数据2：

哪一个更可取？ np.where 还是 .loc？ 的相关文章

随机推荐

热门标签

哪一个更可取？ np.where 还是 .loc？的相关文章