有效地将值从一列替换到另一列 Pandas DataFrame

2023-11-27

我有一个像这样的 Pandas DataFrame：

   col1 col2 col3
1   0.2  0.3  0.3
2   0.2  0.3  0.3
3     0  0.4  0.4
4     0    0  0.3
5     0    0    0
6   0.1  0.4  0.4

我想更换col1值与第二列中的值 (col2）除非col1值等于 0，然后（对于剩余的零值）再次执行此操作，但使用第三列 (col3）。期望的结果是下一个：

   col1 col2 col3
1   0.2  0.3  0.3
2   0.2  0.3  0.3
3   0.4  0.4  0.4
4   0.3    0  0.3
5     0    0    0
6   0.1  0.4  0.4

我用的是pd.replace功能，但似乎太慢了..我认为必须是更快的方法来实现这一目标。

df.col1.replace(0,df.col2,inplace=True)
df.col1.replace(0,df.col3,inplace=True)

有没有更快的方法来做到这一点？使用其他函数而不是pd.replace功能？

Using np.where是比较快的。使用与您使用的类似的模式replace:

df['col1'] = np.where(df['col1'] == 0, df['col2'], df['col1'])
df['col1'] = np.where(df['col1'] == 0, df['col3'], df['col1'])

然而，使用嵌套np.where稍微快一点：

df['col1'] = np.where(df['col1'] == 0, 
                      np.where(df['col2'] == 0, df['col3'], df['col2']),
                      df['col1'])

Timings

使用以下设置生成更大的示例 DataFrame 和计时函数：

df = pd.concat([df]*10**4, ignore_index=True)

def root_nested(df):
    df['col1'] = np.where(df['col1'] == 0, np.where(df['col2'] == 0, df['col3'], df['col2']), df['col1'])
    return df

def root_split(df):
    df['col1'] = np.where(df['col1'] == 0, df['col2'], df['col1'])
    df['col1'] = np.where(df['col1'] == 0, df['col3'], df['col1'])
    return df

def pir2(df):
    df['col1'] = df.where(df.ne(0), np.nan).bfill(axis=1).col1.fillna(0)
    return df

def pir2_2(df):
    slc = (df.values != 0).argmax(axis=1)
    return df.values[np.arange(slc.shape[0]), slc]

def andrew(df):
    df.col1[df.col1 == 0] = df.col2
    df.col1[df.col1 == 0] = df.col3
    return df

def pablo(df):
    df['col1'] = df['col1'].replace(0,df['col2'])
    df['col1'] = df['col1'].replace(0,df['col3'])
    return df

我得到以下时间安排：

%timeit root_nested(df.copy())
100 loops, best of 3: 2.25 ms per loop

%timeit root_split(df.copy())
100 loops, best of 3: 2.62 ms per loop

%timeit pir2(df.copy())
100 loops, best of 3: 6.25 ms per loop

%timeit pir2_2(df.copy())
1 loop, best of 3: 2.4 ms per loop

%timeit andrew(df.copy())
100 loops, best of 3: 8.55 ms per loop

我尝试对你的方法进行计时，但它已经运行了几分钟而没有完成。作为比较，仅在 6 行示例 DataFrame（不是上面测试的更大的 DataFrame）上对方法进行计时需要 12.8 毫秒。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

replace

DataFrame

有效地将值从一列替换到另一列 Pandas DataFrame 的相关文章

从 Python 将分层 JSON 数据写入 Excel xls？

我想将一些数据从 python 写入 xlsx 我目前将其存储为 JSON 但它从 Python 中输出什么并不重要单个文章的 JSON 如下所示 Word Count 50 Key Words Blah blah blah Foo Fr
groupby pandas数据框中连续相同的值和出现次数的累积计数

我有一个问题我想计算数据帧中当前值在滚动周期内未更改的次数例如 df pd DataFrame col list aaaabbab 会以某种方式给出输出 0 1 2 3 0 1 0 0 我一直在尝试以下一些事情 df col df co
Colab 的使用限制持续多久？

当我对同一帐户的两个笔记本同时使用两个 GPU 约半小时后 Colab 已 12 小时未运行此消息不断弹出由于 Colab 中的使用限制您当前无法连接到 GPU 自从我上次使用 colab 以来已经过去了大约两个小时但该消息仍然弹出
Scrapy Splash，如何处理onclick？

我正在尝试抓取以下内容我能够收到响应但我不知道如何访问以下项目的内部数据以抓取它我注意到访问这些项目实际上是由 JavaScript 和分页处理的这种情况我该怎么办下面是我的代码 import scrapy from scrapy
Python 在 64 位 vista 上获取 os.environ["ProgramFiles"] 的错误值

Vista64 计算机上的 Python 2 4 3 环境中有以下2个变量 ProgramFiles C Program Files ProgramFiles x86 C Program Files x86 但是当我运行以下命令时 impo
多个列表和大小的所有可能排列

在 python 中使用以下命令很容易计算简单的排列itertools permutations https docs python org 3 library itertools html itertools permutations 你
如何使用 numpy 从一维数组创建对角矩阵？

我正在使用 Python 和 numpy 来做线性代数我表演了numpy对矩阵进行 SVD 以获得矩阵 U i 和 V 然而 i 矩阵表示为 1 行的 1x4 矩阵 IE 12 22151125 4 92815942 2 06380839
python lxml 使用iterparse编辑并输出xml

我已经在 lxml 库上摆弄了一段时间了也许我没有正确理解它或者我错过了一些东西但我似乎无法弄清楚在捕获某个 xpath 后如何编辑文件并且然后能够在逐个元素解析时将其写回到 xml 中假设我们有这个 xml 作为示例
将带有 md5 消息摘要和 DESede/CBC/PKCS5Padding 的 3DES 加密的 java 代码转换为 python

我有这个工作java代码它使用3DES加密对密码进行加密 import java security MessageDigest import java util Arrays import java util Base64 import
telethon 库：如何通过电话号码添加用户

我正在研究 Telegram 的 Telethon 库它可以使用 Telegram API 充当 Telegram 客户端重要提示这是电报客户端 API https core telegram org telegram api 而不是
Python Tkinter 网格复选框

我想知道是否有一种简单的方法可以使用 Tkinter 创建复选框网格我正在尝试制作一个由 10 行和 10 列即 100 个复选框组成的网格以便每行只能选择两个复选框编辑我正在使用带有spyder的python 2 7 到目前为
使用 Python 导入包含文本和数字数据的文件

I have a txt file which has text data and numerical data The first two rows of the file have essential information in te
安塞布尔 + 10.11.6

我在非常干净地安装 10 11 6 时遇到了 Ansible 的奇怪问题我已经安装了brew zsh oh my zsh Lil snitch 和1password 实际上没有安装其他任何东西我安装了ansible brew ins
在 Python 中将嵌套字典位置作为参数传递

如果我有一个嵌套字典我可以通过索引来获取键如下所示 gt gt gt d a b c gt gt gt d a b c 我可以将该索引作为函数参数传递吗 def get nested value d path a b return d
如何使用 Python 实现并行 gzip 压缩？

使用python压缩大文件 https stackoverflow com questions 9518705 big file compression with python给出了一个很好的例子来说明如何使用例如bz2 纯粹用 Pytho
列表中的“u”是什么意思？

这是我第一次遇到这种情况刚刚打印了一个列表每个元素似乎都有一个u在它前面即 u hello u hi u hey 它是什么意思为什么列表的每个元素前面都会有这个由于我不知道这种情况有多常见如果您想了解我是如何遇到它的我会很乐意
Django INSTALLED_APPS 的命名约定是如何工作的？

该网站上的教程创建了一个名为 polls 的应用程序它使用 django 1 9 所以在 INSTALLED APPS 中它是 polls apps PollsConfig 我正在观看一个教程他将应用程序命名为新闻通讯并且在 INST
需要在 javascript 中对 ajax 查询进行正确的修剪吗？

在 JavaScript 中我想对字符串末尾的所有特殊字符进行正确的修剪我的一段代码仅对连字符进行修剪还需要所有特殊字符 var s DB var x s replace console log x 对此有什么帮助吗这应该可以解决
datetime strftime 不输出正确的时间戳

下列 gt gt gt from dateutil parser import parse gt gt gt parse 2013 07 02 00 00 00 0000 datetime datetime 2013 7 2 0 0 tzi
如何对每一行进行 value_counts 并创建一些列，其值是每个值的计数

我得到一个数据框如下 df c1 c2 c3 c4 c5 c6 c7 c8 c9 c10 c11 c12 r1 0 1 1 1 1 0 0 0 0 0 0 0 r2 1 2 2 2 2 1 1 1 1 0 0 0 r3 1 0 2 0 0

随机推荐

将 RxJS Observable 收集到数组

我想使用 RxJS 将异步事件世界与同步世界桥接具体来说我想创建一个函数它返回在某个时间间隔内收集的事件数组我可以创建 Observable 来执行我想要的操作 var source Rx Observable interval
无法识别“pip”[重复]

这个问题在这里已经有答案了我尝试安装PySide但我从 powershell 收到错误如下 pip The term pip is not recognized as the name of a cmdlet function scrip
检测可移动介质的弹出/插入

我正在开发一个项目需要能够检测何时插入或移除 CD 或 USB 驱动器我发现一些源代码本应执行此操作但是当我插入或弹出 CD 时似乎没有任何反应有人可以验证来源是否正确并指出我在这里可能做错了什么吗 public class
有人可以解释一下这个 C++ typedef 吗？

我已经有一段时间没有使用 C 了刚刚开始使用它虽然大部分内容都有道理但有些地方我发现有点混淆例如有人可以解释一下这一行的作用吗 typedef bool OptionManager OptionHandler const ABSt
Android 加速度计精度（惯性导航）

我正在考虑为 Android 手机实现惯性导航系统但我意识到考虑到加速度计的精度和读数的持续波动这很难首先我将手机放在平坦的表面上并在 X 和 Y 方向上采样了 1000 个加速度计读数与桌子平行因此这些方向上没有重力作用然
pandas json_normalize 具有非常嵌套的 json

我一直在努力normalize一个非常嵌套的 json 文件我稍后将进行分析我正在努力解决的是如何进一步深入正常化我经历了pandas io json json normalize文档因为它完全按照我想要的方式执行我已经能够将其中
按时间间隔聚合一个数据帧来自另一个数据帧

我正在尝试聚合两个数据帧 df1 and df2 第一个包含 3 个变量 ID Date1 and Date2 df1 ID Date1 Date2 1 2016 03 01 2016 04 01 1 2016 04 01 2016 05
QList什么时候会发生深拷贝？

在我正在上的一堂课上我正在同时处理几个问题QLists 我听说 Qt 尽可能不进行列表的深层复制据我了解这意味着执行此操作时不会发生深层复制 QList
使用 angularjs 导出到 xls

我正在开发 Angular JS 应用程序但我陷入了必须使用 Angular JS 将数据导出到 Xls 的情况我在互联网上搜索了很多导出功能或任何 Angular js 库所以我可以做到这一点或者至少我可以了解如何导出我没有任何
使用 .gif 的动画启动画面

我想使用动画gif对于启动画面所以我改变了src在 config xml 中放入我的 gif 中如下所示
如何在Cocoa中绘制锥形线+椭圆形阴影

背景下图是 OS X Lion 中的 Mail app 当源列表变得太长时源列表底部的按钮上方会出现一条漂亮的阴影线当您滚动时源列表将移动到该阴影线下方当您展开窗口以使源列表中的所有内容都适合而无需滚动时阴影线就会消失问题我
Android Studio 导出带有依赖项的 jar

我在 Eclipse 中有一个带有 Maven 的项目库生成的 jar 包含一些库依赖项现在我正在迁移到 Android Studio 我想构建相同的 jar 我可以在 gradle 中生成一个包含以下几行的 jar task clea
为什么 console.log(document.getElementById( 'blah' ))) 在 Chrome 中给出不同的日志消息？

我只是在乱搞正在注销我用标准 javascript 选择的 div 但我已在 jQuery document ready fn 块内执行了该 div document ready function console log document
如何使用 Java 类的参数调用 Python 脚本

我在用Python 3 4 我有一个Python脚本myscript py import sys def returnvalue str if str hi return yes else return no print calling p
ScrollView 与 TimePicker 的滚动发生冲突，结果 Timepicker 不滚动

希望这里有一个解决方案我的 main xml 中有一个 XML TimePicker 和 ScrollView 并且设置后 TimePicker 不会滚动如果我删除 ScrollView Timepicker 会滚动得很好但显然我两者
恢复推送的 git 提交

我有一个有两个分支的存储库 master 和 dev 我正在主分支上工作并拉取并收到一条消息说存储库是最新的我提交了更改并推送到远程存储库在 github 上我收到一条消息说某些更改被拒绝然后我做了一个git pull ori
在函数内部调用对象

所以我不会在 PHP 中进行 OOP 这是我的问题我有一个对象我可以从中调用函数并且它返回一个数组这是代码 obj new OBJ function go url array obj gt grabArray url echo ar
在 fugitive.vim 冲突 diff 中显示基数

默认情况下如果您使用逃亡者 vim s Gdiff在与 git 冲突的文件缓冲区上您将得到一个三路差速器显示HEAD 工作副本带有冲突标记和merge 我喜欢有git config merge conflictstyle diff3
Azure 通知中心 - 如何在同一中心设置多个应用程序

我遇到过这样的情况我需要对多个 iOS 应用程序使用相同的通知中心对于给定的标签所有应用程序都应该接收此推送每个 iOS 应用程序都有不同的推送通知证书因此只有其中一个应用程序实际收到了推送通知我不想决定打开多个中心因为那样我
有效地将值从一列替换到另一列 Pandas DataFrame

我有一个像这样的 Pandas DataFrame col1 col2 col3 1 0 2 0 3 0 3 2 0 2 0 3 0 3 3 0 0 4 0 4 4 0 0 0 3 5 0 0 0 6 0 1 0 4 0 4 我想更换col

有效地将值从一列替换到另一列 Pandas DataFrame

有效地将值从一列替换到另一列 Pandas DataFrame 的相关文章

随机推荐

热门标签