是否有更快的方法根据条件更新数据框列值？

2024-06-03

我正在尝试处理数据框。这包括创建新列并根据其他列中的值更新其值。更具体地说，我有一个预定义的“源”，我想对其进行分类。该来源可以分为三个不同的类别“source_dtp”、“source_dtot”和“source_cash”。我想向数据框中添加三个新列，这些新列由基于原始“源”列的 1 或 0 组成。

我目前能够做到这一点，只是真的很慢...

原始专栏示例：

source
_id                     
AV4MdG6Ihowv-SKBN_nB    DTP
AV4Mc2vNhowv-SKBN_Rn    Cash 1
AV4MeisikOpWpLdepWy6    DTP
AV4MeRh6howv-SKBOBOn    Cash 1
AV4Mezwchowv-SKBOB_S    DTOT
AV4MeB7yhowv-SKBOA5b    DTP

期望的输出：

source_dtp  source_dtot source_cash
_id         
AV4MdG6Ihowv-SKBN_nB    1.0 0.0 0.0
AV4Mc2vNhowv-SKBN_Rn    0.0 0.0 1.0
AV4MeisikOpWpLdepWy6    1.0 0.0 0.0
AV4MeRh6howv-SKBOBOn    0.0 0.0 1.0
AV4Mezwchowv-SKBOB_S    0.0 1.0 0.0
AV4MeB7yhowv-SKBOA5b    1.0 0.0 0.0

这是我目前的方法，但速度很慢。我更喜欢矢量化的形式来执行此操作，但我不知道如何操作 - 因为条件非常复杂。

# For 'source' we will use the following classes:
source_cats = ['source_dtp', 'source_dtot', 'source_cash']
# [0, 0, 0] would imply 'other', hence no need for a fourth category

# add new features to dataframe, initializing to nan
for cat in source_cats:
    data[cat] = np.nan

for row in data.itertuples():
    # create series to hold the result per row e.g. [1, 0, 0] for `cash`
    cat = [0, 0, 0]
    index = row[0]
    # to string as some entries are numerical
    source_type = str(data.loc[index, 'source']).lower()
    if 'dtp' in source_type:
        cat[0] = 1
    if 'dtot' in source_type:
        cat[1] = 1
    if 'cash' in source_type:
        cat[2] = 1
    data.loc[index, source_cats] = cat

我正在使用 itertuples()，因为事实证明它比 interrows() 更快。

有没有faster如何实现与上述相同的功能？

编辑：这不仅仅是关于创建一种热门编码。它归结为根据另一列的值更新列值。例如。如果我有一定的location_id我想更新其各自的longitude and latitudecolumns - 基于原始 id （无需按照我上面的方式进行迭代，因为对于大型数据集来说它确实很慢）。

另一种方法是使用pd.get_dummies https://pandas.pydata.org/pandas-docs/stable/generated/pandas.get_dummies.html#pandas-get-dummies在数据框上。首先将“_id”放入索引中。

source = source.set_index('_id')
df_out = pd.get_dummies(source).reset_index()

print(df_out)

Output:

                    _id  source_Cash 1  source_DTOT  source_DTP
0  AV4MdG6Ihowv-SKBN_nB              0            0           1
1  AV4Mc2vNhowv-SKBN_Rn              1            0           0
2  AV4MeisikOpWpLdepWy6              0            0           1
3  AV4MeRh6howv-SKBOBOn              1            0           0
4  AV4Mezwchowv-SKBOB_S              0            1           0
5  AV4MeB7yhowv-SKBOA5b              0            0           1

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

是否有更快的方法根据条件更新数据框列值？的相关文章

重新索引错误没有意义

I have DataFrames大小在 100k 到 2m 之间我正在处理这个问题的框架是如此之大但请注意我必须对其他框架执行相同的操作 gt gt gt len data 357451 现在这个文件是通过编译许多文件创建的所以它
Python sqlite3参数化删除表

我在 python 中删除 sqlite3 表时遇到问题我正在使用标准sqlite3模块 self conn sqlite3 connect sql drop table self conn execute sql u table nam
了解 asyncio 已经运行的永久循环和挂起的任务

我在理解如何将新任务挂起到已经运行的事件循环中时遇到问题这段代码 import asyncio import logging asyncio coroutine def blocking cmd while True logging in
类型错误：需要 Future 或协程

我尝试在 asyncssh 上自动重新连接 ssh 客户端 SshConnectManager 必须留在后台并在需要时进行 ssh 会话 class SshConnectManager object def init self host u
如何在Python中求和

我想知道如何在 python 中表示总和而不需要像这样的循环here http docs scipy org doc scipy reference tutorial optimize html 我们有 def rosen x The Ro
根据给定列表中的值替换列中的值[重复]

这个问题在这里已经有答案了我在数据框中有一列仅允许定义列表中存在的值例如给定列表 l1 1 2 5 6 如果列表中不存在列中的值我需要将每个值替换为 0 column Expected column 1 1 5 5 2 2 3 0
如何删除 pandas 数据框中的唯一行？

我遇到了一个看似简单的问题在 pandas 数据框中删除唯一的行基本上相反drop duplicates https pandas pydata org pandas docs stable generated pandas Data
如何绘制多类分类器的精度和召回率？

我正在使用 scikit learn 我想绘制精度和召回曲线我正在使用的分类器是RandomForestClassifier scikit learn 文档中的所有资源都使用二元分类另外我可以绘制多类的 ROC 曲线吗另外我只找到
使用 Python 脚本打开特定文件类型？

如何使 Python 脚本成为特定文件类型例如 foo 的默认应用程序例如当我双击 Finder Explorer 中的文件时我希望该文件在 Python 脚本中打开这可以在 Win 和或 OS X 中实现吗如果重要的话该应
Scrapy的redirect_urls异常.KeyError

我是 Scrapy 和 Python 的新手最近推出了我的第一个蜘蛛有一个功能似乎以前有效但现在它只适用于我试图废弃的一些网站代码行是 item url direct response request meta redirect u
如何使用 pygame.mixer 重复音乐？

我创建了以下使用 pygame mixer 播放 mp3 音乐的代码然而音乐不会重复有什么想法可以让音乐重复播放吗这是代码 playlist list playlist append put music here mp3 playl
当价格低于阈值时使用 pandas DataFrame 实施矢量化止损

给出这个示例数据框 date close signal positions 2017 01 02 27 90 0 0 0 0 2017 01 03 27 76 0 0 0 0 2017 01 04 28 65 1 0 1 0 2017 01
如何限制scrapy请求对象？

所以我有一个蜘蛛我认为它正在泄漏内存结果当我检查 telnet 控制台 gt gt gt prefs 时它只是从链接丰富的页面中抓取了太多链接有时它会超过 100 000 个现在我已经一遍又一遍地浏览文档和谷歌但我找不到一种方法
如何将 fields 参数传递到 Google Drive Python API 调用中

I have results drive service files list body execute where body q query string maxResults 1 为了提高性能我想限制返回的字段如下所述 https
Scrapy 抓取并跟踪 href 中的链接

我对 scrapy 很陌生我需要从 url 的主页跟踪 href 到多个深度再次在 href 链接内我有多个 href 我需要遵循这些href 直到到达我想要抓取的页面我的页面的示例 html 是初始页 div class page
Matplotlib 中的 TwoSlopeNorm 未按预期工作

我正在尝试创建一个具有发散颜色图的绘图该颜色图在零附近不对称 In this https stackoverflow com a 20146989 6288682例如 DivergingNorm函数被使用并产生我想要的然而我使用的是更
VSCode无法切换matplotlib后端：ImportError：无法加载需要“qt5”交互框架的后端“Qt5Agg”

我只想通过在 VSCode 中运行 Python 来进行绘图但结果失败了我无法将后端从 agg 切换到 Qt5Agg 但是我可以在 VSCode 的终端中轻松执行此操作 VSCode集成终端中的问题如下所示我尝试了各种解决方案但失败
在至少 7 天内连续三天登录该产品的用户

我有一个用于用户参与的数据框 df 如下所示 time stamp user id 2013 01 01 10 05 23 1 2013 01 03 16 35 23 1 2013 01 06 11 06 35 1 2013 01 10 1
部署 Flask 应用程序时如何检测额外文件的更改并重新加载应用程序？ [关闭]

Closed 这个问题需要调试细节 help minimal reproducible example 目前不接受答案我在 Flask 中构建了一个小型 Web 应用程序并尝试将其部署在 Pythonanywhere 上在开发过程中
通过 ManyToManyField = Value 对 django 查询集进行排序

如果有一些模型例如 class Tag models Model name models CharField class Thing models Model title models CharField tags models Many

随机推荐

ScrollTop 在 Chrome/Safari 中不起作用

我的网站上有一个循环内的表单当有人提交表单时查询字符串会添加到 URL 中例如 updated 111 然后我的 JQuery 脚本检查数字的 url 并在提交表单并重新加载页面后滚动到该 div 该脚本在 Firefox 中运行良
在网络浏览器上显示 UTF-16 字符

我打印了一些 UTF 16 编码的字符并尝试在 Firefox 中显示它它显示为所以我进入工具 gt 编码并将编码从 UTF 8 更改为 UTF 16 我也尝试直接在 HTML 中更改字符集但是当我这样做时我的页面完全被符号淹
为什么 Netbeans 无法识别“cbegin()”、“cend()”、“unordered_set”以及其他 C++ 功能？

我的 C 应用程序在 Netbeans 中按预期编译和运行但是代码帮助不识别诸如以下的术语 cbegin cend unordered set 如红色下划线所示代码帮助确实可以识别end 然而我尝试转到项目 gt 属性 gt 代码
常见问题解答：为什么仅当类至少有 1 个虚拟方法时，dynamic_cast 才有效？

这在 C 中无法编译 class A class B public A A a new B B b dynamic cast
实体框架 - 实体类型之间的关联已被切断问题

您好当我尝试删除绑定表中的一行时我遇到了实体框架问题这些表看起来像这样 Table Users public class UserEntity BaseEntity Required MaxLength 30 public str
AWS CDK Secrets Manger 获取完整的 arn (python)

我正在尝试创建一个使用需要秘密的脚本的金丝雀资源我正在尝试向金丝雀角色添加政策声明我将其作为 cdk 的一部分创建为此我需要获取完整的秘密 arn 我可以使用以下命令获取部分 arn secret from name secrets
使用 Python 在 Azure 存储 blob 中创建 PDF 文件的最佳方法是什么？

我是 Python 新手我提出了使用 Python 脚本创建包含 SQL Server 中可用数据的 PDF 文件的要求据我研究有许多库可用于此目的但大多数方法是生成 HTML 字符串然后将其转换为本地目录中的 PDF 文件但他
Python + Pandas 中的差异

我正在尝试执行差异中的差异 https en wikipedia org wiki Difference in differences 使用面板数据和固定效应使用 Python 和 Pandas 进行分析我没有经济学背景我只是想过滤数
获取插入符位置上的当前单词

如何通过当前插入符号位置获取 textarrea 中的单词我尝试了类似的操作但是这仅返回单词的第一个字母到插入符号位置的字符例如如果光标位于fo and o它返回fo并不是foo正如预期的那样 Fo o bar 不等于 bar fo
错误：redirect_uri_mismatch google api oauth2 获取访问令牌

我的代码中出现以下错误 400 错误请求错误 redirect uri mismatch 我不明白出了什么问题我似乎按照其规范中的定义正确使用了 google api 在开发人员控制台中创建已安装的应用程序后我从浏览器获取了授权代码并
使用 Python ftplib 的 FTPS - 需要会话重用

因此我尝试连接到 FTP 服务器以获取目录列表并下载文件但是之后的第一个命令prot p 函数引发异常从日志中产生这些错误 get 150 Here comes the directory listing r n resp 150 H
如何将 Cookie 集合转换为通用列表？容易地

任何人都知道我如何转换Request Cookies into a List
无法在 Eclipse 中运行 SDL 程序，但可以在 Windows 资源管理器中运行

我已经安装并设置了 SDL 并设法获得了一个要构建的教程示例教程代码来自http zamma co uk setup sdl2 eclipse windows http zamma co uk setup sdl2 eclipse win
queue.empty 并在空时执行 put

假设我有一个包含两个元素的队列我使用 get 循环遍历队列弹出项目我担心一旦弹出第二个元素循环就会停止循环并且由于某些错误我需要重新处理它所以我把它放回队列中但它不会因为那时队列是空的 My loop while not q
NewGuid 与 System.Guid.NewGuid().ToString("D");

使用生成 GUID 时有区别吗NewGuid vs System Guid NewGuid ToString D 或者它们是同一件事我意识到这个问题已经有了一个公认的答案但我认为分享一些有关格式化指南的信息会很有用 The ToStri
索尼 SmartWatch 2 定制表盘自固件更新后损坏

我知道这将是这个的重复 gt SW2 更新后如何修复 Sony SmartWatch 2 上的自定义表盘时间 https stackoverflow com questions 27536415 how to fix custom watc
将 Angular CLI 与 Squarespace 集成

我很想知道是否有人能够在 Squarespace 站点中成功使用 Angular CLI 我一直在寻找这个问题的答案但找不到解决方案我知道您可以将自定义脚本添加到 Squarespace 站点和或通过 CDN 添加脚本但 Angul
如何解决内存分段并强制FastMM释放内存给OS？

注意 32 位应用程序不计划迁移到 64 位我正在使用一个非常消耗内存的应用程序并且几乎优化了与内存分配取消分配相关的所有相关路径应用程序本身没有内存泄漏没有句柄泄漏没有任何其他类型的泄漏据我所知并经过测试我无法触及的第 3
修复 Django1.9 中检测到的冲突迁移

我更新了Django 动态模型 https github com dobarkod django dynamic model支持 Django 1 9 的存储库我收到这个错误 CommandError Conflicting migrat
是否有更快的方法根据条件更新数据框列值？

我正在尝试处理数据框这包括创建新列并根据其他列中的值更新其值更具体地说我有一个预定义的源我想对其进行分类该来源可以分为三个不同的类别 source dtp source dtot 和 source cash 我想向数据框中添加三

是否有更快的方法根据条件更新数据框列值？

是否有更快的方法根据条件更新数据框列值？ 的相关文章

随机推荐

热门标签

是否有更快的方法根据条件更新数据框列值？的相关文章