将 pandas 数据帧拆分为子数据帧列表的最快方法

2024-05-16

我有一个大数据框df我有完整的清单indices中的独特元素df.index。我现在想创建一个由元素索引的所有子数据帧的列表indices;具体来说

list_df = [df.loc[x] for x in indices]

运行这个命令需要很长时间（df有大约3e6行，以及3e3唯一索引）。这是执行此操作的合理方法吗？我很高兴收到任何可以提高此问题及相关问题性能的意见或建议。

提前致谢！

您可以使用列表理解groupby http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.groupby.html按索引的对象 -level=0, sort=False更改默认排序以获得更快的解决方案：

L = [x for i, x in df.groupby(level=0, sort=False)]

np.random.seed(123)
N = 1000
L = list('abcdefghijklmno')
df = pd.DataFrame({'A': np.random.choice(L, N),
                   'B':np.random.randint(10, size=N)}, index=np.random.randint(100, size=N))

In [273]: %timeit [x for i, x in df.groupby(level=0, sort=False)]
100 loops, best of 3: 9.91 ms per loop

In [274]: %timeit [df.loc[x] for x in df.index]
1 loop, best of 3: 417 ms per loop

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

performance

pandas

DataFrame

将 pandas 数据帧拆分为子数据帧列表的最快方法的相关文章

如何绘制日期和月份

我有一张随时间变化的每日趋势图表年份与此处无关我只想显示日期和月份我知道你可以显示年份和月份但事实并非如此我尝试创建一个名为 Day Month 的新变量 import datetime as dt df Day df date
Matlab 和 Python 中的优化算法（dog-leg trust-region）

我正在尝试使用 Matlab 和 Python 中的狗腿信赖域算法求解一组非线性方程在Matlab中有fsolve https www mathworks com help optim ug fsolve html其中此算法是默认算法而
删除网格线，但保留框架（matplotlib 中的 ggplot2 样式）

使用 Matplotlib 我想删除图中的网格线同时保留框架即轴线我已经尝试过下面的代码和其他选项但我无法让它工作如何在删除网格线的同时保留框架我这样做是为了在 matplotlib 中重现 ggplot2 图我在下面创建了一
通过 rpy2 将 numpy 数组传递给 R 时出现不一致数组

我正在尝试将 numpy 数组传递到 R 中的 GAMLSS 包 import numpy as np import rpy2 robjects as robjects from rpy2 robjects import numpy2ri
使用Python下载YouTube视频到某个目录

我已尝试使用以下代码在 YouTube 中下载视频并且它可以正常工作但我想将视频保存在特定位置现在它正在将视频保存在C Users Download 如果我想将视频保存在桌面上我需要对代码进行哪些更改 from future impo
使用 Python 自动化旧的 DOS 应用程序

有没有办法从Python 在Windows上自动化旧的DOS应用程序 16位可能需要模拟器例如DOSBox 我想将密钥和字符串发送到应用程序检测 DOS 屏幕的更新并获取应用程序输出如果 DOS 应用程序能够隐藏运行即不显
lmfit 最小化失败并出现 ValueError：数组太大

我正在尝试使用暴力方法来最小化 20 个变量的函数它因神秘错误而失败这是完整的代码 import random import numpy as np import lmfit def progress update params i
多输出回归问题的多重损失

所以我试图训练一个 CNN 模型来预测 4 个实值输出回归问题我尝试使用均方误差作为损失函数我的问题是我是否将输出层分支为 4 个不同的输出层其中有 4 个不同的输出层由于最后一层的权重是单独更新的 loss 4 MSE 确实可以使
如何在 difflibs html 输出中突出显示每行超过两个字符

我在用difflib HtmlDiff比较两个文件我希望在输出的 html 中突出显示差异当一行中最多有两个不同的字符时这已经有效 a 2 000 b 2 120 但是当一行上有更多不同的字符时在输出中整行将被标记为红色在左侧
ValueError：当数组不是序列时设置带有序列的数组元素

您好此代码旨在存储使用 open cv 绘制的矩形的坐标并将结果编译为单个图像 import numpy as np import cv2 im cv2 imread 1 jpg im3 im copy gray cv2 cvtColo
如何为python虚拟环境设置特定的python版本？ [复制]

这个问题在这里已经有答案了我是 python 的新手我正在尝试为我的项目添加一个新环境该环境在我当前的环境 Python 3 7 5 上运行良好添加所有依赖项后我遇到了 pyttsx3 包的问题用于 python 文本到语音进
如何使用ssl启动flask_socketio应用程序？

我应该如何使用 SSL 将 app run 转换为 sockio run 我有下面的应用程序启动代码与 Flask 开发服务器一起运行 if name main app run ssl context ssl cert ssl key 我现
清除pyqt中布局中的所有小部件

有没有办法清除删除布局中的所有小部件 self plot layout QtGui QGridLayout self plot layout setGeometry QtCore QRect 200 200 200 200 self r
Python 中 `if name == "__main__"` 是什么意思？ [复制]

这个问题在这里已经有答案了可能的重复 name main gt 做什么 https stackoverflow com questions 419163 what does if name main do 我已经用 Python 编写脚本
functools.partial 想要使用位置参数作为关键字参数

所以我试图理解partial import functools def f x y print x y g0 functools partial f 3 g0 1 4 Works as expected In g1 functools pa
使用OIL自动旋转手机和加速度计拍摄的照片

我在网络应用程序中使用 Django PIL Amazon boto 用户发送图片然后 Web 应用程序显示它大多数情况下人们会发送用手机拍摄的照片有时图像以错误的方向显示有没有办法使用 PIL 或 Django 的 Image
Python libusb pyusb“mach-o，但架构错误”

我在使用 pyusb 模块时遇到一些问题我已将问题范围缩小到一行并创建了一个小示例脚本来复制错误 usr bin env python This module was created to isolate the problem in
如何将焦点集中到 python Tkinter 文本小部件？

我希望能够打开应用程序 GUI 并让它自动将光标放置到特定的文本小部件中最好的情况是应用程序启动后有人就可以开始输入而无需单击文本小部件这只是显示问题的一个小示例 from Tkinter import root Tk Windo
使用 NumPy 函数计算 Pandas 的加权平均值

假设我们有一个像这样的 pandas 数据框 a b id 36 25 2 40 25 3 46 23 2 40 22 5 42 20 5 56 39 3 我想执行一个操作 a div b 然后按 id 分组最后使用 a 作为权重计算加权
在 Python 中窗口“失焦”时读取 HID 输入

我在一个问题上苦苦挣扎了好几天但无法让它发挥作用我刚刚开始使用 python 现在已经面临着我在这个项目中将面临的最大问题情况是这样的我必须编写一个扫描条形码的程序将其传达给在线服务并打印 PDF 这一切都很好但我也想在窗口失

随机推荐

Spotify Apps API：库类不会返回用户播放列表

我试图获取一个包含用户库中所有播放列表的数组 http developer spotify com download spotify apps api reference dcdebc652c html 其他类属性专辑艺术家加星标的播
Perl 的反引号、system 和 exec 有什么区别？

有人可以帮帮我吗在 Perl 中以下之间有什么区别 exec command and system command and print command 还有其他方法可以运行 shell 命令吗 exec 执行命令并一去不复返这就像一个
我们什么时候在 javascript 导入中使用“{ }”？ [复制]

这个问题在这里已经有答案了我正在学习 Javascript 导入但我还不明白当我们从另一个 JS 文件导入项目函数对象变量时使用花括号 import Search from models Search import as sea
如何禁用 Alt + F4 关闭表单？

What is the best way to disable Alt F4 in a c win form to prevent the user from closing the form 我使用表单作为弹出对话框来显示进度条但我不希
我应该定义索引（A）和索引（B），还是索引（A，B），或者两者都定义？

在我的表中我有两个密切相关的列 A 和 B 我应该考虑哪些因素来决定是否创建索引 A 和索引 B 索引 A B 以上两者如果我仅使用类似的查询where A 5 and B 10 并且从不喜欢where A 5 也可以使用类似的查询
如何使用 Plotly 将两张图合并为一张图？

我有2个csv文件我的代码如下 df pd read csv test csv sep t skiprows range 9 names A B C D df2 pd read csv LoadMatch Limit csv skipro
两个程序对象运行时比较的方法

我正在进行一种特定类型的代码测试该测试相当麻烦并且可以自动化但我不确定最佳实践在描述问题之前我想澄清一下我正在寻找合适的术语和概念以便我可以阅读有关如何实现它的更多信息当然欢迎就最佳实践提出建议但我的目标很具体这种方法叫
有没有办法在不使用 foreach 或其他函数的情况下在 PHP 中内爆关联数组的键和值？

我有一个像这样的关联数组 myarray array a gt 1 b gt 2 c gt 3 我想显示数组键和值如下所示 a is 1 b is 2 c is 3 我不想使用 print r 或 var dump 来执行此操作我也不想
WebSocket 无法与 DNS 配合使用

我有一个网络应用程序我正在使用 websockets 我在使用 ws myDomain com 作为 websocket 服务器的地址时遇到问题这个问题很奇怪因为我使用许多 PC 测试了连接似乎这适用于大约 1 5 的 PC 当我将
Haskell / GHC - 是否有“警告不完整模式”的中缀标签/编译指示

我正在寻找一个可以对特定的不完整模式发出警告的编译指示它会使编译器失败并显示以下假设的代码 FAILIF incomplete patterns f Int gt Int f 0 0 我正在尝试使用 Arrows 编写一个编译器并
改进R中从google获取股票新闻数据的功能

我已经编写了一个函数来从 Google 获取和解析给定股票代码的新闻数据但我确信有一些方法可以改进它对于初学者来说我的函数返回一个 GMT 时区的对象而不是用户当前的时区如果传递的数字大于 299 它就会失败可能是因为 goog
在 ServiceStack 中传达必需/可选 DTO 属性的最佳方式是什么？

我的 ServiceStack w Swagger 实现在记录必需可选属性方面遇到问题实现使用我的服务的客户端的开发人员喜欢 Swagger 文档但是他们不知道哪些属性是必需的哪些属性是可选的除了每次尝试获取有效请求时都会收到 4
Facebook 分享按钮返回错误

示例网址这就是 Share JS 生成的内容如果您访问链接解码后 com 2011 09 2124 rugby world cup daily tonga beat japan 您可以查看源代码并查看开放图元标签如果分享网址更改为
如何在 Rails 测试中测试 params 哈希？

以下内容会生成错误未定义的局部变量或方法 params assert equal params recipient id users one id 如何测试参数哈希另外你如何测试assert redirect当存在参数时参数附加到
bootstrap css - 如何在不影响背景的情况下使模式对话框模式化

在 bootstrap css 中可以显示模式对话框但我希望能够使其成为模式对话框这样后面的 UI 就不会响应而不会显示深黑色背景似乎没有选项允许我在 selector modal 函数上执行此操作 add data backdr
C++ 如何将连续的区间插入到 std::vector 中？

假设我希望从 23 到 57 的所有数字都在vector 我可以做这个 vector
当最初在范围内设置值时，日期选择器弹出格式不起作用

我正在使用 Angular UI 引导日期选择器弹出窗口并在 Plunker 上使用此自定义指令 http plnkr co edit 053VJYm1MpZUiKwFTfrT p preview http plnkr co edit 0
AWS Elastic Beanstalk 一次也不会部署我的 Rails 应用程序

我目前正在使用 Ruby 2 6 running on 64bit Amazon Linux 2 3 0 2 图像并通过查看EC2实例内部的 var logs eb engine log eb logs 命令不会 t 告诉我这个反复出现
如何在 C# 中向类、方法、属性等添加文档工具提示？

不确定我的说法是否正确但我想开始向我的类方法属性等添加一些文档我know这可能是非常明显的但我从未真正学会过我不知道从哪里开始只是为了澄清每当您滚动某个类或方法属性等时它都会在 Visual Studio 中显示一个
将 pandas 数据帧拆分为子数据帧列表的最快方法

我有一个大数据框df我有完整的清单indices中的独特元素df index 我现在想创建一个由元素索引的所有子数据帧的列表indices 具体来说 list df df loc x for x in indices 运行这个命令需要很长时

将 pandas 数据帧拆分为子数据帧列表的最快方法

将 pandas 数据帧拆分为子数据帧列表的最快方法 的相关文章

随机推荐

热门标签

将 pandas 数据帧拆分为子数据帧列表的最快方法的相关文章