采样 Pandas Dataframe 的最快方法？

2024-02-13

首先，我想从三个数据帧（每个 150 行）中随机采样并连接结果。其次，我想尽可能多地重复这个过程。

对于第 1 部分，我使用以下函数：

def get_sample(n_A, n_B, n_C):
    A = df_A.sample(n = n_A, replace=False)
    B = df_B.sample(n = n_B, replace=False)
    C = df_C.sample(n = n_C, replace=False)
    return pd.concat([A, B, C])

对于第 2 部分，我使用以下行：

results = [get_sample(5,5,3) for i in range(n)]

目前与n = 50.000在我的 MacBook 上，分析大约需要 1 分 40 秒。欢迎就如何提高此过程的速度提出任何建议！

PM 三个数据帧（df_A、df_B、df_C）仅在一个分类特征上有所不同。挑战在于我想要每个类别的特定数量的样本。

使用 numpy ndarrays 应该更快，因为 pandas 本身是基于 numpy 构建的。采样可以通过以下方式完成：numpy.random.choice，如所解释的here https://docs.scipy.org/doc/numpy-1.15.0/reference/generated/numpy.random.choice.html。这应该相当于pd.sample。然后你可以从 numpy 切换回 pandas。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

performance

Random

采样 Pandas Dataframe 的最快方法？的相关文章

Python在postgresql表中查找带有单引号符号的字符串

我需要从 psql 表中查找包含多个单引号的字符串我当前的解决方案是将单引号替换为双单引号如下所示 sql query f SELECT exists SELECT 1 FROM table name WHERE my column m
将 numpy 数组写入文本文件的速度

我需要将一个非常高的两列数组写入文本文件而且速度非常慢我发现如果我将数组改造成更宽的数组写入速度会快得多例如 import time import numpy as np dataMat1 np random rand 1000
更改 Altair 中的构面标题位置？

如何将方面标题在本例中为年份移动到每个图的上方默认值似乎位于图表的一侧这可以轻易改变吗 import altair as alt from vega datasets import data df data seattle weat
登录网站并使用 python 请求下载文件

我有一个带有 HTML 表单的网站登录后它会将我带到 start php 站点然后将我重定向到overview php 我想从该服务器下载文件当我单击 ZIP 文件的下载链接时链接后面的地址是 getimage php path
调整 Oracle 数据库以加快启动速度（闪回）

我正在使用 Oracle 数据库 11 2 我有一个场景我发出FLASHBACK DATABASE经常似乎有一个FLASHBACK DATABASECycle 会重新启动数据库实例大约需要 1 分钟我的设置花了 7 秒数据库很小
python是带有字符串的运算符行为[重复]

这个问题在这里已经有答案了我无法理解以下行为我正在创建 2 个字符串并使用 is 运算符来比较它对于第一种情况它的工作方式有所不同对于第二种情况它按预期工作当我使用逗号或空格时它显示是什么原因False与比较is当没有使用
使用 scipy curve_fit 拟合噪声指数的建议？

我正在尝试拟合通常按以下方式建模的数据 def fit eq x a b c d e return a 1 np exp x b c np exp x d e x np arange 0 100 0 001 y fit eq x 1 1 1
如何通过从字母数字字符中采样来创建随机字符串？

我尝试编译以下代码 extern crate rand 0 6 use rand Rng fn main rand thread rng gen ascii chars take 10 collect
动态 __init_subclass__ 方法的参数绑定

我正在尝试让类装饰器工作装饰器会添加一个 init subclass 方法到它所应用的类但是当该方法动态添加到类中时第一个参数不会绑定到子类对象为什么会发生这种情况举个例子这是可行的下面的静态代码是我试图最终得到的示例 cl
`list()` 被认为是一个函数吗？

list显然是内置类型 https docs python org 3 library stdtypes html list在Python中我看到底下有一条评论this https stackoverflow com a 53645813
Python多处理错误“ForkAwareLocal”对象没有属性“连接”

下面是我的代码我面临着多处理问题我看到这个问题之前已经被问过我已经尝试过这些解决方案但它似乎不起作用有人可以帮我吗 from multiprocessing import Pool Manager Class X def init
distutils.errors.DistutilsPlatformError：需要 Microsoft Visual C++ 14.0

我想安装Pandas在我的机器上但出现以下消息错误 distutils errors DistutilsPlatformError 需要 Microsoft Visual C 14 0 获取它与 Microsoft Visual C 构
Python 惰性迭代器

我试图了解迭代器表达式如何以及何时被求值以下似乎是一个懒惰的表达 g i for i in range 1000 if i 3 i 2 然而这个在构造上失败了 g line strip for line in open xxx r if
如何使用 Keras ImageDataGenerator 预测单个图像？

我已经训练 CNN 对图像进行 3 类分类在训练模型时我使用 keras 的 ImageDataGenerator 类对图像应用预处理功能并重新缩放它现在我的网络在测试集上训练得非常准确但我不知道如何在单图像预测上应用预处理功能如
检测 IDLE 的存在/如何判断 __file__ 是否未设置

我有一个脚本需要使用 file 所以我了解到 IDLE 没有设置这个有没有办法从我的脚本中检测到 IDLE 的存在 if file not in globals file is not set 如果你想做一些特别的事情 file 未设置
如何使用 matplotlib 为圆柱体的每个单独面添加颜色

我正在尝试为圆柱体的每个面着色但是我不确定如何进行我尝试了以下方法 for i in range 10 col append for i in range 10 for j in range 20 col i append plt cm
为什么 smtplib.SMTP().sendmail 不发送 DKIM 签名邮件

我已经在服务器上设置了 postfix 以及 openDKIM 当我跑步时 echo Testing setup mail s Postfix test my email address 我收到电子邮件邮件标题中有一个DKIM Signa
Django 模型：如何使用 mixin 类来覆盖 django 模型以实现 save 等功能

我想在每次保存模型之前验证值所以我必须重写保存函数代码几乎是一样的我想把它写在 mixin 类中但失败了我不知道如何写 super func 我英语不好抱歉 class SyncableMixin object def sav
长/宽数据到宽/长

我有一个数据框如下所示 import pandas as pd d decil 1 decil 1 decil 2 decil 2 decil 3 decil 3 decil kommune AA BB AA BB AA BB 2010
使用 urllib 编码时保持 url 参数有序

我正在尝试用 python 模拟 get 请求我有一个参数字典并使用 urllib urlencode 对它们进行 urlencode 我注意到虽然字典的形式是 k1 v1 k2 v2 k3 v3 urlencoding 后参数的顺序切

随机推荐

ImportError：当我尝试通过 python pip 安装 Fabric 时，没有名为“pip._vendor.distlib.scripts”的模块

当我在CentOS4 9上运行此命令时会发生这样的错误我尝试在谷歌中搜索它但没有找到看来我是第一个遇到这样问题的人 pip 安装结构 Traceback most recent call last File usr local bin
针对单个端点多个帖子请求的开放 API 文档

我正在尝试为我的单端点 API 提供 Swagger Open Api 文档我的单一端点看起来像 POST http localhost api v1 process http localhost api v1 process 帖子正文决
时间戳间隔

我有一个名为 s timestamp 的列如何返回时间戳中包含当前日期的所有记录例如 s timestamp 2012 12 27 1 00 00 2012 12 27 2 00 00 2012 12 26 0 00 01 2012 1
Spring Boot JSON 解析错误：无法反序列化错误

timestamp 2018 07 18T11 02 29 789 0000 status 400 error Bad Request message JSON parse error Cannot deserialize instance
我如何知道 BigDecimal 是否解析失败？

我正在从 csv 导入数据我需要将一些值转换为 BigDecimal 如果无法解析它们则会引发错误根据测试 BigDecimal invalid number 返回 BigDecimal 0 这应该没问题但有点混乱除了有效值为 0
如何找出哪个网卡连接到互联网？

考虑以下设置一台带有 LAN 接口和 WiFi 接口任何新笔记本电脑的标准的 Windows PC 每个接口都可能与网络连接或断开我需要一种方法来确定哪个适配器连接到互联网具体来说如果它们都连接到不同的网络一个连接到互联网一
输入 5 个字符后 Google 地点自动填写地址表单

我正在使用从 Google Developer 网站获取的代码 https developers google com maps documentation javascript examples places autocomplete a
以编程方式在 Visual Studio 项目文件中添加和编辑目标

我正在尝试以编程方式将以下目标添加到我的 Visual Studio 项目文件中
扫描仪分隔符无法按输入文件的预期工作（Java）

我正在编写一个程序来从文本文件读取输入该文件始终遵循 char int 格式如下所示 A 3 B 1 C 2 D 2 这里是eof 我想读入字符及其相应的数字忽略冒号在我的程序中我有以下声明和初始化 String fileName
如何展开一个长数字（以 e+## 结尾）以展开形式显示？

所以这可能是一个简单的问题但我在任何地方都找不到答案举个例子我有一个简单的程序我想将 a 除以 b 如下所示 def main a 12345678900000000 b 1 25 answer a b print answer
警告：使用服务器端 selectize 可以大幅提高 RShiny 的性能

在 RShiny 应用程序中我收到警告消息Warning message The select input the input id contains a large number of options consider using se
如何在突出显示jekyll中删除不必要的缩进和换行

我用杰基尔code highlight with gem rouge 模板 Jekyll 简单博客感知静态站点 https jekyllrb com docs templates 代码 index html layout default
@font-face 在 IE10 上本地工作，但在服务器上不起作用

我检查了一下字体文件在服务器上 font face font family DroidSerifRegular src url fontface DroidSerif Regular webfont eot src url fontfac
使用Socket或UdpClient进行多播有功能上的区别吗？

我正在熟悉多播等主要使用了 2 个示例 Using Socket with Bind UDPClient JoinMulticastNetwork 一个指定一个离开组播组 http www dart com udp multicast c
使用 ini 文件进行 Spring MVC 和 Shiro 配置

我正在尝试使用 Spring MVC 和 Apache Shiro 建立一个环境我正在关注 shiro apache org 中提到的文章我在 web xml 中使用 Spring 的 DelegatingFilterProxy 作为
将 Unicode 文本写入文本文件？

我从 Google 文档中提取数据对其进行处理然后将其写入文件最终我会将其粘贴到 Wordpress 页面中它有一些非 ASCII 符号如何将这些安全地转换为可在 HTML 源代码中使用的符号目前我正在将所有内容转换为 Uni
选择排序算法的标准是什么？

我正在阅读排序方法其中包括冒泡排序选择排序合并排序堆排序桶排序等它们还包含时间复杂度可以帮助我们知道哪种排序是有效的所以我有一个基本问题如果我们包含数据那么我们将如何选择排序时间复杂度是帮助我们决定排序方法的参数之一
我想从网页中提取数据，但最后我无法在工作表中写入数据。数据是表格形式（多行，列）？

无法从网页中提取数据并且在工作表中写入数据也出现问题子拉取数据宣言 Dim IE As Object Dim doc As HTMLDocument 启动应用程序 Set IE CreateObject InternetExplore
Alloy 内置整数数学函数在导入的文件中不起作用

我在 avlTree als 中有一个合金模型该模型使用整数算术特别是加号和减号函数该模型中有一些断言我可以使用合金分析器 GUI 很好地运行这些断言我在 test als 中有另一个合金模型该模型导入 avlTree 使用 o
采样 Pandas Dataframe 的最快方法？

首先我想从三个数据帧每个 150 行中随机采样并连接结果其次我想尽可能多地重复这个过程对于第 1 部分我使用以下函数 def get sample n A n B n C A df A sample n n A replace

采样 Pandas Dataframe 的最快方法？

采样 Pandas Dataframe 的最快方法？ 的相关文章

随机推荐

热门标签

采样 Pandas Dataframe 的最快方法？的相关文章