根据给定分布对数据帧进行采样

2024-04-26

如何根据给定的类\标签分布值对 pandas 数据框或 graphlab sframe 进行采样，例如：我想对具有标签\类列的数据框进行采样以选择行，以便平等地获取每个类标签，从而具有相似的频率对于每个类标签对应一个均匀分布的类标签。或者最好是根据我们想要的类别分布获取样本。



+------+-------+-------+
| col1 | clol2 | class |
+------+-------+-------+
| 4    | 45    | A     |
+------+-------+-------+
| 5    | 66    | B     |
+------+-------+-------+
| 5    | 6     | C     |
+------+-------+-------+
| 4    | 6     | C     |
+------+-------+-------+
| 321  | 1     | A     |
+------+-------+-------+
| 32   | 432   | B     |
+------+-------+-------+
| 5    | 3     | B     |
+------+-------+-------+

given a huge dataframe like above and the required frequency distribution like below:
+-------+--------------+
| class | nostoextract |
+-------+--------------+
| A     | 2            |
+-------+--------------+
| B     | 2            |
+-------+--------------+
| C     | 2            |
+-------+--------------+

上面的代码应该根据第二帧中给定的频率分布从第一个数据帧中提取行，其中频率计数值在 nostoextract 列中给出，以给出采样帧，其中每个类最多出现 2 次。如果找不到足够的类来满足所需的数量，则应忽略并继续。生成的数据帧将用于基于决策树的分类器。

正如评论员所说，采样的数据帧必须包含 nostoextract 相应类的不同实例？除非给定的类没有足够的示例，在这种情况下，您只需采用所有可用的示例。

您可以将第一个数据帧拆分为特定于类的子数据帧，然后从中随意采样吗？

i.e.

dfa = df[df['class']=='A']
dfb = df[df['class']=='B']
dfc = df[df['class']=='C']
....

然后，在 dfa、dfb、dfc 上拆分/创建/过滤后，根据需要从顶部选择一个数字（如果数据帧没有任何特定的排序模式）

 dfasamplefive = dfa[:5]

或者使用之前评论者描述的样本方法直接随机抽样：

dfasamplefive = dfa.sample(n=5)

如果这满足您的需求，剩下要做的就是自动化该过程，输入要从您拥有的控制数据帧中采样的数字，作为包含所需样本数量的第二个数据帧。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

根据给定分布对数据帧进行采样的相关文章

有没有办法使用 Mayavi 填充陀螺仪表面的一侧？

我正在使用 Mayavi 绘制陀螺仪的等值面我的问题是我需要通过填充两个生成区域的一侧来获得更坚固的结构在下面的图片中您可以看到我生成的等值面的外观以及填充一侧后的外观我生成的等值面它应该是什么样子等值面可以通过以下方程生成 U
字符串的“相关矩阵”。名义数据的相似度

这是我的数据框 df store 1 store 2 store 3 store 4 0 banana banana plum banana 1 orange tangerine pear orange 2 apple pear melon
pandas 使用查询功能检查列是否为空

我有 pandas 数据框我想在它的查询函数上执行 isnull 或 not isnull 条件如下所示 In 67 df data pd DataFrame a 1 20 None 40 50 In 68 df data Out 68
pandas 用 nan 值切割了一系列

我想将 pandas cut 函数应用于包含 NaN 的序列期望的行为是它对非 NaN 元素进行存储并为 NaN 元素返回 NaN import pandas as pd numbers with nan pd Series 3 1 2
Keras AttributeError：“顺序”对象没有属性“predict_classes”

我试图按照本指南找到模型性能指标 F1 分数准确性召回率 https machinelearningmastery com how to calculate precision recall f1 and more for deep l
在heroku实例上安装PIL

我创建了一个python flask托管在heroku上的应用程序我很有趣PILpython 中的图像库我无法安装PIL在heroku实例中我尝试过以下几种方法方法一 Added PIL 1 1 7 in requirements
Pytorch“展开”等价于 Tensorflow [重复]

这个问题在这里已经有答案了假设我有大小为 50 50 的灰度图像在本例中批量大小为 2 并且我使用 Pytorch Unfold 函数如下所示 import numpy as np from torch import nn from
在 Spark-submit 上的 _find_and_load 中获取文件“”，第 991 行

我目前使用的是Python 3 7 9 spark spark 2 4 6 bin hadoop2 6 在这个项目 venv 中我的设置为 kafka python 2 0 2 pip 21 2 4 py4j 0 10 9 pyspark
如何读取 10 位原始图像？其中包含 RGB-IR 数据

我想知道如何从我的 10 位原始它有 rgb ir 图像数据数据中提取 RGB 图像如何使用 Python 或 MATLAB 进行阅读拍摄时的相机分辨率为 1280x720 室内照片图片下载 https drive google c
读取 JSON 文件并将其漂亮打印到另一个文件

我有一个复杂嵌套的 json 文本文件它是文本文件中的一长行有什么方法可以读取文件在 python 中并将 json 缩进漂亮地打印到新的文本文件中吗使用读取文件json load 并使用json dump 在指定缩进值时将
在 matplotlib 中查看然后自动关闭图形？

我必须检查我的参数设置是否正确因此我需要绘制许多图为了绘制这些图我选择使用 matplotlib 每次检查后我需要单击左上角的关闭按钮这很微不足道那么有没有什么方法可以让剧情在3 5秒左右显示并且无需点击就自动关闭呢我知道关于
向 list.extend() 传递不可迭代对象

我正在创建一个公共方法来允许调用者将值写入设备例如将其称为 write vals 由于这些值将实时输入因此我希望通过允许用户输入列表或单个值来简化用户的生活具体取决于他们需要写入的值的数量例如 write to device 1 2
如何以编程方式关闭wx.DirDialog？

我有 wxpython 应用程序可以在单击按钮时打开 wx DirDialog dlg wx DirDialog self Choose a directory style wx DD DEFAULT STYLE if dlg ShowM
使用多索引列对多列求和

我有一个从数据透视表创建的数据框看起来类似于 import pandas as pd d company1 False Negative April 2012 112 0 April 2013 370 0 April 2014 499 0
Flask 无法识别两个 URL 参数

我正在尝试将两个参数发送到使用 Flask 路由的 URL If I do curl i http 127 0 0 1 5000 api journeys count startStationName Hansard 20Mews 20Sh
Python：从字符串访问变量[重复]

这个问题在这里已经有答案了这可能是非常基本和简单的事情我可能只是在谷歌上搜索错误的术语但希望这里有人可以帮助我我仍然是编程的初学者这从这个问题中可能是显而易见的我正在寻找一种从字符串访问变量的方法像这样 A1 B1 C1 my
python 中打印变量和字符串

好吧我知道如何打印变量和字符串但是我如何打印类似我的字符串 card price 的内容它是我的变量我的意思是这是我的代码 print I have and here I would like to print my varia
PyCharm 可以列出项目中的所有 Python 错误吗？

我在虚拟环境中使用 python 2 7 和 PyCharm 2 7 2013 年 2 月 7 日的新版本每当我打开其中有明确错误的Python文件相当于其他语言中的编译错误例如使用未声明的变量调用不存在的函数时它会在文件的装订
mpld3图，注释问题

我正在使用 mpld3 在 Intranet 网站上显示图形我正在使用将图形保存到字典并使用 mpld3 js 在客户端渲染它的选项除非我想使用注释否则该图呈现良好这些显然是抵消的我不明白为什么因为即使我将偏移量设置为 0 0
Python二进制数据读取

urllib2 请求接收二进制响应如下所示 00 00 00 01 00 04 41 4D 54 44 00 00 00 00 02 41 97 33 33 41 99 5C 29 41 90 3D 71 41 91 D7 0A 47 0

随机推荐

融合表查询

我有一个非常大的融合表现在我想根据用户需求进行查询我的用户界面应该有一个下拉框来选择列的名称另一个下拉框用于选择查询条件 gt user1225902 您需要在页面加载期间调用onLoad函数我有同样的问题
休息。球衣。如何以编程方式选择返回类型：JSON 或 XML？

我有两个问题 1 我可以创建吗one类使用 JAXB 注释对其进行注释用于 XML 支持并在中声明web xml
为什么 Visual Studio 2008 中删除了在新 ATL 项目中使用属性的选项？

这是来自 MSDN 评论的文本根据 ATL Internals 2ed 一书属性的使用已被弃用不应在新的 ATL 项目中使用但为什么在 ATL 中这些属性是编译器的技巧它们不像 C 中的属性那样是平台的核心部分它们的调试也比
如何循环线程句柄并在完成后加入另一个循环？

我有一个程序它在循环中创建线程并检查它们是否已完成并清理它们如果已完成请参阅下面的最小示例 use std thread fn main let mut v Vec
使用比较器对映射进行排序

我想Comparator实现排序TreeMap按照顺序 final String sequence People Object Environment Message Service Comparator
AT 命令 PHP

我想使用 GSM 调制解调器从 php 发送消息我已经配置了调制解调器并使用超级终端对其进行了测试现在我想使用php执行AT命令是否有可用的开源库或其他解决方案由于我的 php 应用程序托管在 Apache Web 服务器上因此我
网页配置。使用规则元素将所有流量重定向到 www.my...。

我有一个 web config 文件它自动将流量发送到 HTTPS 但是如果有人进入 MyDomain com 那么它将转到https mydomain com https mydomain com如果有人输入 www mydomain
Android - 检查数组中是否存在某个值

我有一个名为 bob 的数组其中包含值 String bob this is a really silly list 我如何知道名为 bob 的数组中是否存在愚蠢值而不迭代它您可以使用List contains http docs
在 VS Code 中折叠一行时，是否可以覆盖缩进并选择该折叠中包含哪些行？

是否可以自定义 Visual Studio Code 中代码折叠的工作方式我使用一种通用模式来定义各种不同文档类型的代码区域因此对于 XML 我将文本部分包裹起来 and 对于 c 我使用 region to endregion 对于
如何在C#中捕获键盘上的按键

我有个问题我需要写一个C 程序输入允许用户输入多行文本按 Ctrl Enter 完成输入输出标准化按照时间增加的正确顺序重新排列行我尝试过但我不知道如何从键盘捕获 Ctrl Enter 我期望输出像例子 Created
如何在 Scrapy/Twisted 中使用线程，即如何在响应回调中对阻塞代码进行异步调用？

我需要在Scrapy中运行一些多线程多处理工作因为我有一些使用阻塞调用的库并在完成后将请求放回Scrapy引擎我需要这样的东西 def blocking call self html do some work in blocking
如何在 mozilla 上获取 Fabric.js 画布鼠标坐标

这是在 google chrome 上运行的代码 var pointer canvas getPointer event e var posiX pointer x var posiY pointer y posiX Math round
React Native - 从 package.json 到 android 构建清单的自动版本名称

目前我有一个反应本机应用程序我遇到的问题是在每次构建或提交时更新版本非常耗时另外我启用了 Sentry 因此每次构建时某些构建都会获得相同的版本因此某些崩溃很难确定它们来自何处最后手动更新版本很容易出错如何设置我的构建以在每
如何使用 f:validateRegex 仅允许数字

我的输入应该只允许数字我尝试添加
调试 Three.js 中的低 FPS

我正在处理 Three js WebGL 场景当我缩小时我注意到 60 FPS 以便所有观察结果约 20 000 个三角形都在视图中但当我放大时 FPS 非常低因此只有一个小三角形的子集在视野中我想弄清楚是什么导致了这种差异
从注册表中检索 Windows 密码提示

我一直在尝试以编程方式提取 Windows 7 的 Windows 登录密码提示我发现可以从注册表中的以下位置检索它HKLM SAM SAM Domains Account Users 用户密钥 UserPasswordHint但是我不
C# - 从另一个字符串中删除第一次出现的子字符串的最简单方法

我需要从另一个字符串中删除第一个并且仅第一个出现的字符串这是替换字符串的示例 Iteration This ProjectName Iteration Release1 Iteration1 会变成这样 ProjectName Rel
在 .NET 中，mystring.Length == 0 或 mystring == string.Empty 哪个最好？ [复制]

这个问题在这里已经有答案了可能的重复检查字符串内容字符串长度与空字符串 https stackoverflow com questions 10230 checking for string contents string lengt
带有编辑器框架的 GWT 验证器

有没有人意识到编辑器和 jsr 303 验证如何与 GWT 2 3 一起工作未来验证 API 已添加到 gwt sdk 但我无法使用编辑器框架验证实体无论我确实从来没有从客户端或服务器端抛出错误这是一个代码片段 public cl
根据给定分布对数据帧进行采样

如何根据给定的类标签分布值对 pandas 数据框或 graphlab sframe 进行采样例如我想对具有标签类列的数据框进行采样以选择行以便平等地获取每个类标签从而具有相似的频率对于每个类标签对应一个均匀分布的类标签或者最

根据给定分布对数据帧进行采样

根据给定分布对数据帧进行采样 的相关文章

随机推荐

热门标签

根据给定分布对数据帧进行采样的相关文章