熊猫的分层抽样

2023-12-30

我看过Sklearn 分层抽样文档 http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html以及熊猫文档 http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.sample.html并且来自熊猫的分层样本 https://stackoverflow.com/questions/41035187/stratified-samples-from-pandas and sklearn 基于列的分层采样 https://stackoverflow.com/questions/36997619/sklearn-stratified-sampling-based-on-a-column但他们没有解决这个问题。

我正在寻找一种快速的 pandas/sklearn/numpy 方法来从数据集中生成大小为 n 的分层样本。但是，对于小于指定采样数的行，应该获取所有条目。

具体例子：

谢谢你！ :)

Use min将数字传递给样本时。考虑数据框df

df = pd.DataFrame(dict(
        A=[1, 1, 1, 2, 2, 2, 2, 3, 4, 4],
        B=range(10)
    ))

df.groupby('A', group_keys=False).apply(lambda x: x.sample(min(len(x), 2)))

   A  B
1  1  1
2  1  2
3  2  3
6  2  6
7  3  7
9  4  9
8  4  8

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

熊猫的分层抽样的相关文章

将 numpy 数组写入文本文件的速度

我需要将一个非常高的两列数组写入文本文件而且速度非常慢我发现如果我将数组改造成更宽的数组写入速度会快得多例如 import time import numpy as np dataMat1 np random rand 1000
查找模块中显式定义的函数 (python)

好的我知道您可以使用 dir 方法列出模块中的所有内容但是有什么方法可以仅查看该模块中定义的函数吗例如假设我的模块如下所示 from datetime import date datetime def test return Thi
当单词以“|”分隔时如何读取文件（埃因霍温）？

在Python中我有一个文件其中的单词由例如 city state zipcode 我的文件阅读器无法区分单词另外我希望我的文件阅读器从第 2 行而不是第 1 行开始如何让我的文件阅读器分隔单词 import os import
根据开始列和结束列扩展数据框（速度）

我有一个pandas DataFrame含有start and end列加上几个附加列我想将此数据框扩展为一个时间序列从start值并结束于end值但复制我的其他专栏到目前为止我想出了以下内容 import pandas as
numpy 使用 datetime64 进行数字化

我似乎无法让 numpy digitize 与 datetime64 一起使用 date bins np array np datetime64 datetime datetime 2014 n 1 s for n in range 1 1
更改 python tkinter canvas 中的线坐标

我画了一条线tkinter Canvas现在我想移动一端这可能吗例如和itemconfig import tkinter tk tkinter Tk canvas tkinter Canvas tk canvas pack line c
WindowsError：[错误 126] 使用 ctypes 加载操作系统时

python代码无法在Windows 7平台上运行 def libSO lib ctypes cdll LoadLibrary ConsoleApplication2 so lib cfoo2 1 3 当我尝试运行它时得到来自python
Apache Spark 中的高效字符串匹配

我使用 OCR 工具从屏幕截图中提取文本每个大约 1 5 句话然而当手动验证提取的文本时我注意到时不时会出现一些错误鉴于文本你好我真的很喜欢 Spark 我注意到 1 像 I 和 l 这样的字母被替换 2 表情符号未被正确提
动态 __init_subclass__ 方法的参数绑定

我正在尝试让类装饰器工作装饰器会添加一个 init subclass 方法到它所应用的类但是当该方法动态添加到类中时第一个参数不会绑定到子类对象为什么会发生这种情况举个例子这是可行的下面的静态代码是我试图最终得到的示例 cl
如何使用 Django 项目设置 SQLite？

我已阅读 Django 文档仅供参考 https docs djangoproject com en 1 3 intro tutorial01 https docs djangoproject com en 1 3 intro tutor
在 Sphinx 中，有没有办法在声明参数的同时记录参数？

我更喜欢在声明参数的同一行记录每个参数根据需要以便应用D R Y http en wikipedia org wiki Don t repeat yourself 如果我有这样的代码 def foo flab nickers a ser
由于 json 字符串化 dict 键导致数据丢失

考虑下面的例子 gt gt gt import json gt gt gt d 0 potato 0 spud gt gt gt json dumps d 0 potato 0 spud gt gt gt json loads json d
如何将回溯/sys.exc_info() 值保存在变量中？

我想将错误名称和回溯详细信息保存到变量中这是我的尝试 import sys try try print x except Exception ex raise NameError except Exception er print 0 s
检测 IDLE 的存在/如何判断 __file__ 是否未设置

我有一个脚本需要使用 file 所以我了解到 IDLE 没有设置这个有没有办法从我的脚本中检测到 IDLE 的存在 if file not in globals file is not set 如果你想做一些特别的事情 file 未设置
在 virtualenvwrapper 中激活环境

我安装了virtualenv and virtualenvwrapper用这个命令我创建了一个环境 mkvirtualenv cv 它有效创建后我就处于新环境中现在我重新启动了我的电脑我想activate又是那个环境但是怎么样我使
如何在 robobrowser-python 中发出 POST 请求

http robobrowser readthedocs org en latest api html http robobrowser readthedocs org en latest api html 我正在尝试使用 APIbrows
如何循环遍历字典列表并打印特定键的值？

我是 Python 新手有一个问题我知道这是一个非常简单的问题运行Python 3 4 我有一个需要迭代并提取特定信息的列表以下是列表称为部分的示例已截断数千个项目 state DEAD id phwl type name
如何获取所有mysql元组结果并转换为json

我能够从表中获取单个数据但是当我试图获取表上的所有数据时我只得到一行 cnn execute sql rows cnn fetchall column t 0 for t in cnn description for row in ro
使用 urllib 编码时保持 url 参数有序

我正在尝试用 python 模拟 get 请求我有一个参数字典并使用 urllib urlencode 对它们进行 urlencode 我注意到虽然字典的形式是 k1 v1 k2 v2 k3 v3 urlencoding 后参数的顺序切
缓存 Flask-登录 user_loader

我有这个 login manager user loader def load user id None return User query get id 在我引入 Flask Principal 之前它运行得很好 identity loa

随机推荐

对对象的 ArrayList 进行排序？

我需要一些帮助如何对对象的 ArrayList 进行排序我有超类 Account 和两个子类 SavingsAccount 和 CreditAccount 在 Account 类中当我想知道帐号时我可以调用此方法 Get accoun
如何在 Android Eclipse 中使屏幕可滚动

这是XML在尝试将其调整为可滚动之前我有代码
如何在参数数量不断增加的幂循环中使用递归？

这是一个典型的电源回路问题 http wiki c2 com PowerLoops 我只需要一个简单而优雅紧凑的解决方案我将首先展示问题解决方案的示例嵌套 for 循环假设我需要将这段代码转化为递归 console log bit
用于 Rails 的 SQL Server 适配器

尝试在 Windows 上找到 Rails 的 sqlserver 适配器我尝试从没有运气获取它 gem install activerecord sqlserver adapter source http gems rubyonra
setitem 和 getitem —— python

我创建了一个生成向量的 python 程序现在我想使用函数设置一个项目 setitem and getitem 例如如果vector Vec andvector 3 26会将空向量更改为 0 0 0 26 我需要覆盖 getitem a
内部受保护的属性仍然可以从不同的程序集访问

我正在为有关可访问性的初学者会话设置一些演示代码我发现我能够从派生类访问内部受保护的属性我缺少什么组装1 namespace Accessibility class Program static void Main string ar
检测 Ruby 中的 stdin 内容

我想知道是否有人试图在标准输入上提供 ruby 程序内容我不希望 ruby 退回到允许交互式输入我该怎么做呢 When called in bash like this I want cat rb to exit immediately
IE 11 中的 CSS 模糊

我一直试图在 IE 11 中获得 css 模糊效果几个小时但没有取得任何进展我尝试使用以下简单的 html img src http img3 wikia nocookie net cb20120627075127 kirby e
无限/无限滚动的可用性

这种技术的优点和缺点是什么参见软件组合 http sortfolio com 举个例子我个人想到的有两点不可能告诉某人感兴趣的项目位于哪里例如您可能不会说第 324 行第二列当您返回到无限滚动的页面时导航会中断你还能想到
Java大十进制数格式异常

为什么下面的代码会抛出 java 数字格式异常 BigDecimal d new BigDecimal 10934 375 是的BigDecimal课程不占用任何Locale在其构造函数中考虑到String 可以在该构造函数的 Javado
Android 上缓存 SVG 图像和内存使用情况

我在用着安卓SVG http code google com p svg android http code google com p svg android 我在应用程序的多个活动中使用相同的 svg 文件构建缓存来存储和检索图像是个好
是否可以顺利“热部署”ASP.NET Core应用程序？

在带有 NET Framework 的 ASP NET 下您可以无中断地执行新代码的热部署这是有效的因为 IIS 可以为同一应用程序处理多个应用程序域当新代码到达时它会耗尽旧应用程序域从而允许它完成请求同时新应用程序域启
Angular 2 - 在控件初始化后添加验证器

我想知道如何将验证器添加到已经创建的 formControl 使用它自己的验证器创建的但是让我们想象一下经过一段时间的延迟后我想添加另一个或者我有一个自定义控件其中包含一些验证器本身并且我想创建外部反应式表单并将内部验证器添加
D3.js中的selection.style和selection.attr有什么区别？

我发现它们在我的测试中都有效 on mouseover function d3 select this select text style fill red or on mouseover function d3 select this s
Flutter Dart HTTP POST 请求正文在服务器端为空

我正在开发 Flutter 平板电脑应用程序一旦输入一个输入字段我就会尝试向服务器发送一个发布请求以下是我为此调用的方法 Future lt http Response gt postRequest async print globa
在环境变量中设置额外的主机

我正在使用 docker compose 来运行我的应用程序为此我需要在容器内设置主机这取决于我正在运行的环境我的方法是创建环境文件并设置变量 application env SERVER IP 10 10 9 134 我的 do
发出拉取请求后，Jenkins 将禁用分支上的项目构建

注意我只在我的一个分支中设置了 Jenkinsfile 而不是在主分支中设置我已经设置了 Git webhooks 来监视推送到我的 Github 存储库的事件但是我注意到我的 Jenkins 构建作为分支工作正常拾取推送事件触
从 SQL 表中选择行的百分比？

我有一个带有 PHP 脚本的网站该脚本内部有一个 SQL 查询返回由 JavaScript 文件访问的数据该数据是一个巨大的航班数据列表我需要能够随机选择比方说任何指定日期的总航班数的 40 为了论证起见让我们这样说 quer
指针可以指向它自己吗？

我的问题是如果指针变量的地址与其值相同那么它真的指向自身吗例如在下面的代码中是a指向自身的指针 include
熊猫的分层抽样

我看过Sklearn 分层抽样文档 http scikit learn org stable modules generated sklearn model selection train test split html以及熊猫文档 htt

熊猫的分层抽样

熊猫的分层抽样 的相关文章

随机推荐

热门标签

熊猫的分层抽样的相关文章