熊猫的分层抽样

2023-12-30

我看过Sklearn 分层抽样文档 http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html以及熊猫文档 http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.sample.html并且来自熊猫的分层样本 https://stackoverflow.com/questions/41035187/stratified-samples-from-pandas and sklearn 基于列的分层采样 https://stackoverflow.com/questions/36997619/sklearn-stratified-sampling-based-on-a-column但他们没有解决这个问题。

我正在寻找一种快速的 pandas/sklearn/numpy 方法来从数据集中生成大小为 n 的分层样本。但是,对于小于指定采样数的行,应该获取所有条目。

具体例子:

谢谢你! :)


Use min将数字传递给样本时。考虑数据框df

df = pd.DataFrame(dict(
        A=[1, 1, 1, 2, 2, 2, 2, 3, 4, 4],
        B=range(10)
    ))

df.groupby('A', group_keys=False).apply(lambda x: x.sample(min(len(x), 2)))

   A  B
1  1  1
2  1  2
3  2  3
6  2  6
7  3  7
9  4  9
8  4  8
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

熊猫的分层抽样 的相关文章

随机推荐

  • 对对象的 ArrayList 进行排序?

    我需要一些帮助如何对对象的 ArrayList 进行排序 我有超类 Account 和两个子类 SavingsAccount 和 CreditAccount 在 Account 类中 当我想知道帐号时 我可以调用此方法 Get accoun
  • 如何在 Android Eclipse 中使屏幕可滚动

    这是XML在尝试将其调整为可滚动之前我有代码
  • 如何在参数数量不断增加的幂循环中使用递归?

    这是一个典型的电源回路问题 http wiki c2 com PowerLoops 我只需要一个简单而优雅 紧凑 的解决方案 我将首先展示问题 解决方案的示例嵌套 for 循环 假设我需要将这段代码转化为递归 console log bit
  • 用于 Rails 的 SQL Server 适配器

    尝试在 Windows 上找到 Rails 的 sqlserver 适配器 我尝试从 没有运气 获取它 gem install activerecord sqlserver adapter source http gems rubyonra
  • setitem 和 getitem —— python

    我创建了一个生成向量的 python 程序 现在我想使用函数设置一个项目 setitem and getitem 例如 如果vector Vec andvector 3 26会将空向量更改为 0 0 0 26 我需要覆盖 getitem a
  • 内部受保护的属性仍然可以从不同的程序集访问

    我正在为有关可访问性的初学者会话设置一些演示代码 我发现我能够从派生类访问内部受保护的属性 我缺少什么 组装1 namespace Accessibility class Program static void Main string ar
  • 检测 Ruby 中的 stdin 内容

    我想知道是否有人试图在标准输入上提供 ruby 程序内容 我不希望 ruby 退回到允许交互式输入 我该怎么做呢 When called in bash like this I want cat rb to exit immediately
  • IE 11 中的 CSS 模糊

    我一直试图在 IE 11 中获得 css 模糊效果几个小时 但没有取得任何进展 我尝试使用以下简单的 html img src http img3 wikia nocookie net cb20120627075127 kirby e
  • 无限/无限滚动的可用性

    这种技术的优点和缺点是什么 参见软件组合 http sortfolio com 举个例子 我个人想到的有两点 不可能告诉某人感兴趣的项目位于哪里 例如 您可能不会说 第 324 行 第二列 当您返回到无限滚动的页面时 导航会中断 你还能想到
  • Java大十进制数格式异常

    为什么下面的代码会抛出 java 数字格式异常 BigDecimal d new BigDecimal 10934 375 是的BigDecimal课程不占用任何Locale在其构造函数中考虑到String 可以在该构造函数的 Javado
  • Android 上缓存 SVG 图像和内存使用情况

    我在用着安卓SVG http code google com p svg android http code google com p svg android 我在应用程序的多个活动中使用相同的 svg 文件 构建缓存来存储和检索图像是个好
  • 是否可以顺利“热部署”ASP.NET Core应用程序?

    在带有 NET Framework 的 ASP NET 下 您可以无中断地执行新代码的 热部署 这是有效的 因为 IIS 可以为同一应用程序处理多个应用程序域 当新代码到达时 它会 耗尽 旧应用程序域 从而允许它完成请求 同时新应用程序域启
  • Angular 2 - 在控件初始化后添加验证器

    我想知道如何将验证器添加到已经创建的 formControl 使用它自己的验证器创建的 但是 让我们想象一下 经过一段时间的延迟后 我想添加另一个 或者我有一个自定义控件 其中包含一些验证器本身 并且我想创建外部反应式表单并将内部验证器添加
  • D3.js中的selection.style和selection.attr有什么区别?

    我发现它们在我的测试中都有效 on mouseover function d3 select this select text style fill red or on mouseover function d3 select this s
  • Flutter Dart HTTP POST 请求正文在服务器端为空

    我正在开发 Flutter 平板电脑应用程序 一旦输入一个输入字段 我就会尝试向服务器发送一个发布请求 以下是我为此调用的方法 Future lt http Response gt postRequest async print globa
  • 在环境变量中设置额外的主机

    我正在使用 docker compose 来运行我的应用程序 为此 我需要在容器内设置主机 这取决于我正在运行的环境 我的方法是 创建环境文件并设置变量 application env SERVER IP 10 10 9 134 我的 do
  • 发出拉取请求后,Jenkins 将禁用分支上的项目构建

    注意 我只在我的一个分支中设置了 Jenkinsfile 而不是在主分支中设置 我已经设置了 Git webhooks 来监视推送到我的 Github 存储库的事件 但是 我注意到我的 Jenkins 构建作为分支工作正常 拾取推送事件 触
  • 从 SQL 表中选择行的百分比?

    我有一个带有 PHP 脚本的网站 该脚本内部有一个 SQL 查询 返回由 JavaScript 文件访问的数据 该数据是一个巨大的航班数据列表 我需要能够随机选择 比方说 任何指定日期的总航班数的 40 为了论证起见 让我们这样说 quer
  • 指针可以指向它自己吗?

    我的问题是 如果指针变量的地址与其值相同 那么它真的指向自身吗 例如 在下面的代码中 是a指向自身的指针 include
  • 熊猫的分层抽样

    我看过Sklearn 分层抽样文档 http scikit learn org stable modules generated sklearn model selection train test split html以及熊猫文档 htt