从 len 18000 的 Dask 数据帧中采样 n= 2000 会生成错误当“replace=False”时，无法获取比总体更大的样本

2024-04-29

我有一个从 csv 文件创建的 dask 数据框，len(daskdf)返回 18000 但当我ddSample = daskdf.sample(2000)我收到错误

ValueError: Cannot take a larger sample than population when 'replace=False'

如果数据帧大于样本大小，我可以在不替换的情况下进行采样吗？

示例方法仅支持frac=关键字参数。请参阅API文档 http://dask.readthedocs.io/en/latest/dataframe-api.html#dask.dataframe.DataFrame.sample

您收到的错误来自 Pandas，而不是 Dask。

In [1]: import pandas as pd
In [2]: df = pd.DataFrame({'x': [1]})
In [3]: df.sample(frac=2000, replace=False)
ValueError: Cannot take a larger sample than population when 'replace=False'

解决方案1

正如 Pandas 错误所示，考虑采样有更换

In [4]: df.sample(frac=2, replace=True)
Out[4]: 
   x
0  1
0  1

In [5]: import dask.dataframe as dd
In [6]: ddf = dd.from_pandas(df, npartitions=1)
In [7]: ddf.sample(frac=2, replace=True).compute()
Out[7]: 
   x
0  1
0  1

解决方案2

这可能会帮助某人..

我从某个地方发现了这个，但不记得在哪里了。

这将正确地显示结果，不会出现错误。（这是针对 pandas 的，我不知道 dask）。

import pandas as pd

df = pd.DataFrame({'a': [1,2,3,4,5,6,7],
                   'b': [1,1,1,2,2,3,3]})

# this is fixed number, will be error when data in group is less than sample size
df.groupby('b').apply(pd.DataFrame.sample, n=1)

# this is flexible with min, no error, will return 3 or less than that
df.groupby(['b'], as_index=False, group_keys=False
          ).apply(
            lambda x: x.sample(min(3, len(x)))
        )

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

Dask

从 len 18000 的 Dask 数据帧中采样 n= 2000 会生成错误当“replace=False”时，无法获取比总体更大的样本的相关文章

如何实现 __eq__ 进行集合包含测试？

我遇到了一个问题我将一个实例添加到一个集合中然后进行测试以查看该对象是否存在于该集合中我已经覆盖了 eq 但在包含测试期间不会调用它我必须覆盖吗 hash 反而如果是这样我将如何实施 hash 鉴于我需要对元组列表和字典进行哈
Django 中的 Rpy2 错误 - 未为“”类型的对象定义转换“py2rpy”

我以前从未使用过 R 并且正在尝试使用 rpy2 从 python 调用 R 函数它可以在独立的 python 终端上运行但不能在 Django 中运行但rpy2似乎无法将python字符串转换为r对象我正在使用同事提供的自定义库
在 pandas 中单独打印一列的原始值？

我有一个数据框 df pd DataFrame name george age 23 name anna age 26 现在我想检索乔治的年龄 df df name george age 但这会输出一些额外的信息以及原始值 0 23 Nam
如何在 Google App Engine 的 Python 中获取 StringProperty 的值？

如何获取 nbd Model 的值我想返回由多个字段组成的描述但我无法让它工作这是我的班级代码 class User ndb Model name ndb StringProperty email ndb StringProperty
以矢量化方式在另一个 DataFrame 中查找包含值子集的行

如何匹配此 DataFrame 中的值source car id lat lon 0 100 10 0 15 0 1 100 12 0 10 0 2 100 09 0 08 0 3 110 23 0 12 0 4 110 18 0 32 0
正则表达式，选择最接近的匹配

假设以下单词序列 BLA text text text text text text BLA text text text text LOOK text text text BLA text text BLA 我想做的是将 BLA 中的文本
无法使用 BeautifulSoup 和 Requests 抓取下拉菜单

我想抓取百年灵网站上的产品页面以获取各种信息示例页面 https www breitling com gb en watches navitimer b01 chronograph 46 AB0127211C1A1 https www b
Paramiko SSHException 通道已关闭

我一直在使用 Paramiko 在 Linux Windows 机器上发送命令它可以很好地在 Ubuntu 机器上远程执行测试但是它不适用于 Windows 7 主机以下是我收到的错误 def unit for event self
numpy：大量线段/点的快速规则间隔平均值

我沿着一维线有许多约 100 万个不规则间隔的点 P 这些标记线段这样如果点是 0 x a x b x c x d 则线段从 0 gt x a x a gt x b x b gt x c x c gt x d 等我还有每个段的 y
在Python中以交互方式执行多行语句

我是 Python 世界的新手这是我用 Python 编写的第一个程序我来自 R 世界所以这对我来说有点不直观当我执行时 In 15 import math import random random random math sqrt
scikit-learn 和tensorflow 有什么区别？可以一起使用它们吗？

对于这个问题我无法得到满意的答案据我了解 TensorFlow是一个数值计算库经常用于深度学习应用而Scikit learn是一个通用机器学习框架但它们之间的确切区别是什么 TensorFlow 的目的和功能是什么我可以一起使用它
如何将类添加到 LinkML 中的 SchemaDefinition？

中的图表https linkml io linkml model docs SchemaDefinition https linkml io linkml model docs SchemaDefinition and https link
Pandas groupby apply 执行缓慢

我正在开发一个涉及大量数据的程序我正在使用 python pandas 模块来查找数据中的错误这通常工作得非常快然而我当前编写的这段代码似乎比应有的速度慢得多我正在寻找一种方法来加快速度为了让你们正确测试它我上传了一段相当大的
使用 WSGI 在 Windows XAMPP 中设置 Python 路径

我正在 Webfaction 上设置实时服务器的开发版本在本地计算机上的虚拟 Apache 服务器环境运行没有任何错误中运行 Django 应用程序 XP 使用 Python 2 6 运行 XAMPP Lite 我可以提交更改通过 G
将列表中的 None 替换为最左边的非 none 值

Given a None 1 2 3 None 4 None None I d like a None 1 2 3 3 4 4 4 目前我已经用以下方法强制它 def replaceNoneWithLeftmost val last Non
线性同余生成器 - 如何选择种子和统计检验

我需要做一个线性同余生成器它将成功通过所选的统计测试我的问题是如何正确选择发电机的数字以及我应该选择哪些统计检验我想均匀性的卡方频率测试每代收集10 000个号码的方法将 0 1 细分为10个相等的细分柯尔莫哥洛夫斯米尔
在 scipy 中创建新的发行版

我试图根据我拥有的一些数据创建一个分布然后从该分布中随机抽取这是我所拥有的 from scipy import stats import numpy def getDistribution data kernel stats gauss
Pip 无法在 Windows 上安装 Twisted

我正在尝试在 Windows 8 计算机上安装 Twisted 在 Twisted 官方网站上只有一个 Windows 版的 Wheel 文件 https twistedmatrix com trac wiki Downloads htt
在父类中访问子类变量

我有一个父类和一个继承的子类我想知道如何访问我的父类中的子类变量我尝试了这个但失败了 class Parent object def init self print x class Child Parent x 1 x Child Er
如何使用 Python 3 正确显示倒计时日期

我正在尝试获取将显示的倒计时基本上就像一个世界末日时钟哈哈有人可以帮忙吗 import os import sys import time import datetime def timer endTime datetime datet

随机推荐

如何让我的精灵向鼠标位置发射一个对象？

对于一个学校项目我需要通过实现一种向鼠标位置射击 Kunais Shurikens 的方式来完成下面的 pygame 程序以便能够击中敌人精灵 import pygame import math import random from p
重新排列关联数组的最优雅的方法是什么？

假设你有一个关联数组 hash Fruit Apple hash Name Jeff hash Car Ford 并且您无法更改这些变量的创建顺序因此 Car 总是在 Name 等之后添加到数组中将 Car 添加移动到关联数组的开头而
基于 Pandas 中的管道分隔列创建多个新列

我有一个 pandas 数据框其中有一个管道分隔的列其中包含任意数量的元素称为零件这些管道串中的元素数量从 0 到超过 10 个不等所有管道串中包含的唯一元素的数量并不比行数小很多这使得我无法在创建新列对于每一行我想创建一
LINQ 将 Dictionary 转换为 Dictionary

我今天心情低落有谁知道一种快速而优雅的方法来转换字典使键变成值反之亦然 Example var originalDictionary new Dictionary
按钮上的自定义 Paypal 字段

当 PayPal 通知我付款时我需要包含一个自定义字段我正在尝试使用高级变量但我没有找到使它们动态化的方法假设我有一个字段 xyzzy 值为 plugh 我希望 PayPal 包含 form xyzzy plugh 及其发送到我的
如何在 CALayer 中绘制径向渐变？

I know CAGradientLayer目前不支持径向渐变只能选择kCAGradientLayerAxial 我想要如下所示的东西我环顾四周寻找这个问题发现有一种方法可以解决这个问题但我并不清楚这些解释所以我想知道是否可以使用
Android 中的音频交叉淡入淡出

我正在开发一个媒体播放器用于我的学习目的我希望在媒体播放器应用程序中具有交叉淡入淡出功能但我不知道从哪里开始我尝试在互联网上搜索但没有运气我使用的是安卓MediaPlayer所有媒体播放器相关操作的类任何人都知道任何解决方法可以实
使用 RSYNC，包含和排除如何组合？

我想 rsync Volumes B 中的所有内容除了缓存目录我想全局排除它另外我不想同步任何其他 Volume 我有以下排除文件 Volumes B Cache Volumes 第一行和第三行似乎工作正常除了 rsync 还拾取
如何使用 DataTables jquery 插件按日期排序？

我正在使用 datatables jquery 插件并希望按日期排序我知道他们有一个插件但我找不到从哪里实际下载它 http datatables net plug ins sorting http datatables net plu
NativeActivity未完成

我从 JavaActivity 调用 NativeActivity 我的 NativeActivity 的入口点是 android main struct android app state 最后我打电话给 ANativeActivity
处理表单的最佳实践

我想知道处理表单处理的最佳实践是什么就我而言我做了类似的事情 if the user hasn t submited the form 显示表格 else if there are form errors 显示错误再次显示表格 els
连接表时，rails 在访问连接表中的字段时无论如何都会发出额外的请求

我有公司表和城市表公司属于城市我的数据库架构的一部分是 create table companies force true do t t string title default null false t string address
用顶点之间的渐变填充 matplotlib 多边形

我正在使用 matplotlib 的 Poly3DCollection 绘制多边形三角形的集合三角形位于具有与其关联的颜色的顶点之间我目前正在用通过平均三个顶点的颜色确定的纯色填充每个三角形绘制三角形以形成 3D 表面网格 I w
在snakemake规则中使用pyenv

我正在使用 Snakemake 来实现一个漫长而复杂的管道其中涉及一些外部编写的 python2 脚本当我尝试使用 pyenv 指定 python2 时 pyenv shell命令失败同时pyenv global and pyenv
如何编译Python 1.0

出于某种反常的原因我想尝试Python 1 0 我将如何编译它或者更确切地说可以使用当前编译器干净地编译的早期版本是什么我使用的是 Mac OS X 10 5 不过因为这只是出于好奇关于语言如何变化所以在 Linux 虚拟机中编
Angular 无法注册 ServiceWorker：获取脚本时收到错误的 HTTP 响应代码 (404)

我正在使用 Firebase 在 Angular PWA 中执行推送通知并且我正在点击链接来执行此操作 https medium com tariqueejaz progressive web app push notifications
如何检查nodejs中的服务器和端口是否可用？

我有一个项目是用 Nodejs 编写的我需要知道如何检查带有端口的 IP 是否可以连接前任检查 example1 com 443 gt true 检查 example1 com 8080 gt false Thanks 了解服务器端
Bash 函数中的返回值

我正在使用 bash 脚本我想执行一个函数来打印返回值 function fun1 return 34 function fun2 local res fun1 echo res 当我执行时fun2 它不打印 34 为什么会这样呢虽然
绝对定位但调整父级的大小

我正在尝试编写一个 div 中包含 2 个 div 的 html 代码有一个没有宽度和高度的父div 宽度是浏览器宽度没有指定高度我想要在这个父 div 内有 2 个 div 第一个需要具有宽度或 250px 第二个需要具有屏幕宽度的
从 len 18000 的 Dask 数据帧中采样 n= 2000 会生成错误当“replace=False”时，无法获取比总体更大的样本

我有一个从 csv 文件创建的 dask 数据框 len daskdf 返回 18000 但当我ddSample daskdf sample 2000 我收到错误 ValueError Cannot take a larger sample

从 len 18000 的 Dask 数据帧中采样 n= 2000 会生成错误 当“replace=False”时，无法获取比总体更大的样本

解决方案1

解决方案2

从 len 18000 的 Dask 数据帧中采样 n= 2000 会生成错误 当“replace=False”时，无法获取比总体更大的样本 的相关文章

随机推荐

热门标签

从 len 18000 的 Dask 数据帧中采样 n= 2000 会生成错误当“replace=False”时，无法获取比总体更大的样本

从 len 18000 的 Dask 数据帧中采样 n= 2000 会生成错误当“replace=False”时，无法获取比总体更大的样本的相关文章