以等概率从 Pandas 组中随机选择——意外行为

2024-02-02

我尝试从 12 个独特的组中随机抽样，每个组都有不同数量的观察值。我想从整个群体（数据框）中随机抽样，每个组都有相同的被选择概率。最简单的例子是一个包含 2 个组的数据框。

    groups  probability
0       a       0.25
1       a       0.25
2       b       0.5

using np.random.choice(df['groups'], p=df['probability'], size=100)现在每次迭代都有 50% 的机会选择group a并且有 50% 的机会选择group b

为了得出概率，我使用了以下公式：

(1. / num_groups) / size_of_groups

或者在Python中：

num_groups = len(df['groups'].unique())  # 2
size_of_groups = df.groupby('label').size()  # {a: 2, b: 1}
(1. / num_groups) / size_of_groups

哪个返回

    groups
a    0.25
b    0.50

这非常有效，直到我超过 10 个独特的组，之后我开始得到奇怪的分布。这是一个小例子：

np.random.seed(1234)

group_size = 12
groups = np.arange(group_size)

probs = np.random.uniform(size=group_size)
probs = probs / probs.sum()

g = np.random.choice(groups, size=10000, p=probs)
df = pd.DataFrame({'groups': g})

prob_map = ((1. / len(df['groups'].unique())) / df.groupby('groups').size()).to_dict()

df['probability'] = df['groups'].map(prob_map)

plt.hist(np.random.choice(df['groups'], p=df['probability'], size=10000, replace=True))
plt.xticks(np.arange(group_size))
plt.show()

我期望在足够大的样本量下得到相当均匀的分布，但是当组数超过 11 时我得到了这些翅膀。如果我改变group_size变量为 10 或更低，我确实得到了所需的均匀分布。

我无法判断问题是否出在我计算概率的公式上，或者可能是浮点精度问题？有人知道更好的方法来完成此任务，或者解决此示例吗？

提前致谢！

您正在使用hist https://matplotlib.org/devdocs/api/_as_gen/matplotlib.pyplot.hist.html默认为10垃圾箱...

plt.rcParams['hist.bins']

10

pass group_size as the bins范围。

plt.hist(
    np.random.choice(df['groups'], p=df['probability'], size=10000, replace=True),
    bins=group_size)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

python27

pandas

NumPy

numpyrandom

以等概率从 Pandas 组中随机选择——意外行为的相关文章

使用 Boto3 以字符串形式打开 S3 对象

我知道使用 Boto 2 可以使用以下命令将 S3 对象作为字符串打开 get contents as string http boto readthedocs org en latest ref file html highlight c
无法在 selenium 和 requests 之间传递 cookie，以便使用后者进行抓取

我用 python 结合 selenium 编写了一个脚本来登录网站然后从driver to requests这样我就可以继续使用requests进行进一步的活动 I used item soup select one div class
Python Tkinter 模块不显示输出

我正在尝试学习 Python 并尝试使用 Python 中的 GUI 并遇到了这个 Tkinter 模块我的代码运行但运行时窗口没有出现我的代码如下 from Tkinter import to create a root windo
如何使用scrapy检查网站是否支持http、htts和www前缀

我正在使用 scrapy 来检查某些网站是否工作正常当我使用http example com https example com or http www example com 当我创建 scrapy 请求时它工作正常例如在我的pa
python 中的 <> 运算符有什么作用？

我刚刚遇到这个here http www feedparser org feedparser py 总是这样使用 if string1 find string2 lt gt 1 pass 什么是 lt gt 运算符这样做为什么不使用通常的
Python Anaconda：如何测试更新的库是否与我现有的代码兼容？

我在 Windows 7 机器上使用 Python 2 7 Anaconda 安装进行数据分析和科学计算当新的库发布时例如新版本的 pandas patsy 等您建议我如何测试新版本与现有代码的兼容性是否可以在同一台机器上安装两个
运行 Python 单元测试，以便成功时不打印任何内容，失败时仅打印 AssertionError()

我有一个标准单元测试格式的测试模块 class my test unittest TestCase def test 1 self tests def test 2 self tests etc 我的公司有一个专有的测试工具它将作为命令行
Paste.httpserver 并通过 HTTP/1.1 Keep-alive 减慢速度；使用 httperf 和 ab 进行测试

我有一个基于paste httpserver 的Web 服务器作为HTTP 和WSGI 之间的适配器当我使用 httperf 进行性能测量时如果每次使用 num conn 启动一个新请求我每秒可以执行超过 1 000 个请求如果我使
查找 Pandas DF 行中的最短日期并创建新列

我有一个包含多个日期的表有些日期将为 NaN 我需要找到最旧的日期所以一行可能有 DATE MODIFIED WITHDRAWN DATE SOLD DATE STATUS DATE 等因此对于每一行一个或多个字段中都会有一个日期
给定一个排序数组，就地删除重复项，使每个元素仅出现一次并返回新长度

完整的问题我开始在线学习 python 但对这个标记为简单的问题有疑问给定一个排序数组就地删除重复项使得每个元素只出现一次并返回新的长度不分配另一个数组的额外空间您必须通过修改输入来完成此操作数组就地具有 O 1 额外内
如何查找或安装适用于 Python 的主题 tkinter ttk

过去 3 个月我一直在制作一个机器人仅用代码就可以完美运行现在我的下一个目标是为它制作一个 GUI 但是我发现了一些障碍主要的一个是能够看起来不像一个 30 年前的程序我使用的是 Windows 7 我仅使用 Python 3 3
Airflow 1.9 - 无法将日志写入 s3

我在 aws 的 kubernetes 中运行气流 1 9 我希望将日志发送到 s3 因为气流容器本身的寿命并不长我已经阅读了描述该过程的各种线程和文档但我仍然无法让它工作首先是一个测试向我证明 s3 配置和权限是有效的这是在我们
Python 中维基百科 API 中的 DisambiguationError 和 GuessedAtParserWarning

我想获得维基百科与搜索词相关的可能且可接受的名称列表在这种情况下是电晕当输入以下内容时 print wikipedia summary Corona 这给出了以下输出 home virej local lib python3 8 si
使用另一个数据帧在数据帧中创建子列

我对 python 和 pandas 很陌生在这里我有一个以下数据框 did features offset word JAPE feature manual feature 0 200 0 aa 200 200 0 200 11 bf
XPath：通过当前节点属性选择当前和下一个节点的文本

首先这是从我之前的问题 https stackoverflow com questions 5202187 xpath select current and next nodes text by current node attribut
AWS Lambda 不读取环境变量

我正在编写一个 python 脚本来查询 Qualys API 中的漏洞元数据我在 AWS 中将其作为 lambda 函数执行我已经在控制台中设置了环境变量但是当我执行函数时出现以下错误 module initialization
如何将带有参数的Python装饰器实现为类？

我正在尝试实现一个接受一些参数的装饰器通常带有参数的装饰器被实现为双重嵌套闭包如下所示 def mydecorator param1 param2 do something with params def wrapper fn def
为什么python+sqlite3特别慢？

我尝试使用 Python 2 7 4 sqlite3 和 Firefox SQLite Manager 0 8 0 处理对同一数据库的相同请求在小型数据库 8000 条记录上 Python 和 Firefox 都运行得很快并且给出了相同
如何获取pandas中groupby对象中的组数？

我想知道有多少个独特的组需要执行计算给定一个名为 groupby 的对象dfgroup 我们如何找到组的数量简单快速 Pandaic ngroups 较新版本的 groupby API pandas gt 0 23 提供了此未记录的
IndexError - 具有匀称形状的笛卡尔 PolygonPatch

我曾经使用 shapely 制作一个圆圈并将其绘制在之前填充的图上这曾经工作得很好最近我收到索引错误我将代码分解为最简单的操作但它甚至无法执行最简单的循环 import descartes import shapely geome

随机推荐

在 Go 中安装 exp/html

看起来 Go 还不支持 HTML Web 解析工具包尽管它已经通过以下方式提供了 XML 抓取encoding xml 那么我该如何安装exp htmlGo 中的包据我所知所有的答案至少我在网上搜索了10分钟后偶然发现的都没有返
Visual Studio 的评论重花

是否有内置命令或工具可以在 Visual Studio 中重排 C 注释有时一段代码需要多行注释经过大量编辑后您必须在适当的位置手动插入换行符以免它超出编辑器窗口的右边缘我希望能够通过一个键命令来完成此操作使用 Visual
使用 ggplot2 在 R 中绘制箱线图

我是 R 新手一直在尝试制作箱线图显示了我正在使用的部分数据 h1 h2 h3 h4 h5 h6 h7 h8 h9 h10 1 0 003719430 0 002975544 0 003049933 0 003421876 0 0034
在 Express / Connect 中配置上下文路径

我有一个在 Expressconnect Jade Less 上使用 Coffeescript 构建的 Node js 应用程序该应用程序将部署在几个不同的地方和不同的上下文路径上例如 http someurl com http som
每个流有多个内核的 CUDA 并发内核执行

对 CUDA 内核使用不同的流使得并发内核执行成为可能所以n内核上n如果流适合硬件理论上它们可以同时运行对吧现在我面临以下问题没有n不同的内核但是n m where m内核需要按顺序执行例如n 2 and m 3将导致以下带有流
如何查看linux中特定进程每5秒的内存消耗情况

我只是想知道如何找到特定进程在特定时间比如5秒的内存消耗我是linux新手因此详细的步骤将不胜感激 Use top p PID其中 PID 是进程 ID 应显示有关进程的信息包括使用的系统内存百分比类型d以及一个以秒为单位的整
条件子句中的赋值是好的 ruby 风格吗？

为了写得更简洁而不是这样做 test value method call that might return nil if test value do something with test value end 我一直在条件分配 if t
当我运行 Protractor 时，“Runtime.executionContextCreated 有无效的‘上下文’错误

当我运行量角器时我收到以下错误下面是我的 webstorm 控制台中显示的错误 C Program Files x86 JetBrains WebStorm 2016 2 bin runnerw exe C Program Files
在 PowerShell 脚本中无法通过管道将字符串输入 cmd

当我直接在 PowerShell 窗口中执行它时我有以下工作调用 myexe C MyExe exe MyString myexe works Write Output MyString myexe seems to work too 但
Visual Studio 2017 - 允许远程用户访问 IIS Express 中的网站

一直在浏览并尝试我找到的有关该主题的所有指南但没有运气我正在使用 HTTPS 运行 MVC 项目并希望使用一些远程移动设备访问调试站点来测试该网站我遵循了一个几乎可以工作的指南我想我已经非常接近让它工作了以下是我已完成的步骤关
如何获得可旋转div的四个角旋转手柄？

我有一个div 用过Jquery UI rotatable旋转 div 的插件我怎样才能让这个旋转手柄与绿色div的四个角一起旋转 box draggable rotatable 这是示例图像在黑色圆形标记中我需要放置其他三个可旋转手柄
使用supervisord管理docker容器的最佳方式

我必须在上面设置 dockerized 环境集成质量保证和生产 same服务器客户端的要求每个环境的组成如下 rabbitmq celery flower 基于 python 3 的应用程序称为 A 每个特定分支环境在它们之上
XXX.exe 中发生“System.ExecutionEngineException”类型的未处理异常

我有一个用 C 编写的 DLL 文件我尝试在我的 C 代码中使用 C DLL C 方法调用正确但进程完成后出现错误异常详细信息 Completed System ExecutionEngineException 未处理消息 Syst
格式化输出流 ios::left 和 ios::right

我有这个代码 cout lt lt std setiosflags std ios right cout lt lt setw 3 lt lt 1 lt lt setw 3 lt lt 2 lt lt n Output two values
如何编写 IQueryable 来查询递归数据库表？

我有一个这样的数据库表 Entity ID int PK ParentID int FK Code varchar Text text The ParentID字段是与同一表中另一条记录的外键递归所以该结构代表一棵树我正在尝试编写一种
SetPixel 太慢了。有没有更快的方法来绘制位图？

我正在开发一个小型绘画程序我在位图上使用 SetPixel 来绘制线条当画笔尺寸变大例如 25 像素时性能会明显下降我想知道是否有更快的方法来绘制位图以下是该项目的一些背景我使用位图这样我就可以利用图层就像在 Photo
typedef 函数指针递归

我试图声明一个采用相同类型的函数作为参数的函数 void rec void f void void f f 我最终进行了递归尝试您始终可以从void void rec void f void f f 但它不是类型安全的我尝试用typed
这是过度拟合吗？

我有一个 CNN 它在训练数据上表现非常好 96 准确率 1 损失但在测试数据上表现不佳 50 准确率 3 5 损失泄密者签名过度拟合是指验证损失开始增加而训练损失持续减少即图片改编自维基百科条目过拟合 https en wiki
在configuration.nix中从nixos-unstable安装virtualbox模块

可以从 nixos unstable 安装软件包 etc nixos configuration nix使用来自的配置这个答案 https stackoverflow com a 48838322 3040129 这是安装的示例htop来自
以等概率从 Pandas 组中随机选择——意外行为

我尝试从 12 个独特的组中随机抽样每个组都有不同数量的观察值我想从整个群体数据框中随机抽样每个组都有相同的被选择概率最简单的例子是一个包含 2 个组的数据框 groups probability 0 a 0 25 1 a 0

以等概率从 Pandas 组中随机选择——意外行为

以等概率从 Pandas 组中随机选择——意外行为 的相关文章

随机推荐

热门标签

以等概率从 Pandas 组中随机选择——意外行为的相关文章