numpy 中的分层抽样

2024-05-08

在 numpy 中我有一个这样的数据集。前两列是索引。我可以通过索引将数据集分成多个块，即第一个块是 0 0 第二个块是 0 1 第三个块 0 2 然后是 1 0、1 1、1 2 等等。每个块至少有两个元素。索引列中的数字可能会有所不同

我需要沿着这些块随机分割数据集 80%-20%，以便分割后两个数据集中的每个块至少有 1 个元素。我怎么能这么做呢？

indices | real data
        |
0   0   | 43.25 665.32 ...  } 1st block
0   0   | 11.234            }
0   1     ...               } 2nd block
0   1                       } 
0   2                       } 3rd block
0   2                       }
1   0                       } 4th block
1   0                       }
1   0                       }
1   1                       ...
1   1                       
1   2
1   2
2   0
2   0 
2   1
2   1
2   1
...

看你喜欢这个怎么样。为了引入随机性，我对整个数据集进行了洗牌。这是我想出如何进行矢量化分割的唯一方法。也许你可以简单地打乱索引数组，但这对我今天的大脑来说是一种太多的间接方式。我还使用了结构化数组，以便于提取块。首先，让我们创建一个示例数据集：

from __future__ import division
import numpy as np

# Create a sample data set
c1, c2 = 10, 5
idx1, idx2 = np.arange(c1), np.arange(c2)
idx1, idx2 = np.repeat(idx1, c2), np.tile(idx2, c1)

items = 1000
i = np.random.randint(c1*c2, size=(items - 2*c1*c2,))
d = np.random.rand(items+5)

dataset = np.empty((items+5,), [('idx1', np.int), ('idx2', np.int),
                             ('data', np.float)])
dataset['idx1'][:2*c1*c2] =  np.tile(idx1, 2)
dataset['idx1'][2*c1*c2:-5] = idx1[i]
dataset['idx2'][:2*c1*c2] = np.tile(idx2, 2)
dataset['idx2'][2*c1*c2:-5] = idx2[i]
dataset['data'] = d
# Add blocks with only 2 and only 3 elements to test corner case
dataset['idx1'][-5:] = -1
dataset['idx2'][-5:] = [0] * 2 + [1]*3

现在分层抽样：

# For randomness, shuffle the entire array
np.random.shuffle(dataset)

blocks, _ = np.unique(dataset[['idx1', 'idx2']], return_inverse=True)
block_count = np.bincount(_)
where = np.argsort(_)
block_start = np.concatenate(([0], np.cumsum(block_count)[:-1]))

# If we have n elements in a block, and we assign 1 to each array, we
# are left with only n-2. If we randomly assign a fraction x of these
# to the first array, the expected ratio of items will be
# (x*(n-2) + 1) : ((1-x)*(n-2) + 1)
# Setting the ratio equal to 4 (80/20) and solving for x, we get
# x = 4/5 + 3/5/(n-2)

x = 4/5 + 3/5/(block_count - 2)
x = np.clip(x, 0, 1) # if n in (2, 3), the ratio is larger than 1
threshold = np.repeat(x, block_count)
threshold[block_start] = 1 # first item goes to A
threshold[block_start + 1] = 0 # seconf item goes to B

a_idx = threshold > np.random.rand(len(dataset))

A = dataset[where[a_idx]]
B = dataset[where[~a_idx]]

运行后，分割大约为 80/20，所有块都在两个数组中表示：

>>> len(A)
815
>>> len(B)
190
>>> np.all(np.unique(A[['idx1', 'idx2']]) == np.unique(B[['idx1', 'idx2']]))
True

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

NumPy

numpy 中的分层抽样的相关文章

如何使用 pyinstaller 包含文件？

我也使用 tkinter 使用 python 3 7 编写了一个程序由于我使用的是外部图片因此当我将所有内容编译为一个 exe 时我需要包含它们我试过做 add data bg png files 但我仍然收到此错误 tkinter
切片稀疏（scipy）矩阵

我将不胜感激任何帮助以理解从 scipy sparse 包中切片 lil matrix A 时的以下行为实际上我想根据行和列的任意索引列表提取子矩阵当我使用这两行代码时 x1 A list 1 x2 x1 list 2 一切都很好
PyQt：如何通过匿名代理使用网页

这真让我抓狂我想在 QWebPage 中显示一个 url 但我想通过匿名代理来实现 Code setting up the proxy proxy QNetworkProxy proxy setHostName 189 75 98 199
即使页面未完全加载，我们也可以使用 Selenium 获取页面源吗（TimeoutException: Message: timeout）？

即使遇到 TimeoutException Message timeout 也能获取页面源码吗当我调用 driver page source 时有时无法加载整页但我只需要它的部分信息尚未确定所以我只想在任何情况下保存页面是否可以
Python有条件求解时滞微分方程

我在用dde23 of pydelay包来求解延迟微分方程我的问题如何有条件地编写方程例如目标方程有两个选项 when x gt 1 dx dt 0 25 x t tau 1 0 pow x t tau 10 0 0 1 x othe
Kivy - 文本换行工作错误

我正在尝试在 Kivy 1 8 0 应用程序中换行文本当没有太多文字时一切正常但如果文本很长并且窗口不是很大它只是剪切文本这是示例代码 vbox BoxLayout orientation vertical size hint y
为什么我的代码不能根据字典解码加密字符串？

我有一本字典其中包含代表字母的键和值例如一个简单的 DICT CODE b g n a p o x d t y 我收到了一个加密代码并将该字符串转换为一个列表其中每个项目都是一个单词我需要根据字典中的项目来解决它代码示例是 wo
Tweepy StreamListener 到 CSV

我是 python 新手我正在尝试开发一个应用程序使用 Tweepy 和 Streaming API 从 Twitter 检索数据并将数据转换为 CSV 文件问题是此代码不会创建输出 CSV 文件也许是因为我应该将代码设置为在实现例
了解 Python 中的酸洗

我最近接到一项作业需要以腌制形式放置一本字典其中每个键引用一个列表唯一的问题是我不知道腌制形式是什么谁能给我指出一些好的资源的正确方向来帮助我学习这个概念 pickle 模块实现了一个基本但强大的算法用于序列化和反序列化 Pyth
更新 Sqlalchemy 中的多个列

我有一个在 Flask 上运行的应用程序并使用 sqlalchemy 与数据库交互我想用用户指定的值更新表的列我正在使用的查询是 def update table value1 value2 value3 query update T
当单词以“|”分隔时如何读取文件（埃因霍温）？

在Python中我有一个文件其中的单词由例如 city state zipcode 我的文件阅读器无法区分单词另外我希望我的文件阅读器从第 2 行而不是第 1 行开始如何让我的文件阅读器分隔单词 import os import
WindowsError：[错误 126] 使用 ctypes 加载操作系统时

python代码无法在Windows 7平台上运行 def libSO lib ctypes cdll LoadLibrary ConsoleApplication2 so lib cfoo2 1 3 当我尝试运行它时得到来自python
Python 惰性迭代器

我试图了解迭代器表达式如何以及何时被求值以下似乎是一个懒惰的表达 g i for i in range 1000 if i 3 i 2 然而这个在构造上失败了 g line strip for line in open xxx r if
如何使用 paramiko 查看（日志）文件传输进度？

我正在使用 Paramiko 的 SFTPClient 在主机之间传输文件我希望我的脚本打印文件传输进度类似于使用 scp 看到的输出 scp my file user host user host password my file 1
将文本注释到轴并对齐为圆

我正在尝试在轴上绘制文本并将该文本与圆对齐更准确地说有一些具有不同坐标 x y 的点位于该圆内并使用以下命令创建 ax scatter x y s 100 我想用圆圈连接并标记每个点 Cnameb 文本的坐标由 xp yp 定义因此
在 virtualenvwrapper 中激活环境

我安装了virtualenv and virtualenvwrapper用这个命令我创建了一个环境 mkvirtualenv cv 它有效创建后我就处于新环境中现在我重新启动了我的电脑我想activate又是那个环境但是怎么样我使
更改 Python Cmd 模块处理自动完成的方式

我有一个 Cmd 控制台设置为自动完成 Magic the Gathering 收藏管理系统的卡牌名称它使用文本参数在数据库中查询卡片并使用结果自动完成建议卡片然而这些卡片名称有多个单词 Cmd 会从last到行尾的空间例如
如何为所有用户安装 Anaconda python？

Anaconda python 发行版 https store continuum io cshop anaconda 非常方便地部署科学计算环境 SCE 并根据需要切换python版本默认情况下安装会将 python 定位到 anac
如何获取所有mysql元组结果并转换为json

我能够从表中获取单个数据但是当我试图获取表上的所有数据时我只得到一行 cnn execute sql rows cnn fetchall column t 0 for t in cnn description for row in ro
使用 urllib 编码时保持 url 参数有序

我正在尝试用 python 模拟 get 请求我有一个参数字典并使用 urllib urlencode 对它们进行 urlencode 我注意到虽然字典的形式是 k1 v1 k2 v2 k3 v3 urlencoding 后参数的顺序切

随机推荐

在 C 或 C++ 中使用逗号作为宏名称

我想做这样的事情 define define MAX 10 000 000 undef 有什么技巧可以做到吗编辑我知道 C 14 中的数字分隔符我正在寻找一种技巧来对不兼容的编译器执行相同的操作 EDIT2 请考虑Variadic M
ASP.NET 搜索表单 - 动态 Linq to SQL？

我有一个搜索表单允许用户以多种不同的方式搜索多个不同的字段这是我的代码的示例 var claims from c in db Claims select c switch ddlSearchField Text case StartsW
Twitter 不再使用请求库 python

我有一个 python 函数它使用 requests 库和 BeautifulSoup 来抓取特定用户的推文 import requests from bs4 import BeautifulSoup contents requests
使用 libgdx 裁剪图像

I need to crop image like this 我需要从中心绘制部分图像我知道有一个带有很多参数的批处理的draw 方法但是没有关于所有这些参数的良好文档所以我不知道如何使用它这是我实现的 public class T
如何创建一个类似“隐形”的Android应用程序？

我想让我的应用程序以某种隐形模式运行我想做的两件主要事情不以编程方式在已安装的应用程序列表抽屉中显示应用程序图标通过拨号盘启动应用程序一些特殊的数字组合我知道我可以删除启动器意图过滤器来隐藏图标
使用“onclick”和 JavaScript 获取按钮上的 X/Y 坐标

我是一名 JavaScript 初学者正在寻找一种方法来获取单击按钮时的 x 和 y 坐标这适用于 Opera IE9 和 Chrome 但我无法让它在 Firefox 中工作到目前为止这是我的代码 JavaScript 中的函数
SQLSTATE[HY000] [2002] 连接尝试失败，因为连接方在一段时间后没有正确响应，

我尝试连接 2 个数据库Laravel 5 6项目但我遇到这样的错误 SQLSTATE HY000 2002 连接尝试失败因为连接方在一段时间后没有正确响应或者由于连接的主机未能响应而建立的连接失败 SQL 从中选择 mt merch
Nodejs Base64 中的读取文件

我正在尝试从客户端读取以 base64 编码的图像如何使用nodejs进行阅读 My code add to buffer base64 image var encondedImage new Buffer image name base
垫子选择面板最小宽度

我正在尝试使用多个复选框自定义垫选择由于某种原因面板的最小宽度错误如下所示我不知道它在哪里计算这个最小宽度我还尝试添加 panelClass 并覆盖此类的最小宽度例如
datatables.search 函数修改后的奇怪行为

这个问题是后续问题这个问题 https stackoverflow com questions 54671211 overriding datatables js search behavior 我已经创建了这个 JSFiddle http
使用 typescript 时 html-webpack-plugin 出现太多错误

我正在使用 Webpack 和 typescript 启动一个项目但是当我尝试运行开发服务器时我在 html webpack plugin 上遇到很多错误这是我的输出 gt email protected cdn cgi l emai
如何强制元数据值类型为字符串？

我在manifest xml中指定了一个元数据如下所示
使用 HttpClient 的 Xamarin.iOS 项目出现“操作无效”错误

我创建 HttpClient 并在按钮单击处理程序中调用 GetStringAsync 方法 var client new HttpClient var response await client GetStringAsync http g
如何更新状态变更指令

我有一个根状态它定义了 Angular 模板的整体结构在根状态下我包含侧边栏其中通过根据状态更改的指令具有动态菜单像这样 state root abstract true url root templateUrl views ro
[本机]：在Qt for Android中使用Java函数和第3方库[关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案最近我用qt写了一个android应用程序但我有一个很大的问题我可以使用调用一些原生的android API 比如调用特殊的activit
过滤 Django 管理选择框的模型结果

我今天刚开始使用 Django 到目前为止发现做简单的事情相当困难我现在正在努力解决的是过滤状态类型列表 StatusTypes 模型是 class StatusTypes models Model status models CharF
AWS CLI S3API 查找路径中的最新文件夹

我有一个非常大的桶数十万个对象我有一条路径假设 s3 myBucket path1 path2 path2 获取也是文件夹的上传内容因此示例可能如下所示 s3 myBucket path1 path2 v6 1 0 s3 myBu
在PHP中引用容器对象的方法？

PHP 中给出以下内容
是否可以找到哪个用户位于 localhost TCP 连接的另一端？

这是一个编程问题但它是 Linux Unix 特定的如果我从本地主机获得 TCP 连接是否有一种简单的方法可以告诉哪个用户在 C 程序内建立了连接而无需 shell 我知道这对于 Unix 域套接字来说并不太难我已经知道远程 IP
numpy 中的分层抽样

在 numpy 中我有一个这样的数据集前两列是索引我可以通过索引将数据集分成多个块即第一个块是 0 0 第二个块是 0 1 第三个块 0 2 然后是 1 0 1 1 1 2 等等每个块至少有两个元素索引列中的数字可能会有所不同我

numpy 中的分层抽样

numpy 中的分层抽样 的相关文章

随机推荐

热门标签

numpy 中的分层抽样的相关文章