Pandas 跨多列进行代表性采样

2024-02-01

我有一个代表人口的数据框，每一列表示该人的不同品质/特征。我怎样才能获得该数据框/人口的样本，它代表了整个人口的所有特征。

假设我有一个代表 650 人的员工队伍的数据框，如下所示：

import pandas as pd
import numpy as np
c = np.random.choice

colours = ['blue', 'yellow', 'green', 'green... no, blue']
knights = ['Bedevere', 'Galahad', 'Arthur', 'Robin', 'Lancelot']
qualities = ['wise', 'brave', 'pure', 'not quite so brave']

df = pd.DataFrame({'name_id':c(range(3000), 650, replace=False),
              'favourite_colour':c(colours, 650),
              'favourite_knight':c(knights, 650),
              'favourite_quality':c(qualities, 650)})

我可以获得上面的一个样本，反映单列的分布，如下所示：

# Find the distribution of a particular column using value_counts and normalize:
knight_weight = df['favourite_knight'].value_counts(normalize=True)

# Add this to my dataframe as a weights column:
df['knight_weight'] = df['favourite_knight'].apply(lambda x: knight_weight[x])

# Then sample my dataframe using the weights column I just added as the 'weights' argument:
df_sample = df.sample(140, weights=df['knight_weight'])

这将返回一个示例数据帧（df_sample），使得：

df_sample['favourite_knight'].value_counts(normalize=True)
is approximately equal to
df['favourite_knight'].value_counts(normalize=True)

我的问题是这样的：如何生成示例数据帧（df_sample），以便上面的内容即：

df_sample[column].value_counts(normalize=True)
is approximately equal to
df[column].value_counts(normalize=True)

对于所有列（“name_id”除外）都适用，而不仅仅是其中一列？人口为 650 人，样本量为 140 人，大约是我正在处理的规模，因此性能并不是太大的问题。我很乐意接受需要几分钟才能运行的解决方案，因为这仍然比手动生成上述示例要快得多。感谢您的任何帮助。

您创建一个组合特征列，对其进行加权并用它作为权重进行绘制：

df["combined"] = list(zip(df["favourite_colour"],
                          df["favourite_knight"],
                          df["favourite_quality"]))

combined_weight = df['combined'].value_counts(normalize=True)

df['combined_weight'] = df['combined'].apply(lambda x: combined_weight[x])

df_sample = df.sample(140, weights=df['combined_weight'])

这将需要一个额外的步骤，即除以特定重量的计数，因此总和为 1 - 请参阅埃桑·法蒂 https://stackoverflow.com/a/72998710/7505395 post.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

Random

Pandas 跨多列进行代表性采样的相关文章

PyTorch 如何计算二阶雅可比行列式？

我有一个正在计算向量的神经网络u 我想计算关于输入的一阶和二阶雅可比矩阵x 单个元素有人知道如何在 PyTorch 中做到这一点吗下面是我项目中的代码片段 import torch import torch nn as nn class
Python Pandas：返回连续缺失的工作日日期并为数据框中缺失的日期分配比率

Dates rates 7 26 2019 1 04 7 30 2019 1 0116 7 31 2019 1 005 8 1 2019 1 035 8 2 2019 1 01 8 6 2019 0 9886 8 12 2019 0 965
Pycharm 出现 Kivy 错误 [严重] [应用程序] 无法获取窗口，中止

我正在尝试让示例 Kivy 代码之一在我的机器上运行我使用的是 Pycharm 社区版 2017 1 安装了 anaconda python 2 7 和 Kivy 1 9 我已使用项目设置将 Kivy 模块和 Pygame 模块安装到项目
为什么tcl/tkinter只支持BMP字符？

我正在尝试在基于 tkinter 和 tcl 构建的 gui 中查询和显示 utf 8 编码字符但是我发现 tkinter 无法显示 4 字节字符即大于 U FFFF 的 unicode 代码点为什么会这样呢实现非 BMP 字符对
pythonic方式来反转一个字典，其中值是列表？

我有一本看起来像这样的字典 letters by number 1 a b c d 2 b d 3 a c 4 a d 5 b c 我想将其反转为如下所示 numbers by letter a 1 3 4 b 1 2 5 c 1 3 5
Flask / Werkzeug - 套接字卡在 CLOSE_WAIT 中

我遇到过一种情况 API 构建于Flask 宁静 https github com flask restful flask restful间歇性变得无反应目前它从 Werkzeug 运行我知道它仅用于非生产用途并且是单线程的让事情变
Plotly：如何制作具有多条线和标准差阴影区域的图形？

How can I use Plotly to produce a line plot with a shaded standard deviation I am trying to achieve something similar to
Panda如何将行分组到不同的时间桶中？

我有一个带有名为时间戳的日期时间类型列的数据帧我想根据时间部分的时间戳将数据帧拆分为多个数据帧每个数据帧包含按其值模 x 分钟进行值的行其中 x 是变量请注意e and f不按原来的顺序以 10 分钟为模我希望所有时间都以3在一
按自定义年度频率重新采样

我知道我可以使用 AS JUL 从 7 月 1 日开始每年重新采样但在不同的日期之前我该如何做 In 11 df Out 11 value date 2005 07 02 4 2005 09 20 7 2005 11 12 4 2005
将 *.appspot.com 重定向到自定义域：Google 应用引擎 (Django)

我直接将我的一些示例代码放在这里以获得更好的了解 url py r robots txt myapp views robots r myapp views home views py def home request my code ret
测试 python 列表的所有元素是否为 False

如何返回False如果所有元素都在列表中False 给定的列表是 data False False False Using any https docs python org 2 library functions html any gt
如何将字符串转换为二进制？

我需要一种方法来获取 python 中字符串的二进制表示形式例如 st hello world toBinary st 是否有一个模块可以以某种巧妙的方式执行此操作像这样的东西吗 gt gt gt st hello world gt g
如何使绘图的 xtick 标签成为简单的绘图？

我不想用单词或数字作为 x 轴的刻度标签而是想绘制一个简单的绘图由直线和圆圈组成作为每个 x 刻度的标签这可能吗如果是这样在 matplotlib 中处理它的最佳方法是什么我会删除刻度标签并将文本替换为patches http
使用 Keras 时，验证集中未见的类别会出现错误

我有由数值变量和分类变量组成的数据分类变量有很多类别因此我使用嵌入来表示这些类别我的模型是一个简单的神经网络我知道当你定义嵌入层时你需要通过input dim number of categories 1为了解释训练中看不见的类别
在 C++ 中运行 python [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我有一个用 C 编写的应用程序和一个测试系统也是用 C 编写的测试系统非常复杂并且很难改变我只想做一些小的改变我的班级是这样的
python - 从完整地址获取邮政编码

我有一个数据框其中一列中有完整地址我需要创建一个仅包含邮政编码的单独列有些地址只有五位数字的邮政编码而其他地址则有额外的四位数字如何拆分列以获取邮政编码示例数据 d name bob john address 123 6th S
异常：AttributeError：使用 Azure Function 和 Python 的“DefaultAzureCredential”对象没有属性“signed_session”

我编写了一个运行 Python3 的 Azure 函数来简单地打开 Azure VM 该函数应用程序具有系统分配的托管标识我已为其授予 VM 贡献者角色为了让该函数使用托管标识我使用了 DefaultAzureCredential 类
打开 PDF 到书签/指定目标？

我正在尝试使用 python 打开特定书签的 PDF 到目前为止我可以在命令提示符中运行以下命令并得到我想要的 last是 PDF test pdf 中指定目的地的名称 C Program Files x86 Adobe Reader 1
Pytorch RuntimeError：张量 a (4) 的大小必须与非单维 0 处张量 b (3) 的大小匹配

我使用的代码来自here https www learnopencv com image classification using transfer learning in pytorch 训练模型来预测印刷样式编号0 to 9 idx t
Django ALLOWED_HOSTS 与 CORS(django-cors-headers)

ALLOWED HOSTS 和 CORS 之间有什么区别如果我定义了 ALLOWED HOSTS 我还需要定义 CORS 吗我没有使用 django 模板我也有可能动态定义这两个吗我认为没有我使用 django 作为后端并在不同

随机推荐

Java 缓冲图像 RescaleOp 透明度问题

我似乎遇到了一个问题我创建了一个具有如下透明像素的 BufferedImage BufferedImage buff new BufferedImage i getWidth null i getHeight null BufferedI
.NET Framework 项目上的 dotnet 恢复不起作用

我有一个 NET 项目其中包含以下内容 csproj
C# 中的自然排序顺序

任何人都拥有良好的资源或提供 C 自然顺序排序的示例FileInfo大批我正在实施IComparer我喜欢的界面最简单的方法就是 P Invoke Windows 中的内置函数并将其用作您的比较函数IComparer DllImpor
Vue路由器如何在页面加载时获取延迟加载模块的当前路由路径？

我有一个 vue 应用程序其路由器设置如下 import index from components index vue import http404 from components http404 vue module lazy loa
shell 脚本中的 grep 实用程序

我正在尝试克服文件结构的限制我想在已知位置 grep 一系列文件如果我从命令行执行标准 grep grep i searchpattern known dir s sql 我收到以下错误 ksh usr bin grep 0403 02
从 pandas DataFrame 创建术语密度矩阵的有效方法

我正在尝试从 pandas 数据帧创建术语密度矩阵因此我可以对数据框中出现的术语进行评分我还希望能够保留数据的空间方面请参阅帖子末尾的评论以获取我的意思的示例我是 pandas 和 NLTK 的新手所以我希望我的问题可以通过一
子元素触发的鼠标悬停事件 - 如何停止？

我想使用 scriptaculous 中的 Effect Move 来构建这个界面当然使用 Prototype 当顶div鼠标悬停时触发span标签是向左移动 50 像素并在鼠标移开时重置而不移动到原始位置问题是任何时候div元素
为什么我无法使用方法返回的列表引用添加元素[重复]

这个问题在这里已经有答案了当我使用方法返回的列表引用添加元素时出现错误假人 java package firstPro import java util List public class Dummy private List
阻止访问静态内容文件夹

我想知道如何阻止访问我的网络应用程序中的静态内容文件夹右边的文件夹位于 war 中的 web root 文件夹内像这样 myapp css js swf WEB INF 我希望内容仅在用户处于会话中时从应用程序中可见如果有人在他她的
如何在 JavaScript 中四舍五入为整数？

我有以下代码来计算一定的百分比 var x 6 5 var total total x 15 100 Result 43 3333333333 我想要的结果是确切的数字43如果总数是43 5它应该四舍五入到44 有没有办法在 JavaScr
检索 WMI Win32_Processor.Family 属性的描述性值而不是索引

下面的简单 VBS 示例从 WMI 检索 CPU 标题体系结构和系列 s For Each Item In GetObject winmgmts impersonationLevel impersonate Root CIMV2 Inst
SonarQube 4.3.2 Javascript 排除 [重复]

这个问题在这里已经有答案了我们在 Java 项目中使用 SonarQube 版本 4 3 2 我们想要排除当前正在分析的所有 javascript 文件我们尝试在排除列表中使用 js 进行排除但没有成功请帮忙 In your son
[外设maximumWriteValueLengthForType:CBCharacteristicWriteWithResponse]返回什么？

我正在运行以下代码 peripheral maximumWriteValueLengthForType CBCharacteristicWriteWithResponse 就我而言 iPhone 7 iOS 10 0 2 它返回 512 这
jPlayer - 通过页面重定向保存用户设置

我已经关注这个问题好几天了我无法让它发挥作用希望有人可以帮助我并指出我正确的方向使用 jPlayer http jplayer org http jplayer org 我需要将 cookie 设置为以下内容以便当用户返回该网页时
iPhone 802.11 扫描

我正在开发一个室内位置使用 wifi 的系统但是我在使用苹果库时遇到了问题曾经是私人的现在是公共的我在哪里使用代码 libHandle dlopen System Library SystemConfiguration IPConf
MacOS 上使用 clang-15 时 FindTerminfo 中的 CMake 错误

我在我的项目中使用 llvm 并使用 cmake 找到它find package LLVM REQUIRED CONFIG 配置失败并显示消息 cmake CMake Error at Applications CMake app Cont
jestjs - 如何在 ci 中参数化 cli 的测试执行？

我有4个环境 dev 开发者区测试测试区 preprod 预生产环境生产生产环境这些环境需要不同的配置来执行测试不同的 url 用户名资产等如何在持续集成中将它们的配置作为参数传递给 jest 正如你所读到的here htt
Java 线程转储总结工具

我有时必须查看 Tomcat 服务器的线程转储然而这是一个非常慢的过程因为我的应用程序使用具有数百个线程的线程池我查看的大多数线程转储都包含许多线程的相同堆栈跟踪因为它们处于空闲等待工作状态是否有任何工具可以解析线程转储并仅向我
eXist-db 在 .xq 数据中包含 html 模板

我有一个 index html 数据我通过以下方式包含了模板 div 在索引 html 站点中我包含了一个关键字搜索表单其想法是当我单击搜索按钮时它应该调用 xq 文件来请求搜索结果 div
Pandas 跨多列进行代表性采样

我有一个代表人口的数据框每一列表示该人的不同品质特征我怎样才能获得该数据框人口的样本它代表了整个人口的所有特征假设我有一个代表 650 人的员工队伍的数据框如下所示 import pandas as pd import num

Pandas 跨多列进行代表性采样

Pandas 跨多列进行代表性采样 的相关文章

随机推荐

热门标签

Pandas 跨多列进行代表性采样的相关文章