对于 pandas DataFrame 列中的每个唯一值，如何随机选择一定比例的行？

2023-12-13

这里是Python新手。想象一个 csv 文件，如下所示：

（...除了在现实生活中，Person 列中有 20 个不同的名称，每个 Person 有 300-500 行。此外，还有多个数据列，而不仅仅是一个。）

我想做的是randomly标记每个人行的 10% 并将其标记在新列中。我想出了一个极其复杂的方法来做到这一点——它涉及创建一个由随机数和各种不必要的复杂的辅助列组成的辅助列。它有效，但很疯狂。最近，我想出了这个：

import pandas as pd 
df = pd.read_csv('source.csv')
df['selected'] = ''

names= list(df['Person'].unique())  #gets list of unique names

for name in names:
     df_temp = df[df['Person']== name]
     samp = int(len(df_temp)/10)   # I want to sample 10% for each name
     df_temp = df_temp.sample(samp)
     df_temp['selected'] = 'bingo!'   #a new column to mark the rows I've randomly selected
     df = df.merge(df_temp, how = 'left', on = ['Person','data'])
     df['temp'] =[f"{a} {b}" for a,b in zip(df['selected_x'],df['selected_y'])]
        #Note:  initially instead of the line above, I tried the line below, but it didn't work too well:
        #df['temp'] = df['selected_x'] + df['selected_y']
     df = df[['Person','data','temp']]
     df = df.rename(columns = {'temp':'selected'})

df['selected'] = df['selected'].str.replace('nan','').str.strip()  #cleans up the column

正如你所看到的，本质上我正在为每个人提取一个临时 DataFrame，使用DF.sample(number)进行随机化，然后使用DF.merge将“标记”行放回到原始数据帧中。它涉及迭代列表来创建每个临时 DataFrame...我的理解是迭代有点蹩脚。

必须有一种更Pythonic、矢量化的方法来做到这一点，对吧？无需迭代。也许涉及到一些事情groupby？非常感谢任何想法或建议。

编辑：这是另一种避免的方法merge...但它仍然很笨重：

import pandas as pd
import math
    
   #SETUP TEST DATA:
    y = ['Alex'] * 2321 + ['Doug'] * 34123  + ['Chuck'] * 2012 + ['Bob'] * 9281 
    z = ['xyz'] * len(y)
    df = pd.DataFrame({'persons': y, 'data' : z})
    df = df.sample(frac = 1) #shuffle (optional--just to show order doesn't matter)
    percent = 10  #CHANGE AS NEEDED
    
    #Add a 'helper' column with random numbers
    df['rand'] = np.random.random(df.shape[0])
    df = df.sample(frac=1)  #this shuffles data, just to show order doesn't matter
    
    #CREATE A HELPER LIST
    helper = pd.DataFrame(df.groupby('persons'['rand'].count()).reset_index().values.tolist()
    for row in helper:
        df_temp = df[df['persons'] == row[0]][['persons','rand']]
        lim = math.ceil(len(df_temp) * percent*0.01)
        row.append(df_temp.nlargest(lim,'rand').iloc[-1][1])
               
    def flag(name,num):
        for row in helper:
            if row[0] == name:
                if num >= row[2]:
                    return 'yes'
                else:
                    return 'no'
    
    df['flag'] = df.apply(lambda x: flag(x['persons'], x['rand']), axis=1)

你可以使用groupby.sample，要么挑选整个数据帧的样本进行进一步处理，要么识别数据帧的行以标记是否更方便。

import pandas as pd

percentage_to_flag = 0.5

# Toy data: 8 rows, persons A and B.
df = pd.DataFrame(data={'persons':['A']*4 + ['B']*4, 'data':range(8)})
#   persons  data
# 0       A     0
# 1       A     1
# 2       A     2
# 3       A     3
# 4       B     4
# 5       B     5
# 6       B     6
# 7       B     7

# Pick out random sample of dataframe.
random_state = 41  # Change to get different random values.
df_sample = df.groupby("persons").sample(frac=percentage_to_flag,
                                         random_state=random_state)
#   persons  data
# 1       A     1
# 2       A     2
# 7       B     7
# 6       B     6

# Mark the random sample in the original dataframe.
df["marked"] = False
df.loc[df_sample.index, "marked"] = True
#   persons  data  marked
# 0       A     0   False
# 1       A     1    True
# 2       A     2    True
# 3       A     3   False
# 4       B     4   False
# 5       B     5   False
# 6       B     6    True
# 7       B     7    True

如果您确实不想要子采样数据帧df_sample您可以直接标记原始数据帧的样本：

# Mark random sample in original dataframe with minimal intermediate data.
df["marked2"] = False
df.loc[df.groupby("persons")["data"].sample(frac=percentage_to_flag,
                                            random_state=random_state).index,
       "marked2"] = True
#   persons  data  marked  marked2
# 0       A     0   False    False
# 1       A     1    True     True
# 2       A     2    True     True
# 3       A     3   False    False
# 4       B     4   False    False
# 5       B     5   False    False
# 6       B     6    True     True
# 7       B     7    True     True

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

对于 pandas DataFrame 列中的每个唯一值，如何随机选择一定比例的行？的相关文章

Dask DataFrame 的逐行处理

我需要处理一个大文件并更改一些值我想做这样的事情 for index row in dataFrame iterrows foo doSomeStuffWith row lol doOtherStuffWith row dataFrame
获取单个方程的脚本

在文本文件中输入 a 2 8 b 3 9 c 4 8 d 5 9 e a b f c d g 0 6 h 1 7 i e g j f h output i j 期望的输出输出 2 8 3 9 0 6 4 8 5 9 1 7 如果输入文件名
如何自动替换多个文件的文本内容中的字符？

我有一个文件夹 myfolder包含许多乳胶表我需要替换其中每个字符即替换任何minus sign by an en dash 只是为了确定我们正在替换连字符INSIDE该文件夹中的所有 tex 文件我不关心 tex 文件名手动执
NLTK、搭配问题：需要解包的值太多（预期为 2）

我尝试使用 NLTK 检索搭配但出现错误我使用内置的古腾堡语料库 I wrote alice nltk corpus gutenberg fileids 7 al nltk corpus gutenberg words alice al
无法包含外部 pandas 文档 Pycharm v--2018.1.2

我无法包含外部 pandas 文档Pycharm v 2018 1 2 例如 numpy gt http docs scipy org doc numpy reference generated module name element na
Python：当前目录是否自动包含在路径中？

Python 3 4 通过阅读其他一些 SO 问题似乎如果moduleName py文件位于当前目录之外如果要导入它必须将其添加到路径中sys path insert 0 path to application app folder
Python：随时接受用户输入

我正在创建一个可以做很多事情的单元其中之一是计算机器的周期虽然我将把它转移到梯形逻辑 CoDeSys 但我首先将我的想法放入 Python 中我将进行计数只需一个简单的操作 counter 1 print counter 跟踪我处于
使用 genfromtxt 导入 numpy 中缺失值的 csv 数据

我有一个 csv 文件看起来像这样实际文件有更多的列和行 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 假设文件的名称是info csv如果我尝试使用导入它 data numpy genfromtxt i
使用 dict 在数据框中查找行

df pd DataFrame a 1 2 3 b 4 5 6 produces a b 0 1 4 1 2 5 2 3 6 给定一个字典 d a 2 b 5 我将如何提取数据帧中字典的键值与所有列值匹配的行所以在这种情况下 a b 1
在 Windows 上使用 IPython 笔记本时出现 500 服务器错误

我刚刚在 Windows 7 Professional 64 位上全新安装了 IPython 笔记本我采取的步骤是从以下位置安装 Python 3 4 1http python org http python org gt pip in
ValueError：无法插入 ID，已存在

我有这个数据 ID TIME 1 2 1 4 1 2 2 3 我想按以下方式对数据进行分组ID并计算每组的平均时间和规模 ID MEAN TIME COUNT 1 2 67 3 2 3 00 1 如果我运行此代码则会收到错误 ValueE
使用 Doc2vec 后如何解释 Clusters 结果？

我正在使用 doc2vec 将关注者的前 100 条推文转换为矢量表示形式例如 v1 v100 之后我使用向量表示来进行 K 均值聚类 model Doc2Vec documents t size 100 alpha 035 windo
asyncio - 多次等待协程（周期性任务）

我正在尝试为异步事件循环创建定期任务如下所示但是我收到 RuntimeError 无法重用已等待的协程异常显然 asyncio 不允许等待相同的可等待函数如中讨论的这个错误线程 https bugs python org issu
CSV 在列中查找最大值并附加新数据

大约两个小时前我问了一个关于从网站读取和写入数据的问题从那时起我花了最后两个小时试图找到一种方法来从输出的 A 列读取最大日期值将该值与刷新的网站数据进行比较并将任何新数据附加到 csv 文件而不覆盖旧的或创建重复项目前 100
Google App Engine 中的自定义身份验证

有谁知道或知道我可以在哪里学习如何使用 Python 和 Google App Engine 创建自定义身份验证流程我不想使用 Google 帐户进行身份验证并且希望能够创建自己的用户如果不是专门针对 Google App Engin
从 dask 数据框中的日期时间序列获取年份和星期？

如果我有一个 Pandas 数据框和一个日期时间类型的列我可以按如下方式获取年份 df year df date dt year 对于 dask 数据框这是行不通的如果我先计算像这样 df year df date compute
PyQt 中的线程和信号问题

我在 PyQt 中的线程之间进行通信时遇到一些问题我使用信号在两个线程发送者和监听者之间进行通信发送者发送消息期望被监听者接收但是没有收到任何消息谁能建议可能出了什么问题我确信这一定很简单但我已经环顾了几个小时但没有发现
具有指定置信区间的 Seaborn 条形图

我想在 Seaborn 条形图上绘制置信区间但我已经计算出置信区间如何让 Seaborn 绘制我的置信区间而不是尝试自行计算它们例如假设我有以下 pandas DataFrame x pd DataFrame Group 1 0 5
使用“pythonw”（而不是“python”）运行应用程序时找不到模块

我尝试了这个最小的例子 from flask import Flask app Flask name app route def hello world return Hello World if name main app run deb
将此 MATLAB 代码转换为 Python 时我做错了什么？

我正在努力将生成波形的 MATLAB 代码转换为 Python 就上下文而言这是原子力显微镜带激发响应的模拟与代码错误无关在 MATLAB 中从 r vec 生成的图形与我在 Python 中生成的图形不同我是否正确地将 MATLA

随机推荐

如何在 CSS 中并排设置背景图像

我试图让一个容器并排放置两个背景图像这样我就可以将一些文本放在两个图像的顶部居中截至目前我只能显示一张背景图像如何将它们滑开 HTML
颤振中的生命周期

flutter 有没有类似的方法Activity resume 这可以告诉开发人员用户已经返回到该活动当我在Page B中从互联网上获取数据并返回Page A时如何让Page A知道数据已准备好 METHOD DESCRIPTION 1
如何以编程方式卸载Android系统应用程序？

我可以获得已安装应用程序的列表用户和系统应用程序我还可以卸载用户应用程序但是无法卸载系统应用程序有什么办法可以卸载系统应用吗如果手机已经root 下面的代码可以工作吗 Intent intent new Intent Intent
Python在Qthread中访问父类的widget

我想访问父类小部件QThread class 此行给出挂起 GUI Example setWindowTitle Window 我怎样才能做到这一点 class Example QWidget def init self super ini
使用按钮从视图内部调用 httppost actionresult

我有一个项目是使用数据库在用户之间创建在线商店发布产品购买等在这个项目中我有一个名为 ShoppingCart 的视图 model IEnumerable
使用 AJAX/Jquery 进行实时用户名查找

我想要一个像这样的 JavaScript 函数 function isUsernameAvailable username Code to do an AJAX request and return true false if the us
验证方法后未调用 finishWithAuth

我已经设置了 clientID 范围然后在 MyViewController 中单击按钮我正在从 LoginCLass 调用方法登录该方法有效但在 signInauthenticate 之后委托实现 finishWithAuth
地理定位在 iOS 8 模拟器中不起作用

我按照这篇文章升级了 cordova 3 5 中的地理定位插件以修复 iOS 8 中的问题 http shazronatadobe wordpress com 2014 09 18 cordova ios and ios 8 在 iOS 8
如何解决 raster_columns 问题？

我正在尝试在 PostgreSQL 上使用 Heroku 凭据打开服务器但是当我创建扩展 postgis 时出现错误关系 raster columns 不存在错误我该如何修复它感谢您的答复我解决了在其他版本中安装 postg
编程语言|如何在 Excel 中将值从一个单元格复制到另一个单元格

我想将单元格值复制到另一个单元格但我想保留变量中的值以便我可以根据要求使用它以下是我尝试过的代码 Private Sub CommandButton1 Click NumRows Range A1 Range A1 End xlDow
如何使用python读取配置文件

我有一个配置文件abc txt看起来有点像 path1 D test1 first path2 D test2 second path3 D test2 third 我想从以下位置读取这些路径abc txt在我的程序中使用它以避免硬编码为
如何创建具有动态对象类型的通用列表

我想创建 Type 对象的通用列表我有 Type type typeof Foo object model GetModel 现在我想创建一个new List
jQuery 屏蔽输入 - 将日期格式设置为 m/d/yyyy 或 m/dd/yyyy 或 mm/dd/yyyy 或 mm/d/yyyy

我想使用此处找到的 jQuery 屏蔽输入插件http digitalbush com projects masked input plugin 格式化日期我正在从数据库中提取数据以在页面加载时填充日期字段如果日期不正确用户将能够更改
Java 电子邮件中的 HTML 格式文本

try String msg Happy BirthDay Dear b name toUpperCase b Have a Great Day n n Thank You n Seva Development MimeMessage me
在 knit/Sweave 关系中对 R ftable() 输出的值进行着色/突出显示

我正在生成很多ftable 交叉制表以获得描述性报告例子 AUS BEL BUL EST FRA GEO GER HUN ITA NET NOR ROM RUS 30 primary 0 06 0 03 0 07 0 03 0 02 0
Sympy - 比较表达式

有没有办法检查两个表达式在数学上是否相等我期望tg x cos x sin x 输出True 但它输出False 有没有办法与 sympy 进行这样的比较另一个例子是 a b 2 a 2 2 a b b 2令人惊讶的是还输出False
Git mv 无法按预期工作（文件位置错误）

作为我的任务的一部分我需要将组件从三个地方整合到一个地方换句话说将文件夹包括许多子文件夹和文件移动到一个现有文件夹我正在使用它git mv 但问题是一旦我尝试合并使用git merge 非合并分支到合并分支我遇到很多冲突
找到所有三元组 i,j,k 使得 i+j+k=n

我已经编码了但这很长 for i in range n 1 for j in range n 1 for k in range n 1 if i j k n 有什么巧妙的方法可以让它跑得更快吗目前它是 O n 3 这是相当可悲的有几种
jboss中不同war模块之间的会话共享可能吗？

有没有一种简单的方法可以在jboss中的不同war模块之间共享会话我有一个在 jboss 中运行的 Grails 应用程序但想要创建一个新的 Grails war 模块它的外观和感觉与现有模块相同但是不希望用户再次登录域将是相同
对于 pandas DataFrame 列中的每个唯一值，如何随机选择一定比例的行？

这里是Python新手想象一个 csv 文件如下所示除了在现实生活中 Person 列中有 20 个不同的名称每个 Person 有 300 500 行此外还有多个数据列而不仅仅是一个我想做的是randomly标记每个人行的

对于 pandas DataFrame 列中的每个唯一值，如何随机选择一定比例的行？

对于 pandas DataFrame 列中的每个唯一值，如何随机选择一定比例的行？ 的相关文章

随机推荐

热门标签

对于 pandas DataFrame 列中的每个唯一值，如何随机选择一定比例的行？的相关文章