以相同的方式对两个 pandas 数据帧进行采样

2024-01-11

我正在进行机器学习计算，有两个数据帧 - 一个用于因子，另一个用于目标值。我必须将两者分为训练和测试部分。在我看来，我已经找到了方法，但我正在寻找更优雅的解决方案。这是我的代码：

import pandas as pd
import numpy as np
import random

df_source = pd.DataFrame(np.random.randn(5,2),index = range(0,10,2), columns=list('AB'))
df_target = pd.DataFrame(np.random.randn(5,2),index = range(0,10,2), columns=list('CD'))

rows = np.asarray(random.sample(range(0, len(df_source)), 2))

df_source_train = df_source.iloc[rows]
df_source_test = df_source[~df_source.index.isin(df_source_train.index)]
df_target_train = df_target.iloc[rows]
df_target_test = df_target[~df_target.index.isin(df_target_train.index)]

print('rows')
print(rows)
print('source')
print(df_source)
print('source train')
print(df_source_train)
print('source_test')
print(df_source_test)

---- 编辑 - 按单位解决方案（修改）---

np.random.seed(2013)
percentile = .6
rows = np.random.binomial(1, percentile, size=len(df_source)).astype(bool)

df_source_train = df_source[rows]
df_source_test = df_source[~rows]
df_target_train = df_target[rows]
df_target_test = df_target[~rows]

您可以在下面找到我的解决方案，它不涉及任何额外的变量。

Use .sample获取数据样本的方法
Use .index样本方法，获取索引
Apply slice()按索引查找第二个dataframe

例如。假设您有 X 和 Y，并且您希望每个都获得 10 件样品。当然，它应该是相同的样本

X_sample = X.sample(10)
y_sample = y[X_sample.index]

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

以相同的方式对两个 pandas 数据帧进行采样的相关文章

使用 Python pdb 检查未处理异常原因的最简单方法是什么？

我刚刚将所有单元测试数据从 JSON 转换为 YAML 现在代码中的某处引发了异常更具体地说这是打印的回溯 Traceback most recent call last File tests test addrtools py lin
在 Python 中静默打印 PDF

我正在尝试使用 Python 打印 PDF 而不打开 PDF 查看器应用程序 Adobe Foxit 等我还需要知道打印何时完成以删除文件 Here http permalink gmane org gmane comp python
为不带引号的函数获取字符串参数

我有一个函数用于从 URL 下载文件并将其写入磁盘并施加特定的文件扩展名目前它看起来像这样 import requests import os def getpml url filename psc requests get url
表单输入框不显示

我正在尝试使用 Django 显示一个简单的表单输入文本框我正在亚马逊 AWS 上部署该网站在不同的服务器 pythonanywhere 上运行良好但在 AWS 上存在主要问题具体来说输入框没有被显示我使用的模板如下首页 ht
为什么 takewhile() 会跳过第一行？

我有一个这样的文件 1 2 3 TAB 1 2 3 TAB 我想将 TAB 之间的行作为块读取 import itertools def block generator file with open file as lines for li
根据另一个非索引数组中的值从 numpy 数组中选择元素

假设我有以下两个数组 a array 1 L 74 423088306605 5 H 128 05441039929008 2 L 68 0581377353869 0 H 88 15726964130869 4 L 97 45015825
确定列的累积最大值

我正在尝试以下代码 df pd DataFrame 23 52 36 49 52 61 75 82 97 12 columns A B df C np where df A gt df C shift df A df C shift pri
解码来自 S60 设备的 WBXML SyncML 消息

我正在尝试解码来自诺基亚 N95 的 WBXML 编码的 SyncML 消息我的第一次尝试是使用 python pywbxml 模块它包装了对 libwbxml 的调用用此方法解码消息会得到许多标签以及标签内的一大块二进制文件我
使用Python处理Sqlite数据库中的换行符“\n”？

我有一个名为 test db 的 Sqlite 数据库其中包含两个表其结构如下表 1 ID 整数主键自动增量名称 varchar 500 颜色 varchar 500 表2 ID INTEGER PRIMARY KEY AUTOIN
如何使用httplib2进行相互证书认证

我正在使用 httplib2 从我的服务器向另一个 Web 服务发出请求我们想要使用相互证书身份验证我了解如何使用证书进行传出连接 h set certificate 但是如何检查应答服务器使用的证书这张票 http code goo
使用 python 更改目录

我碰巧发现我无法从 python 代码中更改实际目录我的测试程序如下 from os import system def sh script system bash c s script sh cd home sh pwd 的输出pwd
将日期（系列）列从一个 DataFrame 添加到其他 Pandas，Python

我正在尝试将日期列从 df1 广播到 df2 在 df1 中我有所有用户的姓名及其基本信息在 df2 中我有一个用户购买的列表 df1 和 df2 代码 https i stack imgur com sN0uJ png 假设我有一
将 tf.contrib.layers.xavier_initializer() 更改为 2.0.0

我该如何改变 tf contrib layers xavier initializer tf 版本 gt 2 0 0 所有代码 W1 tf get variable W1 shape self input size h size initi
使用 matplotlib 在 python3 中对多个形状进行动画处理

尝试在 python3 中使用 matplotlib 动画函数同时对多个对象进行动画处理下面写的代码是我到目前为止的位置我能够创建多个对象并将它们显示在图中我通过使用包含矩形补丁函数的 for 循环来完成此操作从这里开始我希望通过
使用Python构建caffe（找不到-lboost_python3）

我正在尝试用 python 构建 caffe 但它一直这样说 CXX LD o python caffe caffe so python caffe caffe cpp usr bin ld cannot find lboost pytho
数据框更新后如何刷新绘图？

假设您已经使用以下方法构建了一个图形px line 使用数据框数据框稍后会添加新数据用新数据刷新数据的好方法是什么一个例子可以是px data stocks 从列的子集开始 GOOG AAPL AMZN FB NFLX MSFT 例如
Python UPnP/IGD 客户端实现？

我正在寻找一个开源实现UPnP http elinux org UPnPPython 中的客户端更具体地说是它的互联网网关设备 http en wikipedia org wiki Internet Gateway Device Prot
从由空格分隔的单个输入整数列表创建二维数组

我正在解决一些问题geeksforgeeks我遇到了一个特定的问题其中在测试用例中提供了输入如下所示 2 2 denotes row column of the matrix 1 0 0 0 all the elements of th
Python google云函数部署失败-Madmom pip包

我正在尝试使用 madmom python pip 包部署 Python3 7 Google Cloud Function 但是指定madmom 0 16 1requirements txt 中的内容导致部署失败当我从requiremen
Django 多个外键，相同的相关名称

我想创建一个模型 1 其中具有相同其他模型 2 的多个外键我希望这些外键具有相同的related name因为每个外键将指向 model 2 的不同实例因为我需要所有外键的一个反向关系也许一个例子会更明确 class Parent M

随机推荐

如何在mp3上实现seek

我即将进入一个涉及解码播放 mp3 流的项目我有一个Java解码器 JLayer 但据我所知它没有搜索功能我不使用内置播放器我需要实现我自己的播放器另外流是加密的所以我需要实时解密解码不能拥有整个解密文件那么如何在 mp
我们可以为“Skype for Business”构建 Skype 机器人吗？

我见过与 Skype 一起使用的机器人编程示例是否可以使用 Microsoft 的机器人认知服务工具框架开发在 Skype for Business 上运行的企业机器人 Skype for Business 尚不支持机器人框架 htt
使用Python对文件夹中的每个文件执行命令

我正在尝试创建一个Python脚本来查看文件夹 input 对于该文件夹中的每个视频运行 mencoder 命令将它们转码为可在我的手机上播放的内容 mencoder 完成运行后删除原始视频这看起来不太难但我很喜欢 python
当这个通用约束看起来有循环引用时，为什么它会编译

我在 csharp 中为 MVCContrib Html 帮助器编写了一个扩展方法并对通用约束的形式感到惊讶从表面上看它似乎通过类型参数循环引用自身也就是说该方法可以根据需要进行编译和工作我很乐意有人解释为什么这样做有效以及是
Windows 10 UWP 中的电话

目前我找到了 Windows ApplicationModel Calls API 无法拨打电话或启动可用于从我的应用程序拨打电话的不同选项我也尝试了这个代码但仍然无法实现电话呼叫功能 UWP有什么解决方案吗谢谢 if ApiInf
两个 div 中的段落对齐方式，中间有图像

我怎样才能对齐我的段落如下图所示我需要展示一份报纸之类的东西其中应该包含此内容以下是我正在使用的html代码 div class left div div class right div div class myImage img
PHP 中的字符串解析

我正在尝试用 PHP 解析一个字符串 father name John father weight 44 50 kid gt name Marko gt age 12 kid gt name Sevda gt age 17 kid gt n
如何在R中将槽的默认值设置为NULL？

我是 R 新手我试图定义一个类似于树节点的类也就是说它有一个左节点和右节点它应该与父节点属于同一类所以我将类定义如下 setClass Node representation left Node right Node 我想通过设置
Python - 服务器从两个 UDP 套接字监听

我是 Python 新手而且我无法让服务器同时监听两个端口这是我到目前为止编写的代码 sock client1 socket socket socket AF INET Internet socket SOCK DGRAM UDP so
如何用Xcode修改并行编译数量

使用 XCode 构建 C 项目时如何更改并行编译的数量我不是在谈论分布式构建而是在一台计算机上同时编译来自单个项目的一组源文件当前使用Xcode 3 2 4 Thanks 对于 Xcode 4 您必须设置 IDEBuildOpera
通过 ReactJS 访问 JSON 中的数组

我使用 ReactJS 从 JSON 文件获取数据
如何在 pygame 中从图像中剪切圆形（或任何非矩形）？

我正在使用 Pygame 并有一个图像我可以从中剪出一个矩形 image pygame transform scale pygame image load example png 32 32 handle surface image co
使用onDraw扩展android按钮

我想更改按钮形状但我想使用 onDaw 方法和扩展按钮班级所以我刚开始做的是
如何在QT中访问父控件指针

我有一个类似这样的代码 Window Window QStackedWidget centralApp new QStackedWidget QWidget1 wgt1 QWidget1 QWidget2 wgt2 QWidget2 QWi
添加片段时从汉堡包到箭头图标的过渡动画

我已经实现了主细节流程我想在添加片段后获得从汉堡包图标到箭头图标的过渡动画与打开导航抽屉时的动画相同我正在使用如下代码 protected void onCreate Bundle savedInstanceState super
BigQuery - 如何比较“日期”列（使用旧版 SQL）？

我有一个包含一列的 BigQuery 表Date这是一个date类型我正在尝试运行此查询 SELECT FROM dataset table name WHERE Date 2016 07 11 这会引发错误 Argument type
高级 HTML Agility Pack 使用

我对 HTML Agility Pack 还很陌生因此我需要一些帮助来了解下一步该做什么我可以做一些简单的事情比如从 href 中提取一个值知道我正在寻找的 url 字符串并且我可以根据正在使用的特定类来提取跨度中的值但我不明白
Mysql将列名从“group”更改为“group_code”

我将列名设置为 group 结果发现这是一个保留字现在我尝试将名称更改为 group code 但出现错误我尝试 ALTER TABLE task values CHANGE group group code VARCHAR 40 NO
按照与另一个数组相同的顺序对一个数组进行排序

我有一些像这样的 50 多个名字的数组 dan ryan bob steven corbin bob dan steven corbin 我有另一个顺序正确的数组请注意上面的第二个数组并不包含所有名称但我仍然希望它遵循以下顺序 rya
以相同的方式对两个 pandas 数据帧进行采样

我正在进行机器学习计算有两个数据帧一个用于因子另一个用于目标值我必须将两者分为训练和测试部分在我看来我已经找到了方法但我正在寻找更优雅的解决方案这是我的代码 import pandas as pd import numpy

以相同的方式对两个 pandas 数据帧进行采样

以相同的方式对两个 pandas 数据帧进行采样 的相关文章

随机推荐

热门标签

以相同的方式对两个 pandas 数据帧进行采样的相关文章