Numpy 在矩阵上按百分比分割

2023-12-28

我在理解以下编码时遇到问题，并且我是 python 新手：

data_a, data_b, data_C = np.split(original_data.sample(frac=1, random_state=1729), 
                               [int(0.7 * len(original_data)), int(0.9*len(original_data))])

所以我的原始数据集共有 38000 行。在这种分割方法之后data_a有 26600 行。现在data_b有 7600 行，data_c有 3800 行。所以我确实知道原始数据的 70% 将是 26600 行。但为什么data_b有 7600 行，data_c3800.我阅读了有关该拆分方法的文档，根据我对编码的理解，我建议对于初始 38000 行中剩余的 30% 数据，90% 将拆分为data_b那将是 10260 行。不是 7600 行。

如果您想将剩余的 30% 分成 90-10，则必须按顺序进行。尝试这个！

data_a, remaining_data = np.split(original_data.sample(frac=1, random_state=1729), 
                                   [int(0.7 * len(original_data))])
data_b, data_C = np.split(remaining_data,[int(0.9 * len(remaining_data))])

data_a.shape, data_b.shape, data_C.shape

output:

((26600,), (10260,), (1140,))

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

python3x

Numpy 在矩阵上按百分比分割的相关文章

使用应用程序脚本将 MS Word 文件（保存在云端硬盘中）转换为 Google 文档

我被某些事情困住了找不到解决办法有没有办法使用文件 url 或 id 将存储在 Google Drive 中的 MS Word 文件转换为 Google 文档我目前有一个电子表格其中包含文件的网址或者也可以使用 python 脚
正则表达式，选择最接近的匹配

假设以下单词序列 BLA text text text text text text BLA text text text text LOOK text text text BLA text text BLA 我想做的是将 BLA 中的文本
Pandas 连接问题：列重叠但未指定后缀

我有以下数据框 print df a mukey DI PI 0 100000 35 14 1 1000005 44 14 2 1000006 44 14 3 1000007 43 13 4 1000008 43 13 print df b
使用多级解决方案计算二维网格中的最近邻

我有一个问题在 x y 大小的网格中我提供了一个点并且我需要找到最近的邻居在实践中我试图在 pygame 中找到距离光标最近的点该点跨越颜色距离阈值计算如下 sqrt rgb1 0 rgb2 0 2 rgb1 1 rgb2 1
将一维数组转换为下三角矩阵

我想将一维数组转换为较低的零对角矩阵同时保留所有数字我知道numpy tril函数但它用零替换了一些元素我需要扩展矩阵以包含所有原始数字例如 10 20 40 46 33 14 12 46 52 30 59 18 11 22 30
通用详细视图 ProfileView 必须使用对象 pk 或 slug 调用

我是 Django 2 0 的新手在访问我的个人资料页面视图时收到此错误它适用于像这样的网址path users
Python——捕获异常的效率[重复]

这个问题在这里已经有答案了可能的重复 Python 常见问题解答异常有多快 https stackoverflow com questions 8107695 python faq how fast are exceptions 我记得
Pandas groupby apply 执行缓慢

我正在开发一个涉及大量数据的程序我正在使用 python pandas 模块来查找数据中的错误这通常工作得非常快然而我当前编写的这段代码似乎比应有的速度慢得多我正在寻找一种方法来加快速度为了让你们正确测试它我上传了一段相当大的
pandas 中连续数据的平行坐标图

pandas 的 parallel coordinates 函数非常有用 import pandas import matplotlib pyplot as plt from pandas tools plotting import par
PyArmor - 打包为一个可执行文件

当我执行此命令时您好使用 PyArmor pyarmor pack main py 它将它打包到一个名为的文件夹中dist里面包含我的 exe 以及许多 Python 扩展文件据我所知 PyArmor 使用 PyInstaller 来
根据第三个变量更改散点图中的标记样式

我正在处理多列字典我想绘制两列然后根据第三列和第四列更改标记的颜色和样式我很难改变 pylab 散点图中的标记样式我的方法适用于颜色不幸的是不适用于标记样式 x 1 2 3 4 5 6 y 1 3 4 5 6 7 m k l l
Selenium 不会在新选项卡中打开新 URL（Python 和 Chrome）

我想使用 Selenium WebDriver 和 Python 在不同的选项卡中打开相当多的 URL 我不确定出了什么问题 driver webdriver Chrome driver get url1 time sleep 5 driv
删除 HoloViews 中的 Bokeh 徽标

是否可以从 HoloViews 生成的图中删除 Bokeh 徽标没有什么反对的只是在某些报告中显示它可能没有意义我知道在 Bokeh 中我可以简单地执行以下操作 p bkp figure p toolbar logo None UPD
在 scipy 中创建新的发行版

我试图根据我拥有的一些数据创建一个分布然后从该分布中随机抽取这是我所拥有的 from scipy import stats import numpy def getDistribution data kernel stats gauss
Python 导入非常慢 - Anaconda python 2.7

我的 python import 语句变得非常慢我使用 Anaconda 包在本地运行 python 2 7 导入模块后我编写的代码运行得非常快似乎只是导入需要很长时间例如我使用以下代码运行了一个 tester py 文件 imp
在 Python 中访问 argparse 的参数值

我正在尝试为我的程序设置一些简单的标志参数但无法弄清楚如何访问它们我有 argparser parser argparse ArgumentParser description Simple PostScript Interpreter
Python：无法使用 os.system() 打开文件

我正在编写一个使用该应用程序的 Python 脚本pdftk http www pdflabs com tools pdftk the pdf toolkit 几次来执行某些操作例如我可以在 Windows 命令行 shell 中使用
更新 SQLAlchemy 中的特定行

我将 SQLAlchemy 与 python 一起使用我想更新表中等于此查询的特定行 UPDATE User SET name user WHERE id 3 我通过 sql alchemy 编写了这段代码但它不起作用 session
将两个反斜杠替换为一个反斜杠

我想用单个反斜杠替换带有两个反斜杠的字符串但是替换似乎不接受作为替换字符串这是解释器的输出 gt gt gt import tempfile gt gt gt temp folder tempfile gettempdir gt g
在python中对列表列表执行行总和和列总和

我想用python计算矩阵的行和和列和但是由于信息安全要求我无法使用任何外部库因此为了创建矩阵我使用了列表列表如下所示 matrix 0 for x in range 5 for y in range 5 for pos in

随机推荐

流复制和逻辑复制的区别

有人能告诉我更多关于 PostgreSQL 中物理复制和逻辑复制之间的区别吗 TL DR 逻辑复制发送逐行更改物理复制发送磁盘块更改逻辑复制对于某些任务更好而物理复制对于其他任务更好请注意在 PostgreSQL 12 更新时的当
Rails 购物车 - 未添加到当前订单

这里是 Rails 菜鸟我正在构建一个基本的购物车它之前运行良好在不更改任何代码的情况下我 git reset hard 到我以前的提交它正在工作它就崩溃了这是细分 Github 仓库 https github com chr
编译引用的dll

使用VS2005和VB NET 我有一个项目它是我创建的数据存储的 API 编译时创建api dll 我在同一解决方案中有第二个项目它有一个对 API 项目的项目引用编译时将创建wrapper dll 这基本上是特定于应用程序的 AP
显示对象而不是字符串

在这里我附上了我的问题的快照和代码它只向我显示作为对象的内容但完美地显示组名这个问题的快照在下面的链接中给出只需浏览这张图片 http imageupload org d 4DA941521 快照 gt 我想要特定组名称的子数据
使用 kafka 进行 Spark 结构化流处理只会导致一批（Pyspark）

我有以下代码我想知道为什么它只生成一批 df spark readStream format kafka option kafka bootstrap servers IP option subscribe Topic option st
如何设计一个数据库来存储属性，通过同义词选择属性

我正在为房地产应用程序设计一个数据库事实证明它比我预期的更复杂也许我把事情复杂化了这些问题本质上是由于以下因素的存在造成的同义词例如术语公寓公寓和顶层公寓本质上都指的是同一类型的房产属性不同的属性类型有不同的属性例如
批处理：连接变量和字符串以形成输出路径

我有一个批处理文件用户在其中输入文件的路径然后从该路径中提取文件名我使用该文件名创建一个同名的文件夹在该文件夹中我想创建一个 log txt 文件我在批处理文件中调用的进程可以将其日志消息写入其中这是代码 set p path
将数据框与从应用函数创建的另一个数据框合并？

我有一个数据框 df 工资数据 State Annual Salary New York 132826 New Hampshire 128704 California 127388 Vermont 121599 Idaho 120011 还
在 C# 中访问已释放的闭包？

我正在调查 Microsoft 企业库数据应用程序块示例 sln 他们有一个异步读取数据的示例 IAsync 虽然新版本 6 也支持async 但是雷沙珀或视觉工作室没关系向我展示访问已处理的闭包首先我将显示图像这样会更清晰
从一个位置移动到另一个位置后 UIButton 框架发生变化

我有 1UIButton in StoryBoard就像下面的屏幕一样我移动UIButton按照此从一个位置到另一个位置Answer https stackoverflow com questions 45392104 drag uibu
NetBeans 远程连接

我正在尝试设置 netBeans 远程项目但遇到了很多麻烦我已经从远程服务器启动了一个 PHP 应用程序在最后一个确认步骤中它向我抛出了错误没有可供下载的文件尝试在远程配置中检查被动模式在日志输出中它失败了 gt 215 UN
Facelets ui:remove 标签的实际意义

我想了解基本机制
Maven 原型不使用属性来创建模块名称

我创建了一个原型您可以在其中设置 moduleName 或期望使用必需的属性 moduleName 这里是原型元数据 xml 减少我也尝试过类似的结果
数据库中的闰秒处理

As The Unix time number is zero at the Unix epoch and increases by exactly 86400 per day since the epoch So it cannot re
DTD 是否已被弃用？

In XML 模式和 DTD 有什么区别 https stackoverflow com questions 1544200 what is difference between xml schema and dtd 两个回答者表示 DTD
Angular Js HTML5 模式不起作用 [关闭]

Closed 这个问题是无法重现或由拼写错误引起 help closed questions 目前不接受答案我正在尝试将 HTML5 模式添加到我的 Angular 应用程序中以删除符号问题是它根本行不通我的整个 ng view 将
Maven：在战争构建的资源文件夹中包含文件夹

我在 src main resource 中有一个名为 extra jars 的文件夹但如何将它们包含在构建中我希望它们与其余的 jar 一起放入 lib 文件夹中我尝试将它们包括在内但这没有用对于不是由 Maven 存储库分发的
消息：配置的数据库连接是持久的。正在中止

Codeigniter 2 到 3 版本升级后出现此错误为什么会这样呢遇到未捕获的异常类型异常消息配置的数据库连接是持久的正在流产文件名 var www vhosts xxx com app system librarie
R代码gmapsdistance

我有以下代码用于查找两个位置之间的旅行时间我使用 vba 调用脚本这就是命令 args 显示在顶部的原因但出于测试目的我只是设置变量这一直有效到今天没有改变任何东西现在一旦我运行结果行我就不断收到此错误 Error in r
Numpy 在矩阵上按百分比分割

我在理解以下编码时遇到问题并且我是 python 新手 data a data b data C np split original data sample frac 1 random state 1729 int 0 7 len ori

Numpy 在矩阵上按百分比分割

Numpy 在矩阵上按百分比分割 的相关文章

随机推荐

热门标签

Numpy 在矩阵上按百分比分割的相关文章