如何使用样本函数将数据拆分为训练/测试集

2024-01-05

我刚刚开始使用 R,我不确定如何将我的数据集与以下示例代码合并:

sample(x, size, replace = FALSE, prob = NULL)

我有一个数据集,需要将其放入训练集 (75%) 和测试集 (25%) 中。 我不确定应该在 x 和 size 中输入哪些信息? x 是数据集文件,大小是我有多少个样本?


有多种方法可以实现数据分区。要获得更完整的方法,请查看createDataPartition函数在caret包裹。

这是一个简单的例子:

data(mtcars)

## 75% of the sample size
smp_size <- floor(0.75 * nrow(mtcars))

## set the seed to make your partition reproducible
set.seed(123)
train_ind <- sample(seq_len(nrow(mtcars)), size = smp_size)

train <- mtcars[train_ind, ]
test <- mtcars[-train_ind, ]
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

如何使用样本函数将数据拆分为训练/测试集 的相关文章

  • 如何在 R 树形图中省略标签?

    我一直在使用R 树形图包 http cran r project org web packages treemap treemap pdf我有一个 2 层深的树形图 我希望打印第二级标签 但不打印第一级标签 使用手册页中的示例 tmPlot
  • 用于带有嵌套子图的图的 r 包? [关闭]

    Closed 这个问题正在寻求书籍 工具 软件库等的推荐 不满足堆栈溢出指南 help closed questions 目前不接受答案 我正在寻找一个用于图形 网络的 r 包 它可以处理嵌套子图 Graphviz 做到了这一点 但只提供可
  • 如何使用 RODBC 将数据帧保存到数据库生成的主键表

    我想使用 R 脚本将数据框输入到数据库中的现有表中 并且希望数据库中的表具有顺序主键 我的问题是 RODBC 似乎不允许主键约束 这是创建我想要的表的 SQL CREATE TABLE dbo results ID INT IDENTITY
  • dmvnorm MVN 密度 - RcppArmadillo 实现比 R 包慢,包括一些 Fortran

    The solution现已上线RCPP画廊 http gallery rcpp org articles dmvnorm arma 我从 RcppArmadillo 中的 mvtnorm 包重新实现了 dmvnorm 我有点喜欢犰狳 但我
  • Openxlsx 多次验证损坏输出文件

    我正在尝试添加多个验证并将公式添加到 Excel 文件 这是我使用的代码 library openxlsx fileTemplate lt New01 xlsx wbTemplate lt loadWorkbook fileTemplate
  • 根据另一个向量替换向量中的值

    我想替换向量中的值 x 与另一个向量 y 陷阱 22 方法需要是动态的 以适应向量中不同数量的 级别 x 例如 考虑向量x x lt sample c 1 2 3 4 5 100 replace TRUE gt x 1 2 4 1 1 3
  • 使用 RMySQL 会干扰 RPostgreSQL

    我有一个 R 脚本 我想从 MySQL 数据库中提取一些数据 然后从 PostgreSQL 数据库中提取一些数据 但是 从 RMySQL 加载 MySQL 驱动程序会阻止我从以下位置加载 PostgreSQL 驱动程序 PostgreSQL
  • 如何加速 R for 循环?

    我正在为 R 中 GWmodel 包中的 gwr basic 函数运行以下 for 循环 我需要做的是收集任何给定带宽的估计参数的平均值 代码如下 library GWmodel data DubVoter Dub voter LARent
  • R:为什么 kable 不在 for 循环内打印?

    我正在使用 rmarkdown 和 Latex 编写报告 我需要使用打印一组表格knitr kable 但在 for 循环内时不会打印 这是我的代码 title project title author Mr Author date 201
  • 了解用于处理色边距的scale_fill_continuous_divergingx参数输入

    这个问题是我上一个问题的延续here https stackoverflow com questions 58718527 setting midpoint for continuous diverging color scale on a
  • 带有nearPoints()的动态ggplot图层闪亮

    我熟悉闪亮的基础知识 但在这里遇到了一些困难 我希望能够在单击某个点以突出显示该点时添加 ggplot 图层 我知道 ggvis 可以做到这一点 并且画廊中有一个很好的例子 但我希望能够使用nearPoints 捕获点击作为 ui 输入 我
  • Plotly 绘图不会在 RMarkdown 文档的 for 循环内渲染

    我正在尝试动态构建一个需要运行循环的报告 并为每次迭代打印一些消息 表格和绘图 我可以让一切正常运转except为了情节 示例 rmd r echo FALSE results asis fig keep all message FALSE
  • 反转java String.split()效果的方法? [复制]

    这个问题在这里已经有答案了 我正在寻找一种将字符串数组组合成分隔符的方法 细绳 与 split 相反 在我尝试自己编写之前想询问一下论坛 因为 JDK 拥有一切 据我所知 JDK 中没有任何方法可以实现这一点 阿帕奇公共语言 http co
  • 根据不平凡的标准有效合并两个数据帧

    正在接听这个问题 https stackoverflow com questions 18821862 data selection error 18823432 18823432昨晚 我花了一个小时试图找到一个没有增长的解决方案data
  • 删除 R 中具有重复属性的行

    我有一个大数据框 其中包含以下列 ID time OS IP 该数据帧的每一行对应一个条目 在该数据框中对于某些IDs存在多个条目 行 我想删除这些多行 显然 同一 ID 的其他属性会有所不同 或者换句话说 我只想要每个 ID 一个条目 行
  • 确定向量中是否存在元素的最有效方法

    我有几种算法取决于确定元素是否存在于向量中的效率 在我看来 这 in 这相当于is element 应该是最有效的 因为它只返回一个布尔值 在测试了几种方法之后 令我惊讶的是 这些方法是迄今为止效率最低的 以下是我的分析 随着向量大小的增加
  • 按具有作业的组划分的 R 分位数

    我有以下 df group rep seq 1 3 30 variable runif 90 5 0 7 5 df data frame group variable 我需要 i 按组定义分位数 ii 将每个人分配到相对于其组的分位数 因此
  • 优化 R 中的嵌套 for 循环

    我尝试加速下面的代码 但没有成功 我读到Rfast https cran r project org web packages Rfast Rfast pdf包 但我也未能实现该包 有没有办法优化R中的以下代码 RI lt function
  • 在 R Shiny 中,如何使用可排序 js 将其在列表中出现的顺序次数附加到每个列表元素?

    下面的可重现代码适用于将元素从一个面板拖动到另一个面板 并在 拖动到 面板中自动使用 HTML CSS 对拖入的每个元素进行排名顺序编号 但是 我现在尝试附加到每个 拖动到 列表元素的末尾 使用某种形式的paste0 我假设 该元素在 拖至
  • 编写健壮的 R 代码:命名空间、屏蔽和使用 `::` 运算符

    简洁版本 对于那些不想阅读我的 案例 的人来说 这就是本质 最小化新包破坏现有代码 即编写您编写的代码 的机会的推荐方法是什么尽可能坚固 充分利用该功能的推荐方法是什么 命名空间机制 when a just using贡献的软件包 比如在一

随机推荐

  • Pandas:read_csv忽略空行后的行

    有一个奇怪的 csv 文件 类似于 header1 header2 header3 val11 val12 val13 val21 val22 val23 val31 val32 val33 很好 但是在这些行之后 总是有一个空行 后面跟着
  • 如何在C/c++中设置获取互斥锁的优先级

    我有3个进程 同等优先级 P1 P2 P3 定时器 获取互斥锁的优先级如下 P1 1 priority P2 2 priority P3 timer 3 priority 如果假设p3来获取互斥锁 然后p2来等待互斥体 之后 p1 来了 它
  • 在编译文件中包含 mingw 库

    我正在使用 cmake 生成 Eclipse CDT MinGW 项目 Eclipse 版本开普勒 这是我的 Cmakelist project IMGTODICOM find package ITK REQUIRED include IT
  • 信号量相当于进程吗?

    我有一个分叉两个孩子的父进程 我需要强制这些子进程运行时的特定顺序 例如 父进程从文件中获取 命令 并且根据该命令 父进程将使用未命名管道将该命令传递给子进程 a 或子进程 b 我需要按照父级从文件接收命令的顺序在子级中发生一些事情 我使用
  • 如何创建具有多个参数的SqlParameterCollection?

    我正在尝试创建一个SqlParameterCollection 但在添加一些时出现错误SqlParameter in sp Add method 请帮助我如何添加参数以及如何将其传递给我声明一个的另一个函数SqlConnection and
  • 如何在Android单元测试中用模拟数据填充适配器?

    在我的应用程序中 我从服务器获取一些数据并显示到RecyclerView 我可以获取数据并填充adapter并显示为RecyclerView 但我想为此编写测试模拟测试并填充adapter用于显示RecyclerView 我使用此链接作为
  • 性能 pthread_spinlock_t 比我自己的无锁 std::atomic_flag 实现(围绕 std::list)好 2 倍

    我想用我自己的自旋锁实现替换 pthread spinlock t 示例 然而 我的实现结果实际上远远低于 pthread spinlock t 性能 虽然 pthread spinlock t 结果约为 0 9 秒 但我自己的实现大约需要
  • 如何以编程方式更改导航栏中 UIVisualEffectView 的 alpha?

    我有一个滚动视图 用于根据用户滚动视图的距离来控制其他元素的 Alpha 首先 我设置了模糊视图 首先 这里的阿尔法似乎不适用 var effect UIBlurEffectStyle light if available iOS 10 0
  • 为什么我收到错误 ld: failed to conversion GOTPCREL relocation;将 C++ 与使用 nasm 或 as 组装的目标文件链接时,使用 --no-relax 重新链接?

    我正在编写一个小型 x86 64 内核 我正在设置 IDT 并遇到了一个我不太明白的奇怪错误 这是一个最小的例子 entry s extern InterruptHandler global isr0 align 4 isr0 jmp sh
  • 将 XML 数据存储在 mongodb 集合中

    我对 mongodb 这样的 NoSQL 数据库还比较陌生 所以请原谅我的无知 背景 现在 我有一个执行以下操作的系统 从客户端收集系统数据 将该信息输出到 xml 文档中 Perl 脚本获取 xml 标签中的数据并将其放入 mySQL 数
  • Edittext的Listview的动态长度不保存输入

    我有编辑文本框的列表视图 我还有一个按钮可以将新行添加到列表中 因此列表长度是动态的 但是 当我在编辑文本中输入文本并按添加按钮时 我的输入消失了 我认为当我向列表中添加新行时 我的输入没有被捕获 如何保存输入 以便在更改行数时保留我的文本
  • sqlite:只读数据库中的临时表/视图?

    看来 sqlite 不允许我在只读数据库中创建临时视图 我错过了什么吗 如果它是临时的 我认为数据库连接模式应该不重要 我什至指定了 PRAGMA temp store MEMORY 它没有帮助 除了使用视图之外 还有其他合理的选择吗 您可
  • 使用 Ubuntu 服务器 17.04 php 7 和 apache2 加载 oci8.so 时出错

    我在一台Ubuntu Server 17 04上经历了下载Oracle即时客户端 SDK等的整个过程 然后使用alien将rpm包转换为deb 安装 设置路径 下载pecl oci8 编译并安装 没有错误 等 然后添加以下行 扩展名 usr
  • .NET Core 应用程序进程内存在对象被释放后不会减少

    我在 Windows 中运行的 ASP NET Core 2 1 应用程序遇到问题 该应用程序增加了内存消耗 直到最终崩溃并需要终止 NET Core Host过程 我怀疑原因可能是每小时在后台运行一次的同步任务 并且我已确认禁用它可以解决
  • 数据访问层的设计模式

    我有一个使用数据库 MongoDB 来存储信息的应用程序 过去 我使用了一个充满静态方法的类来保存和检索数据 但后来我意识到这不是非常面向对象或面向未来的 尽管我不太可能更改数据库 但我宁愿拥有一些不会将我与 MongoDB 联系得太紧密的
  • javafx2 中的菜单项工具提示

    javafx2中有两个问题 如何为菜单项设置工具提示 如何设置菜单项的大小 宽度 如果您有答案 请告诉我 这两个问题的答案都直接向全班同学提供自定义菜单项 http docs oracle com javafx 2 api javafx s
  • FreeLibraryAndExitThread 在卸载注入的 DLL 时导致程序崩溃

    我正在编写一个 DLL 它被注入到游戏中 以便进行一些逆向工程 有一段时间 当我对程序进行更改时 我能够成功地注入 弹出和重新注入 我在用着FreeLibraryAndExitThread卸载 将 XInput 添加到程序中以便我可以捕获用
  • Java练习:使用递归方法打印星号三角形及其倒三角形

    我需要打印一个三角形及其倒三角形 站在其尖端 我设法只打印出三角形 我知道我可以轻松使用 for 循环 但我想知道如何使用递归 就我而言 我不知道如何打印三角形和倒三角形 谢谢 Example desired output My code
  • ASP.NET MVC - 视图模型、域模型和数据模型[关闭]

    就目前情况而言 这个问题不太适合我们的问答形式 我们希望答案得到事实 参考资料或专业知识的支持 但这个问题可能会引发辩论 争论 民意调查或扩展讨论 如果您觉得这个问题可以改进并可能重新开放 访问帮助中心 help reopen questi
  • 如何使用样本函数将数据拆分为训练/测试集

    我刚刚开始使用 R 我不确定如何将我的数据集与以下示例代码合并 sample x size replace FALSE prob NULL 我有一个数据集 需要将其放入训练集 75 和测试集 25 中 我不确定应该在 x 和 size 中输