如何处理R预测函数中的错误？

2024-01-18

我有一个数据框 df，我正在构建一个机器学习模型（C5.0 决策树）来预测列的类别（loan_approved）：

结构（非真实数据）：

id occupation income  loan_approved
1  business   4214214 yes
2  business   32134   yes
3  business   43255   no
4  sailor     5642    yes
5  teacher    53335   no
6  teacher    6342    no

Process:

我随机将数据框分成测试和训练，在训练上学习数据集（第 1、2、3、5、6 行作为训练，第 4 行作为测试）
为了解释一列或多列中的新分类级别，我使用了 try 函数

功能：

    error_free_predict = function(x){
    output = tryCatch({
    predict(C50_model, newdata = test[x,], type = "class")
    }, error = function(e) {
    "no"
    })
    return(output)
    }

应用预测函数：

test <- mutate(test, predicted_class = error_free_predict(1:NROW(test)))

Problem:

id occupation income loan_approved predicted_class
1  business   4214214 yes          no
2  business   32134   yes          no
3  business   43255   no           no
4  sailor     5642    yes          no
5  teacher    53335   no           no
6  teacher    6342    no           no

问题：

我知道这是因为测试数据帧具有训练数据中不存在的新级别，但我的函数不应该在除此之外的所有情况下工作吗？

P.S：没有使用sapply，因为它太慢了

这个问题有两个部分。

问题的第一部分出现在训练模型期间，因为如果进行随机分割，则分类变量在训练和测试之间不会平均分配。在您的情况下，假设您只有一条职业为“水手”的记录，那么当您进行随机分割时，它可能最终会出现在测试集中。使用训练数据集构建的模型永远不会看到职业“水手”的影响，因此会抛出错误。在更一般的情况下，一些其他分类变量级别可能在随机分割后完全进入测试集。

因此，您可以进行分层抽样，而不是在训练和测试之间随机划分数据。代码使用data.table70:30 的分割是：

ind <- total_data[, sample(.I, round(0.3*.N), FALSE),by="occupation"]$V1
train <- total_data[-ind,]
test <- total_data[ind,]

这确保了任何级别在训练和测试数据集之间均等划分。因此，您不会在测试数据集中获得“新”分类级别；在随机分裂的情况下可能存在。

问题的第二部分出现在模型投入生产时，它遇到了一个全新的变量，而这个变量在训练或测试集中都不存在。为了解决这个问题，我们可以使用以下方法维护所有类别变量的所有级别的列表lvl_cat_var1 <- unique(cat_var1) and lvl_cat_var2 <- unique(cat_var2)等等。然后在预测之前可以检查新的级别和过滤器：
```
new_lvl_data <- total_data[!(var1 %in% lvl_cat_var1 & var2 %in% lvl_cat_var2)] 
pred_data <- total_data[(var1 %in% lvl_cat_var1 & var2 %in% lvl_cat_var2)] 
```

然后对于默认预测执行以下操作：

new_lvl_data$predicted_class <- "no"

以及 pred_data 的全面预测。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

trycatch

Predict

如何处理R预测函数中的错误？的相关文章

如何捕获 try-with-resource 语句中 close 方法抛出的异常

我正在读关于try with resourceJava 中的语句可用于指定任意数量的资源 try Resource1 res1 initialize code Resource1 res2 initialize code statement
如何在 R 中执行近似（模糊）名称匹配

我有一个专门用于生物学期刊的大型数据集该数据集是由不同的人长时间编写的因此数据不采用单一格式例如在作者栏中我可以找到John Smith Smith John Smith J等但它们是同一个人我连最简单的动作都做不了例如
我可以使用哪个 R 函数来查找两条线的交点？

我刚刚研究了 stackoverflow 上所有的在 R 中寻找交集问题它们要么是关于曲线要么是关于分布像这个 https stackoverflow com questions 20519431 finding point of
如何在 R 中的 for 循环内将值存储在向量中

我正在开始使用 R 但我对以下问题感到非常沮丧我试图将 for 循环内完成的某些计算的值存储到我之前定义的向量中问题是如何进行索引因为for循环迭代代码的次数取决于用户的输入所以变量i不一定要从1开始它可以从80开始 for举个例
`dplyr::_join` 函数的命名向量“by”参数[重复]

这个问题在这里已经有答案了我正在写一个函数dplyr join两个数据框by不同的列第一个数据帧的列名称动态指定为函数参数我相信我需要使用rlang准引用元编程但未能找到可行的解决方案我很感激任何建议 library dplyr
更新 R6 对象实例中的方法定义

如何更新 R6 类实例的方法定义正如我所期望的 S3 使用当前的方法定义对于 R5 参考类我可以使用 myInstance myInstance copy 在 R6 中我尝试了 myInstance myInstance clone
在 R 的 for 循环中创建动态命名对象并分配动态值

我正在尝试创建一套动态命名的新对象例如 temp2015 使用 for 循环并存储动态值具体来说其他对象的名称例如 Y2015 和 for 循环中使用的值例如 2015 在动态命名的新对象中我不确定为什么下面的代码不起作用 Y
R，使用具有两种以上可能性的二项式分布

我知道这可能是基本的但我似乎有一个心理障碍假设您想要计算在一个骰子上掷出 4 5 或 6 的概率在 R 中这很简单 sum 1 6 1 6 1 6 这给出了 1 2 这是正确答案然而我内心深处可能应该保留的地方认为我应该能够
在包加载之前如何知道 R 中特定函数属于哪个包？

例如我知道许多流行的功能例如tbl df 我通常不记得它属于哪个包即data table or dplyr 所以我必须始终记住并加载一个包但我做不到 tbl df除非我加载了正确的包在 R 控制台本身加载或安装包之前有没有办法知
为什么这个 R ggplot2 代码会显示一个空白的显示设备？

虽然 SO 通常不用于帮助解决错误但这个显示了特别简单且特别烦人的行为如果你是一个ggplot2用户您可以在 10 秒或更短的时间内重现它正如这个 GitHub 问题 ggplot gtable 创建空白显示 https githu
如何根据 ggplot2 中的汇总数据创建堆积条形图

我正在尝试使用 ggplot 2 创建堆积条形图我的宽格式数据如下所示每个单元格中的数字是响应的频率 activity yes no dontknow Social events 27 3 3 Academic skills works
ggplot：如何限制条形图中的输出，以便仅显示最频繁出现的情况？

我几个小时以来一直在寻找这个简单的东西但没有结果我有一个数据框其中一列为变量国家地区我想要两件事以下绘制最常见的国家地区最常见的位于顶部找到部分解决方案EDIT找到完整的解决方案 gt gt 重点问题是根据频率限制条形图
如何像在facet_grid中一样在facet_wrap中定位条带标签

我想在使用时删除多余的条带标签facet wrap 并用两个变量进行分面并且都是自由尺度的例如这个facet wrap下图的版本 library ggplot2 dt lt txhousing txhousing year in 20
StatET调试工具

我想我只是很密集但我似乎无法弄清楚如何在 Eclipse 中的 R 中使用调试工具 StatET 插件有人有关于这个主题的任何提示或教程吗 StatET 2 00 现在对高级可视化调试提供实验性支持需要 Eclipse 3 6 或
在 R 上安装 TDA 包时出错：目标“diag.o”的配方失败

使用 Ubuntu 16 04 和 R 3 4 1 安装 R 包 TDA 时收到错误消息它似乎与制作 CGAL diag cpp 和或 diag o 最后的完整错误打印输出有关我仔细看了这个在 R 上安装 TDA 包时出错 htt
自定义轴缩放后 ggplot2 缺少标签

我正在尝试使用我的 x 轴应用自定义缩放ggplot2 and scales trans new 但是当我这样做时一些轴标签丢失了有人可以帮我弄清楚为什么吗 Setup library tidyverse the data ds lt
无法编译包“maps”

当我安装 maps 包时安装中出现警告 ld warning ignoring file Library Developer CommandLineTools SDKs MacOSX10 14 sdk usr lib libSystem
条件和分组 mutate dplyr

假设我有以下每个抽屉库存增加的数据 gt socks year drawer nbr sock total 1990 1 2 1991 1 2 1990 2 3 1991 2 4 1990 3 2 1991 3 1 我想要一个二进制变量来标
是否有weighted.median()函数？

我正在寻找类似形式的东西weighted mean 我通过搜索找到了一些解决方案这些解决方案写出了整个函数但希望有一些更用户友好的解决方案以下软件包都有计算加权中位数的函数 aroma light isotone limma cwhm
更改绘图区域背景颜色

我想使用我们公司的颜色在 R 中制作一个图表这意味着所有图表的背景应为浅蓝色但绘图区域应为白色我正在寻找答案发现绘制一个矩形就可以完成这项工作几乎然而绘图区域现在是白色的并且图形不再可见这可能吗 getSymbols SP

随机推荐

没有 robolectric 的模拟 android.os.BaseBundle

我正在尝试对此代码进行单元测试 Bundle cidParam String accountId Bundle params new Bundle 1 params putString Params CID accountId return
有没有办法通过Tag属性获取XAML元素？

Is there any way to get the XAML element by its tag value 我的代码是这样的
Swagger 3.0.0 codegen 失败 java.lang.RuntimeException：缺少 swagger 输入或配置

我使用 swagger 指定我的 API 我之前使用的是 2 0 现在根据我使用离线 swagger 编辑器指定 3 0 0 规范的文档有新版本 3 0 0 准备好后我下载了 json 文件我将使用它生成 spring 服务器代码我
使用 NHibernate 对 Informix 数据库执行本机 SQL 查询时如何转义冒号 (:) 字符？

我正在尝试使用 NHibernate 创建查询对 Informix 数据库执行一组本机 SQL 查询然而如果查询包含冒号它们被认为是保留字符 NHibernate 设置为更改查询因此查询失败这是本机 SQL 查询的示例 CREA
Google 大查询 API 返回“为此项目扫描了太多免费查询字节”

我正在使用 Google 的大型查询 API 从他们的 n gram 数据集中检索结果因此我发送了多个查询 SELECT ngram from trigram dataset where ngram natural languagepr
Web 服务集成 - 如何访问响应类中的请求对象？

我有一个访问网络服务的代码该代码又给我返回一个响应
Maven - 发布多个子模块/工件

我有一个 Kotlin 项目组织如下 project name gt project name core gt project name domain 我的 gradle 发布脚本设置如下 publishing repositories
如何在 Android 应用程序中查看内部存储中的 PDF 文件？

我制作了一个应用程序在其中我可以通过 URL 成功从互联网下载 pdf 文件并通过创建文件夹 app Pdf 将它们保存到应用程序的内部存储中但现在我想使用第三方应用程序如 adobe pdf 查看器等打开该文件我尝试了很多方
始终 -bash：gomobile：找不到命令

我已经安装了 gomobile Users GaryChan go bin gomobile 我的项目是 Users GaryChan go src abc com project 当我尝试运行构建 android SDK 时 Users
如何将 Azure 资源注册为 Azure Active Directory 中的应用程序？

我有一个 Azure CDN 它有一个自定义域我尝试注册自己的证书以支持 HTTPS 我正在尝试按照此处的说明进行操作 https learn microsoft com en us azure cdn cdn custom ssl ta
有没有开源/免费的 .NET 网站脏话过滤器？

您是否知道任何开源免费的 NET 脏话过滤器准确地说是 ASP NET MVC 我搜索了谷歌但找不到任何结果如果可能的话我想避免完全自己实现它很容易犯错误或忽略某些事情多好的问题啊我本来会将此添加为评论但我是个 Updat
在android中编辑文本焦点

在我的应用程序中我编辑文本如下 EditText1 EditText2 EditText3 EditText4 EditText5 EditText6 在 xml 中我声明了android imeOptions actionNext 我也
Android sp 与 dp 文本 - 如何调整“规模”以及支持的理念是什么

因此我们从许多其他帖子中知道在 Android 中我们应该使用 sp 而不是 dp 来表示文本并且我们知道这样做的原因是尊重用户的偏好但这些偏好到底是什么用户如何更改此设置我无法通过手机上的设置找到任何参考我希望在辅助功能
删除所有空格并将 SQL 中的多行合并为单行

在 SQL Server 2014 中删除字符串中所有空格的最佳方法是什么我的字符串是 Maximize your productivity for building engaging beautiful web mapping appl
如何提高Scrapy爬取速度？

我正在使用 Scrapy 抓取网站并将数据提取到 json 文件但我发现对于某些网站抓取工具需要很长时间才能抓取完整的网站我的问题是如何才能最大限度地减少爬行所需的时间尝试调整CONCURRENT ITEMS CONCURRENT
如何在 4gl 中使用变量进行“分组”

有没有办法在 4gl 查询中按表中的字段对记录进行分组 My code define variable v invoice as inte no undo define variable v sell price as decimal no
Lua 的 `package.config` 中的最后几行是什么意思？

The Lua 规范说的是package config http www lua org manual 5 2 manual html pdf package config 编号是我添加的第一行是目录分隔符字符串默认为对于 Windo
在 Python 中将 XML/HTML 实体转换为 Unicode 字符串 [重复]

这个问题在这里已经有答案了我正在做一些网页抓取网站经常使用 HTML 实体来表示非 ASCII 字符 Python 是否有一个实用程序可以接受带有 HTML 实体的字符串并返回 unicode 类型例如我回来了 x01ce 代表一个
内联块在 Internet Explorer 7、6 中不起作用

我有这个 CSS 代码inline block 谁能告诉我如何让它在 Internet Explorer 6 和 7 中工作有什么想法吗也许我做错了什么谢谢你 signup color FFF border bottom solid
如何处理R预测函数中的错误？

我有一个数据框 df 我正在构建一个机器学习模型 C5 0 决策树来预测列的类别 loan approved 结构非真实数据 id occupation income loan approved 1 business 4214214 y

如何处理R预测函数中的错误？

如何处理R预测函数中的错误？ 的相关文章

随机推荐

热门标签

如何处理R预测函数中的错误？的相关文章