tidymodels-workflow工作流

2023-11-02

在阅读这篇文章前,我强烈建议你先读一下tidymodels入门篇:tidymodels用于机器学习的细节,首先对tidymodels有一个整体的认知。

今天主要介绍workflow的用法。

workflow可以把你的数据预处理步骤和模型连接起来,形成一个整体,而不是完全分割开来的,在tidymodels中主要作用是连接parsniprecipes产生的对象。

一个完整的workflow如下图所示:

数据预处理和模型选择是一个整体,workflow就是用来做这个工作。目前tidymodels强推workflow,建议以后大家使用的时候不管有没有预处理步骤,都使用workflow,因为统一的语法更好理解也好记忆。

使用workflow一个显而易见的优点是:不用事先对数据进行预处理,然后再建立模型,使用了workflow之后,它会自动帮你进行这一步,不需要先把数据预处理再建模!

以下是一个例子。

workflow的好处

首先是不使用workflow的正常步骤。

# 加载R包和数据
library(recipes)
## Loading required package: dplyr
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
## 
## Attaching package: 'recipes'
## The following object is masked from 'package:stats':
## 
##     step
library(parsnip)
library(workflows)

# 选择模型线性回归
lm_spec <- linear_reg() %>% 
  set_engine("lm")

# 进行数据预处理
spline_cars <- recipe(mpg ~ ., data = mtcars) %>% 
  step_ns(disp, deg_free = 10) %>% 
  prep()
spline_cars_prepped <- bake(spline_cars, new_data = NULL)

# 建立模型
lm_fit <- fit(lm_spec, mpg ~ ., data = spline_cars_prepped)
lm_fit
## parsnip model object
## 
## 
## Call:
## stats::lm(formula = mpg ~ ., data = data)
## 
## Coefficients:
## (Intercept)          cyl           hp         drat           wt         qsec  
##    49.79343     -3.32384     -0.02585     -2.76818     -0.94294      0.21909  
##          vs           am         gear         carb   disp_ns_01   disp_ns_02  
##    -2.83931     -1.10330      2.82343      0.28715     -9.88877    -12.95031  
##  disp_ns_03   disp_ns_04   disp_ns_05   disp_ns_06   disp_ns_07   disp_ns_08  
##    -4.94989    -15.45945      0.04334     -6.69861     -3.37594      5.57955  
##  disp_ns_09   disp_ns_10  
##   -10.00476     -4.61704

然后是使用workflow的步骤。

# 选择模型线性回归
lm_spec <- linear_reg() %>% 
  set_engine("lm")

# 建立菜谱
spline_cars <- recipe(mpg ~ ., data = mtcars) %>% 
  step_ns(disp, deg_free = 10) 

# 建立workflow
car_wflow <- workflow() %>% 
  add_recipe(spline_cars) %>% 
  add_model(lm_spec)

# 建立模型
car_wflow_fit <- car_wflow %>% fit(mtcars)
car_wflow_fit
## ══ Workflow [trained] ══════════════════════════════════════════════════════════
## Preprocessor: Recipe
## Model: linear_reg()
## 
## ── Preprocessor ────────────────────────────────────────────────────────────────
## 1 Recipe Step
## 
## • step_ns()
## 
## ── Model ───────────────────────────────────────────────────────────────────────
## 
## Call:
## stats::lm(formula = ..y ~ ., data = data)
## 
## Coefficients:
## (Intercept)          cyl           hp         drat           wt         qsec  
##    49.79343     -3.32384     -0.02585     -2.76818     -0.94294      0.21909  
##          vs           am         gear         carb   disp_ns_01   disp_ns_02  
##    -2.83931     -1.10330      2.82343      0.28715     -9.88877    -12.95031  
##  disp_ns_03   disp_ns_04   disp_ns_05   disp_ns_06   disp_ns_07   disp_ns_08  
##    -4.94989    -15.45945      0.04334     -6.69861     -3.37594      5.57955  
##  disp_ns_09   disp_ns_10  
##   -10.00476     -4.61704

结果一模一样。

可以看到使用了workflow之后,就不再需要先把数据处理好了,数据预处理已经在你的workflow之中,当你在建立模型时,它会自动帮你先进行数据预处理再建模。

基本使用和使用注意

有多种方式构造workflow,但是一定要记住,add_model(xxxx)这一步是必须的!

它的基本使用如下:

car_wflow <- workflow() %>% 
  add_recipe(spline_cars) %>% 
  add_model(lm_spec)

如果你没有预处理步骤,也是可以使用的。

# 虽然建立了菜谱,但其实没有任何预处理
spline_cars <- recipe(mpg ~ ., data = mtcars)

# 依然可以建立workflow
car_wflow <- workflow() %>% 
  add_recipe(spline_cars) %>% 
  add_model(lm_spec)

car_wflow
## ══ Workflow ════════════════════════════════════════════════════════════════════
## Preprocessor: Recipe
## Model: linear_reg()
## 
## ── Preprocessor ────────────────────────────────────────────────────────────────
## 0 Recipe Steps
## 
## ── Model ───────────────────────────────────────────────────────────────────────
## Linear Regression Model Specification (regression)
## 
## Computational engine: lm

但这种情况,你可以使用以下方式,可能更好理解:

# 方式1
car_wflow <- workflow() %>% 
  add_model(lm_spec) %>% 
  add_variables(outcomes = mpg, predictors = everything())

f1 <- car_wflow %>% fit(data = mtcars)
f1
## ══ Workflow [trained] ══════════════════════════════════════════════════════════
## Preprocessor: Variables
## Model: linear_reg()
## 
## ── Preprocessor ────────────────────────────────────────────────────────────────
## Outcomes: mpg
## Predictors: everything()
## 
## ── Model ───────────────────────────────────────────────────────────────────────
## 
## Call:
## stats::lm(formula = ..y ~ ., data = data)
## 
## Coefficients:
## (Intercept)          cyl         disp           hp         drat           wt  
##    12.30337     -0.11144      0.01334     -0.02148      0.78711     -3.71530  
##        qsec           vs           am         gear         carb  
##     0.82104      0.31776      2.52023      0.65541     -0.19942

# 方式2
car_wflow <- workflow() %>% 
  add_model(lm_spec) %>% 
  add_formula(mpg ~ .)

f2 <- car_wflow %>% fit(data = mtcars)
f2
## ══ Workflow [trained] ══════════════════════════════════════════════════════════
## Preprocessor: Formula
## Model: linear_reg()
## 
## ── Preprocessor ────────────────────────────────────────────────────────────────
## mpg ~ .
## 
## ── Model ───────────────────────────────────────────────────────────────────────
## 
## Call:
## stats::lm(formula = ..y ~ ., data = data)
## 
## Coefficients:
## (Intercept)          cyl         disp           hp         drat           wt  
##    12.30337     -0.11144      0.01334     -0.02148      0.78711     -3.71530  
##        qsec           vs           am         gear         carb  
##     0.82104      0.31776      2.52023      0.65541     -0.19942

两种方法得到的结果是一样的~

add_xxx的顺序并没有要求,只要别少了add_model(xxxx)这一步就可以!

如果你熟练以后也可以这样写:

tree_wf <- workflow(preprocessor = spline_cars,
                    spec = bayes_lm
                    )
## Error in workflow(preprocessor = spline_cars, spec = bayes_lm): object 'bayes_lm' not found

由于workflow中既包含了模型,也包含了数据预处理,所以你可能需要单独提取你想要的部分,它为你提供了非常多的函数,可以快速提取其中的内容,基本用法都是extract_xxxx()

举几个例子,这些函数会在以后的推文中陆续使用到:

extract_spec_parsnip()
extract_recipe()
extract_fit_parsnip()
extract_fit_engine()
......

除此之外,你还可以移除、更新workflow

remove_formula()
update_formula()
remove_model()
update_model()
remove_recipe()
update_recipe()
remove_variables()
update_variables()

以上就是workflow的使用,大家如果要用tiydmodels做机器学习,一定要学会这个东西,因为经常要用!

欢迎评论区留言或者加入QQ群交流。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

tidymodels-workflow工作流 的相关文章

  • SQL 解析与执行流程

    一 前言 在先前的技术博客中 我们已经详细介绍过数据库的 parser 模块与执行流程 用户输入的 SQL 语句通过词法解析器生成 token 再通过语法分析器生成抽象语法树 AST 经过 AST 生成对应的 planNode 最后执行 p
  • Qt源码分析:Qt程序是怎么运行起来的?

    一 从 exec 谈起 一个标准的Qt gui程序 在启动时我们会coding如下几行简洁的代码 include widget h include
  • 拼多多详情API开启运营比价新纪元

    随着互联网的快速发展 电商行业正在迅速崛起 拼多多作为一家新兴的电商平台 凭借其独特的营销策略和创新的商业模式 成为了电商行业的一匹黑马 在拼多多的成功背后 其详情API接口营销起到了至关重要的作用 本文将详细介绍拼多多详情API接口营销的
  • AntDB内存管理之内存上下文之如何使用内存上下文

    5 如何使用内存上下文 使用内存上下文之前 我们需要先对其进行创建 AntDB启动时已经创建并初始化好了部分内存上下文 例如 TopMemoryContext 这个TopMemoryContext是所有内存上下文的父节点或者祖先节点 一般我
  • 如何用GPT制作PPT和写代码?

    详情点击链接 如何用GPT制作PPT和写模型代码 一OpenAI 1 最新大模型GPT 4 Turbo 2 最新发布的高级数据分析 AI画图 图像识别 文档API 3 GPT Store 4 从0到1创建自己的GPT应用 5 模型Gemin
  • 【需求响应】改进连续时间控制方法用于分散式需求响应的恒温负荷研究(Python代码实现)

    欢迎来到本博客 博主优势 博客内容尽量做到思维缜密 逻辑清晰 为了方便读者 座右铭 行百里者 半于九十 本文目录如下 目录 1 概述 2 运行结果 3 参考文献 4 Python代码及文章
  • Navicat 16 for MySQL:打造高效数据库开发管理工具

    随着数据的快速增长和复杂性的提升 数据库成为了现代应用开发中不可或缺的一部分 而在MySQL数据库领域 Navicat 16 for MySQL作为一款强大的数据库开发管理工具 正受到越来越多开发者的青睐 Navicat 16 for My
  • 【计算机毕业设计】航空信息管理系统

    传统信息的管理大部分依赖于管理人员的手工登记与管理 然而 随着近些年信息技术的迅猛发展 让许多比较老套的信息管理模式进行了更新迭代 飞机票信息因为其管理内容繁杂 管理数量繁多导致手工进行处理不能满足广大用户的需求 因此就应运而生出相应的航空
  • 【计算机毕业设计】网上拍卖系统

    现代经济快节奏发展以及不断完善升级的信息化技术 让传统数据信息的管理升级为软件存储 归纳 集中处理数据信息的管理方式 本网上拍卖系统就是在这样的大环境下诞生 其可以帮助使用者在短时间内处理完毕庞大的数据信息 使用这种软件工具可以帮助管理人员
  • 图解python | 字符串及操作

    1 Python元组 Python的元组与列表类似 不同之处在于元组的元素不能修改 元组使用小括号 列表使用方括号 元组创建很简单 只需要在括号中添加元素 并使用逗号隔开即可 tup1 ByteDance ShowMeAI 1997 202
  • python超详细基础文件操作【建议收藏】

    文章目录 前言 发现宝藏 1 文件操作 1 1 文件打开与关闭 1 1 1 打开文件 1 1 2 关闭文件 1 2 访问模式及说明 2 文件读写 2 1 写数据 write 2 2 读数据 read 2 3 读数据 readlines 2
  • 软件测试|SQLAlchemy环境安装与基础使用

    简介 SQLAlchemy 是一个强大的 Python 库 用于与关系型数据库进行交互 它提供了高度抽象的对象关系映射 ORM 工具 允许使用 Python 对象来操作数据库 而不必编写原生SQL查询 本文将介绍如何安装 SQLAlchem
  • 【计算机毕业设计】北工国际健身俱乐部

    本系统为会员而设计制作北工国际健身俱乐部 旨在实现北工国际健身俱乐部智能化 现代化管理 本北工国际健身俱乐部管理自动化系统的开发和研制的最终目的是将北工国际健身俱乐部的运作模式从手工记录数据转变为网络信息查询管理 从而为现代管理人员的使用提
  • 机器学习算法实战案例:时间序列数据最全的预处理方法总结

    文章目录 1 缺失值处理 1 1 统计缺失值 1 2 删除缺失值 1 3 指定值填充 1 4 均值 中位数 众数填充
  • 机器学习算法实战案例:Informer实现多变量负荷预测

    文章目录 机器学习算法实战案例系列 答疑 技术交流 1 实验数据集 2 如何运行自己的数据集 3 报错分析 机器学习算法实战案例系
  • 做测试不会 SQL?超详细的 SQL 查询语法教程来啦!

    前言 作为一名测试工程师 工作中在对测试结果进行数据比对的时候 或多或少要和数据库打交道的 要和数据库打交道 那么一些常用的sql查询语法必须要掌握 最近有部分做测试小伙伴表示sql查询不太会 问我有没有sql查询语法这一块的文档可以学习
  • 史上最全自动驾驶岗位介绍

    作者 自动驾驶转型者 编辑 汽车人 原文链接 https zhuanlan zhihu com p 353480028 点击下方 卡片 关注 自动驾驶之心 公众号 ADAS巨卷干货 即可获取 点击进入 自动驾驶之心 求职交流 技术交流群 本
  • 温室气体排放更敏感的模型(即更高的平衡气候敏感性(ECS))在数年到数十年时间尺度上也具有更高的温度变化(Python代码实现)

    欢迎来到本博客 博主优势 博客内容尽量做到思维缜密 逻辑清晰 为了方便读者 座右铭 行百里者 半于九十 本文目录如下 目录 1 概述 2 运行结果 3 参考文献 4 Python代码 数据
  • SAP ERP系统是什么?SAP好用吗?

    A公司是一家传统制造企业 公司曾先后使用过数个管理软件系统 但各部门使用的软件都是单独功能 导致企业日常管理中数据流与信息流相对独立 形成了 信息孤岛 随着公司近年业务规模的快速发展以及客户数量的迅速增加 企业原有的信息系统在销售预测及生产
  • 光波导结构

    摘要 增强现实和混合现实 AR MR 领域的新应用引起了人们对带有光栅区域的光波导系统的越来越多的关注 这些光波导系统用于输入和输出耦合以及扩瞳目的 VirtualLab Fusion为这类系统的仿真和设计提供了几个强大的工具 其中一个是具

随机推荐

  • 编写教师和学生信息的程序

    编写教师和学生信息的程序 1 定义一个抽象类Person 在Person类中声明两个属性 name和age 并设置其对应的getter方法 用于获取人的姓名和年龄 在Person类中声明一个有参构造方法 用于对Person类中的属性进行初始
  • 两个多项式求和

    单链表的应用 两个多项式求和 提到多项式想必定会想到其系数和指数 定义数据结构 typedef struct Polynomial float coe 多项式系数 int exp 多项式指数 struct Polynomial next P
  • 【模式识别&目标检测】——基于机器视觉的无人机避障&RP-YOLOv3实例

    目录 引入 一 YOLOv3模型 1 实时目标检测YOLOv3简介 2 改进的实时目标检测模型 二 数据集建立 结果分析 1 数据集建立 2 模型结果分析 三 无人机避障实现 参考文献 引入 目前对于障碍物的检测整体分为 激光 红外线 超声
  • ubuntu18.04多版本cuda安装与转换(实测有效)

    ubuntu18 04 CUDA详解 Ubuntu18 04安装cuda 10 1及10 0 和cudnn 1 安装显卡驱动 1 1 禁用nouveau驱动 1 2 安装NVIDIA显卡驱动 2 安装CUDA10 1 2 1 下载cuda安
  • 公司前端开发架构改造

    要看更多的文章 欢迎访问我的个人博客 http oldli net 现在的前端早已不是几年前的前端 再也不是jQuery加一个插件就能解决问题的时代 最近对公司前端的开发进行了一系列的改造 初步达到了我想要的效果 但是未来还需要更多的改进
  • 【DOCKER】docker run的-d,-v等参数用处

    0 引用 ref1 docker ps的详解 表格和文本的记录版本 1 手册查询内容 root master cpu docker run help Usage docker run OPTIONS IMAGE COMMAND ARG Ru
  • linux脚本的注释符号是什么,linux的shell编程中的符号`是什么

    bin sh 是指此脚本使用 bin sh来解释执行 是特殊的表示符 其后面根的是此解释此脚本的shell的路径 bash 表示系统提示符 表示此用户为普通用户 超级用户的提示符是 bash是shell的一种 是linux下最常用的一种sh
  • ARM MMU 详解

    一 MMU 的产生 许多年以前 当人们还在使用DOS或是更古老的操作系统的时候 计算机的内存还非常小 一般都是以 K 为单位进行计算 相应的 当时的程序规模也不大 所以内存容量虽然小 但还是可以容纳当时的程序 但随着图形界面的兴起 还有用户
  • @Resource注解的使用

    1 在spring的配置文件中导入命名空间 xmlns context http www springframework org schema context http www springframework org schema cont
  • 推荐一个好组件Javascript文本比较工具

    您的项目上有没有遇到需要在前端显示并比较两个不同版本的文本文件 希望它像winmerge 或eclipse的svn比较工具那样标注不同的地方 我找到了 分享给大家吧 最近项目上需要一个类似cvs svn文本比较工具 把左右两个文本中不一样的
  • 在Eclipse添加Android兼容包( v4、v7 appcompat )

    昨天添加Android兼容包 碰到了很多问题 在这里记录一下 让后面的路好走 如何选择兼容包 请参考Android Support Library Features 二 一 下载Support Library 方法1 右击项目 选择Andr
  • Jenkins配置定时调度部署

    H 22 表示每天22点 自动构建
  • 怎么找CVPR/ICCV/ECCV文章

    原文链接 https www jianshu com p aed3dd8c81fa CVPR论文查找 每年一届 点击如下链接 输入相关关键字即可搜索 http openaccess thecvf com CVPR2013 search py
  • 冒泡排序原理详解及代码实现

    1 冒泡排序数组排序常用的一种方式 为什么要叫冒泡排序呢 这还要从它的原理说起 2 代码实现 低效版 3 原理详解 冒泡排序最基本的思想就是从左到右依次判断相邻的两个数的大小关系 如果前面的数大于后面的数 则两数互换位置 但是只是从左到右遍
  • C++11---智能指针

    智能指针 1 为什么引入智能指针 1 1 内存泄漏 2 智能指针的使用及原理 2 1 RAII 2 2 智能指针的原理 3 C 98 auto ptr 4 unique ptr 5 shared ptr 5 1 循环引用 6 weak pt
  • 在Anaconda下安装了TensorFlow库matplotlib库却调用不了了

    在Anaconda下安装了TensorFlow库 但是Anaconda中的matplotlib库却调用不了了 解决方法如下 1 打开Anaconda Prompt 2 输入activate tensorflow 3 输入conda inst
  • 2022年全国职业院校技能大赛(中职组)网络安全竞赛试题解析-A

    2022年全国职业院校技能大赛 中职组 网络安全竞赛试题 1 总分100分 需要环境可以私信博主 赛题说明 一 竞赛项目简介 网络安全 竞赛共分A 基础设施设置与安全加固 B 网络安全事件响应 数字取证调查和应用安全 C CTF夺旗 攻击
  • StackGAN笔记

    Stack可译做堆叠 就是在GAN上面再放上一个GAN 作者讲述的自己的解决思路 原来难以生成高分辨率的图像 他们分解了这个问题 把生成高分辨率图片这个任务分解成两个更为简单的任务 就是文中说的一个GAN生成大致的形状和颜色 第二个GAN生
  • 自主HttpServer实现(C++实战项目)

    文章目录 项目介绍 CGI技术 概念 原理 设计框架 日志文件 TCPServer 任务类 初始化与启动HttpServer HTTP请求结构 HTTP响应结构 线程回调 EndPoint类 EndPoint主体框架 读取HTTP请求 处理
  • tidymodels-workflow工作流

    在阅读这篇文章前 我强烈建议你先读一下tidymodels入门篇 tidymodels用于机器学习的细节 首先对tidymodels有一个整体的认知 今天主要介绍workflow的用法 workflow可以把你的数据预处理步骤和模型连接起来