直接使用 dplyr 改变数据库表中的变量

2023-11-23

这是 MonetDBLite 数据库文件中的 mtcars 数据。

library(MonetDBLite)
library(tidyverse)
library(DBI)

dbdir <- getwd()
con <- dbConnect(MonetDBLite::MonetDBLite(), dbdir)

dbWriteTable(conn = con, name = "mtcars_1", value = mtcars)

data_mt <- con %>% tbl("mtcars_1")

我想使用 dplyr mutate 创建新变量并将其添加（提交！）到数据库表中？就像是

data_mt %>% select(mpg, cyl) %>% mutate(var = mpg/cyl) %>% dbCommit(con)

当我们这样做时，期望的输出应该是相同的：

dbSendQuery(con, "ALTER TABLE mtcars_1 ADD COLUMN var DOUBLE PRECISION")
dbSendQuery(con, "UPDATE mtcars_1 SET var=mpg/cyl")

怎样才能做到这一点呢？

这里有几个函数，create and update.tbl_lazy.

他们分别实现CREATE TABLE，这很简单，并且ALTER TABLE/UPDATE一对则不然：

CREATE

create <- function(data,name){
  DBI::dbSendQuery(data$src$con,
                   paste("CREATE TABLE", name,"AS", dbplyr::sql_render(data)))
  dplyr::tbl(data$src$con,name)
}

example:

library(dbplyr)
library(DBI)
con <- DBI::dbConnect(RSQLite::SQLite(), path = ":memory:")
copy_to(con, head(iris,3),"iris")

tbl(con,"iris") %>% mutate(Sepal.Area= Sepal.Length * Sepal.Width) %>% create("iris_2")

# # Source:   table<iris_2> [?? x 6]
# # Database: sqlite 3.22.0 []
#   Sepal.Length Sepal.Width Petal.Length Petal.Width Species Sepal.Area
#          <dbl>       <dbl>        <dbl>       <dbl> <chr>        <dbl>
# 1          5.1         3.5          1.4         0.2 setosa        17.8
# 2          4.9         3            1.4         0.2 setosa        14.7
# 3          4.7         3.2          1.3         0.2 setosa        15.0

UPDATE

update.tbl_lazy <- function(.data,...,new_type="DOUBLE PRECISION"){
  quos <- rlang::quos(...)
  dots <- rlang::exprs_auto_name(quos, printer = tidy_text)

  # extract key parameters from query
  sql <- dbplyr::sql_render(.data)
  con  <- .data$src$con
  table_name <-gsub(".*?(FROM (`|\")(.+?)(`|\")).*","\\3",sql)
  if(grepl("\nWHERE ",sql)) where <-  regmatches(sql, regexpr("WHERE .*",sql))
  else where <- ""
  new_cols <- setdiff(names(dots),colnames(.data))

  # Add empty columns to base table
  if(length(new_cols)){
    alter_queries <- paste("ALTER TABLE",table_name,"ADD COLUMN",new_cols,new_type)
    purrr::walk(alter_queries, ~{
      rs <- DBI::dbSendStatement(con, .)
      DBI::dbClearResult(rs)})}

  # translate unevaluated dot arguments to SQL instructions as character
  translations  <- purrr::map_chr(dots, ~ translate_sql(!!! .))
  # messy hack to make translations work
  translations <- gsub("OVER \\(\\)","",translations) 

  # 2 possibilities: called group_by or (called filter or called nothing)
  if(identical(.data$ops$name,"group_by")){
    # ERROR if `filter` and `group_by` both used
    if(where != "") stop("Using both `filter` and `group by` is not supported")

    # Build aggregated table
    gb_cols   <- paste0('"',.data$ops$dots,'"',collapse=", ")
    gb_query0 <- paste(translations,"AS", names(dots),collapse=", ")
    gb_query  <- paste("CREATE TABLE TEMP_GB_TABLE AS SELECT",
                       gb_cols,", ",gb_query0,
                       "FROM", table_name,"GROUP BY", gb_cols)
    rs <- DBI::dbSendStatement(con, gb_query)
    DBI::dbClearResult(rs)

    # Delete temp table on exit
    on.exit({
      rs <- DBI::dbSendStatement(con,"DROP TABLE TEMP_GB_TABLE")
      DBI::dbClearResult(rs)
    })

    # Build update query
    gb_on <- paste0(table_name,'."',.data$ops$dots,'" = TEMP_GB_TABLE."', .data$ops$dots,'"',collapse=" AND ")
    update_query0 <- paste0(names(dots)," = (SELECT ", names(dots), " FROM TEMP_GB_TABLE WHERE ",gb_on,")",
                            collapse=", ")
    update_query <- paste("UPDATE", table_name, "SET", update_query0)
    rs <- DBI::dbSendStatement(con, update_query)
    DBI::dbClearResult(rs)

  } else {

    # Build update query in case of no group_by and optional where
    update_query0 <- paste(names(dots),'=',translations,collapse=", ")
    update_query  <- paste("UPDATE", table_name,"SET", update_query0,where)
    rs <- DBI::dbSendStatement(con, update_query)
    DBI::dbClearResult(rs)
  }
  tbl(con,table_name)
}

示例1，定义 2 个新的数字列：

tbl(con,"iris") %>% update(x=pmax(Sepal.Length,Sepal.Width),
                           y=pmin(Sepal.Length,Sepal.Width))

# # Source:   table<iris> [?? x 7]
# # Database: sqlite 3.22.0 []
#   Sepal.Length Sepal.Width Petal.Length Petal.Width Species     x     y
#          <dbl>       <dbl>        <dbl>       <dbl> <chr>   <dbl> <dbl>
# 1          5.1         3.5          1.4         0.2 setosa    5.1   3.5
# 2          4.9         3            1.4         0.2 setosa    4.9   3  
# 3          4.7         3.2          1.3         0.2 setosa    4.7   3.2

示例2，修改现有列，创建 2 个不同类型的新列：

tbl(con,"iris") %>%
  update(x= Sepal.Length*Sepal.Width,
         z= 2*y,
         a= Species %||% Species,               
         new_type = c("DOUBLE","VARCHAR(255)"))

# # Source:   table<iris> [?? x 9]
# # Database: sqlite 3.22.0 []
#   Sepal.Length Sepal.Width Petal.Length Petal.Width Species     x     y     z a           
#          <dbl>       <dbl>        <dbl>       <dbl> <chr>   <dbl> <dbl> <dbl> <chr>       
# 1          5.1         3.5          1.4         0.2 setosa   17.8   3.5   7   setosasetosa
# 2          4.9         3            1.4         0.2 setosa   14.7   3     6   setosasetosa
# 3          4.7         3.2          1.3         0.2 setosa   15.0   3.2   6.4 setosasetosa

实施例3，更新其中：

tbl(con,"iris") %>% filter(Sepal.Width > 3) %>% update(a="foo")

# # Source:   table<iris> [?? x 9]
# # Database: sqlite 3.22.0 []
#   Sepal.Length Sepal.Width Petal.Length Petal.Width Species     x     y     z a           
#          <dbl>       <dbl>        <dbl>       <dbl> <chr>   <dbl> <dbl> <dbl> <chr>       
# 1          5.1         3.5          1.4         0.2 setosa   17.8   3.5   7   foo         
# 2          4.9         3            1.4         0.2 setosa   14.7   3     6   setosasetosa
# 3          4.7         3.2          1.3         0.2 setosa   15.0   3.2   6.4 foo

实施例4: 按组更新

tbl(con,"iris") %>%
  group_by(Species, Petal.Width) %>%
  update(new_col1 = sum(Sepal.Width,na.rm=TRUE), # using a R function
         new_col2 = MAX(Sepal.Length))           # using native SQL

# # Source:   SQL [?? x 11]
# # Database: sqlite 3.22.0 []
#   Sepal.Length Sepal.Width Petal.Length Petal.Width Species        x     y     z a            new_col1 new_col2
#          <dbl>       <dbl>        <dbl>       <dbl> <chr>      <dbl> <dbl> <dbl> <chr>           <dbl>    <dbl>
# 1          5.1         3.5          1.4         0.2 setosa         1     2   7   foo               6.5      5.1
# 2          4.9         3            1.4         0.2 setosa         1     2   6   setosasetosa      6.5      5.1
# 3          7           3.2          4.7         1.4 versicolor     1     2   6.4 foo               3.2      7

一般注意事项

代码使用用途dbplyr::translate_sql所以我们可以像以前一样使用 R 函数或本机函数mutate calls.
update只能在1次之后使用filter致电或一group_by调用或每个零，其他任何东西，你都会得到错误或意外的结果。
The group_by实现非常hacky，因此没有空间动态定义列或按操作分组，请坚持基础知识。
update and create都返回tbl(con, table_name)，这意味着您可以链接尽可能多的create or update根据您的意愿拨打电话，并支付适当的金额group_by and filter之间。事实上，我的 4 个例子都可以链接起来。
为了钉钉子，create不受同样的限制，您可以拥有尽可能多的dbplyr在调用之前按需要有趣。
我没有实现类型检测，所以我需要new_type参数，它被回收在paste的呼唤alter_queries我的代码中的定义，因此它可以是单个值或向量。

解决后者的一种方法是从translations变量，找到它们的类型dbGetQuery(con,"PRAGMA table_info(iris)")。然后我们需要所有现有类型之间的强制规则，我们已经设置好了。但由于不同的 DBMS 有不同的类型，我想不出通用的方法来做到这一点，我也不知道MonetDBLite.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

dplyr

rdbi

dbplyr

monetdblite

直接使用 dplyr 改变数据库表中的变量的相关文章

如何避免循环

大家好我是 R 新手我有两个面板数据文件其中包含 id date 和 ret 列文件 A 的数据比文件 B 多得多但我主要处理文件 B 数据 id 和 date 的组合是唯一标识符有没有一种优雅的方式来查找 B 中的每个 id
无法使用include_graphics在Rmarkdown中插入png（错误：文件不是PNG格式）

这个错误很奇怪当我编织文档时出现以下错误 Quitting from lines 42 43 sigminer doc Rmd Error in png readPNG path native TRUE info TRUE file i
R 中第三维的平均值

R中是否有任何快速方法或内置函数来计算基于第三维的平均值例如我的数组是 1 1 2 1 1 3 2 2 4 2 1 2 1 11 13 2 12 14 3 1 2 1 21 23 2 22 24 我的输出是 1 2 1 mean 1 11
R+Hadoop：如何从HDFS读取CSV文件并执行mapreduce？

在以下示例中 small ints to dfs 1 1000 mapreduce input small ints map function k v cbind v v 2 MapReduce函数的数据输入是一个名为small ints的
列表列中的设置操作

我正在尝试做集合运算在存储在列表列中的向量之间例如this https stackoverflow com questions 38712196 text file to dataframe with a list column DT l
在r包中重新导出数据集

In R包有可能重新导出函数这使得很容易回收相同的函数而不必在不同的包之间重复代码例如 devtools session info函数是重新导出sessioninfo session info export importFrom s
R：使用 RGDAL 和 RASTER 包时抛出错误

给所有可能相关的人这是源代码 GRA D1 lt raster files 1 Sets up an empty output raster GRA D1 lt writeStart GRA D1 filename GRA D1 tif
加拿大人口普查地图分区 R

我对 R 和映射非常陌生我想创建某些数据的映射我有一组名为 D Montreal 的数据显示 2010 年前往蒙特利尔的加拿大人口普查部门游客来自哪个国家我想使用此数据创建一个地图以显示有多少人来自不同地区也许可以通过对根据人数
在闪亮的应用程序和多个页面中进行身份验证

在我正在开发的系统中我有 3 个不同的参与者用户管理员支持团队使用 Shiny App 我想知道如何向这三个参与者进行身份验证每个参与者只能访问他们的页面我发现使用闪亮的服务器专业版可以实现这一点但它不是免费的有什么方法可
更改列的顺序

我正在处理一个包含 gt 40 列的大型数据框我希望能够移动列而不必指定所有列名称例如 a lt c 1 5 b lt c 4 3 2 1 1 Percent lt c 40 30 20 10 10 Labels lt c Cat D
有条件地将可选组替换为 gsub

一位用户问我如何做到这一点如何使 ggplot 图例中的选定单词变为斜体 https stackoverflow com questions 76054997 how to italicize select words in a ggplo
使用 gbuffer 在 R 中缓冲（地理）空间点

我正在尝试缓冲数据集中半径为 100 公里的点我正在使用该功能gBuffer从包装中rgeos 这是我到目前为止所拥有的 head sampledf postalcode lat lon city province 1 A0A0A0 47
使用facet时ggplot2控制每行的面板数量？

Is it possible to control the number of panels per row in a ggplot I can only get an equal number of panels on each row
为 RStudio Server 1.0.44 配置日志目录

我在 CentOS 7 上运行 RStudio Server 1 0 44 根据文档 https support rstudio com hc en us articles 200554766 RStudio Server Applicat
在 R 中使用 gamlss::lms 选择百分位数曲线

我正在使用 gamlss 包中的示例代码来绘制百分位数曲线 library gamlss data abdom lms y x data abdom n cyc 30 它正在绘制自己的一组百分位数曲线如何选择只绘制第 10 50 和 90
在knitr中打印漂亮的交叉表

我想要的是使用 R Markdown 和 knit 从 RStudio 打印漂亮的交叉表无论是在 pdf 文件中还是在 html 文件中我怀疑我错过了一些非常明显的东西因为我不敢相信这是如此困难我使用 xtabs 或 ftable
left_join 表示列不存在，即使它存在

我想用两个不同的变量 tp join 连接两个数据框出现错误表示无法在第二个数据帧中找到变量但是当我运行函数 colnames 时会显示列名称为什么会这样呢 df new lt left join master settlemen
R：邻接表到邻接矩阵

Bonjour 我想将邻接列表 3 列转换为邻接矩阵在这个论坛中我找到了多个有关如何将边列表转换为邻接矩阵的示例我成功地为两列列表做到了这一点我已经尝试了在网上可以找到的所有解决方案但似乎我错过了一小步我尝试过的我的变量是用
Rglpk - 梦幻足球阵容优化器 - For 循环输出的 Rbind

我有一个使用 Rgplk 的梦幻足球阵容优化器它使用for循环生成多个最佳阵容其数量由用户输入代码如下 Lineups lt list for i in 1 Lineup no matrix lt rbind as numeric D
为 ggplot 定义新的尺度轴变换

我正在尝试创建一个squared使用 y 轴变换scales trans new但遇到错误 MWE data data frame x 1 10 y runif 10 z rnorm 10 10 library ggplot2 ggplot

随机推荐

jQuery - 隐藏元素的最佳方法？（以防止元素在实际隐藏之前闪烁）

我记得在某个时候歌剧 Mostlikely it was Safari instead 有一个问题如果你使用 hide 在元素上它会在实际隐藏元素之前短暂闪烁现在如果你不想忽略那些由于某种原因在浏览器中没有打开 js 的人你就不能
PHP - 检查一个字符串是否包含另一个字符串中的任何字符

如何使用 PHP 检查一个字符串是否包含另一个字符串中的任何字符 a asd b ds if if first string contains any of the chars in second string a b echo Yep 所
Taco 路线图 - 更新 11，支持 Cordova 7

Microsoft 是否计划发布具有原生 Cordova 7 Node 4 x 支持的 Taco Update 11 自从 Taco 以来 Taco 仍然是一个活跃的项目吗最后更新是两年前吗我认为可以肯定的是微软已经放弃了 TACO
如何获取 msbuild 任务来对文件集合进行配置转换？

我正在尝试转换我拥有的项目中的所有 web config 文件这是我的树结构转换 bat Transforms 配置转换 proj Web Transform config Website 网络配置 Views 网络配置还有更多的 w
service.AddScoped() 与 service.AddDbContext()

假设我想实现不同的 DbContext MySql MsSql 但让应用程序完全不知道它因此使用 AddScoped 或任何其他方法我可以注册如下内容
Rails 5.1 中的 form_with 搜索字段

在 Rails 5 1 中所有表单都必须使用form with In http edgeguides rubyonrails org 5 1 release notes html unification of form for and f
Heroku 上每分钟调度一个作业 Rails 3.1

我想在 Heroku 上每分钟运行一个任务以检查是否满足使某些用户任务超时的条件我只能每小时运行一次 Heroku cron 作业那么设置这样的定时任务的最佳方法是什么我在 Heroku 上使用 Rails 3 1 从今天开始您可
如何在 UICollectionView 中快速添加分页？

我有一个显示项目的集合视图现在我想在集合视图上添加分页我不想使用任何第三方来实现此功能请让我知道如何实现这一目标我有四个一的例子http slicode com bottom refresh control uicollection
PHP 变量 vs 数组 vs 对象

这可能被认为是一个非常愚蠢的问题但我正在为网站构建一个简单的模板系统并试图跟踪我的变量使用情况并保持一切整洁您能告诉我以下方法是否有任何优点缺点简单变量 tpl title my title tpl desc my text ar
是否可以将命名元组与泛型类型声明一起使用？

我知道我们可以声明一个命名元组例如 var name first Sponge last Bob 然而我不知道如何将命名元组与泛型类型例如字典组合起来我尝试过以下变体但没有运气 Dictionary
获取 .html() 和 .text() 中突出显示的文本位置

我使用以下脚本来获取突出显示文本的位置 function getSelectionCharOffsetsWithin element var start 0 end 0 var sel range priorRange if typeof
pragma ompparallel for 与 pragma ompparallel

在 C 和 openMP 中有什么区别 pragma omp parallel for for int i 0 i
获取任务并将其传递出去的方法是否应该等待它？

我有以下两种方法 public async Task
考虑区域设置对元组列表进行排序（瑞典排序）

显然 PostgreSQL 8 4 和 Ubuntu 10 04 无法处理更新的瑞典字母表 W 和 V 排序方式也就是说它仍然将它们排序为相同的字母如下所示瑞典语排序的旧定义 Wa Vb Wc Vd 它应该是瑞典语排序的新定义 V
Python 和 C++：如何将 pybind11 与 Cmakelists（包括 GSL 库）一起使用

我希望能够将我的 C 代码作为 python 包调用为此我正在使用pybind11与 CMakelists 按照这个例子https github com pybind cmake example 我的问题是我必须在代码编译中包含 GSL
我无法通过亚马逊产品广告 API 获取价格

我尝试使用亚马逊产品广告 API 获取 ASIN 编号的价格 Code artNr B003TKSD8E base url http ecs amazonaws de onca xml params array AWSAccessKeyId
需要多个文件

我正在构建一个 PHP 应用程序它使用选择菜单来构建电子邮件模板模板被分成可重用的部分每个部分都是一个单独的 html 文件有没有一种简单的方法可以用一个表达式要求多个文件我的PHP真是生疏了本质上我想做一些类似的事情 func
使用 jQuery 调用控制器操作

我有一个很好的页面可以完成我需要的一切然而其中一个元素部分页面比我想要加载的时间要长几秒钟所以我想做的是首先显示没有此部分的页面但在其位置显示正在加载 gif 然后在我的jquery document ready funct
如何在使用 Entity Framework 4.1 创建的生产中的现有数据库上使用迁移？

我有一个正在生产的系统是使用 Entity Framework 4 1 Code First 创建的现在我已经升级到 4 3 并需要应用迁移但我需要涵盖几个用例新开发人员需要使用种子数据从头开始创建数据库这Seed 方法还应用一
直接使用 dplyr 改变数据库表中的变量

这是 MonetDBLite 数据库文件中的 mtcars 数据 library MonetDBLite library tidyverse library DBI dbdir lt getwd con lt dbConnect Monet

直接使用 dplyr 改变数据库表中的变量

直接使用 dplyr 改变数据库表中的变量 的相关文章

随机推荐

热门标签

直接使用 dplyr 改变数据库表中的变量的相关文章