我可以将格式和路径选项传递到spark_write_table中吗？或者将 saveAsTable 与 Spark_write_orc 一起使用？

2024-04-18

Spark 2.0 与 Hive

假设我正在尝试编写一个 Spark 数据框，irisDf to orc and将其保存到 hive 元存储

在 Spark 中我会这样做，

irisDf.write.format("orc")
    .mode("overwrite")
    .option("path", "s3://my_bucket/iris/")
    .saveAsTable("my_database.iris")

In sparklyr我可以使用spark_write_table功能，

data("iris")
iris_spark <- copy_to(sc, iris, name = "iris")
output <- spark_write_table(
   iris
  ,name = 'my_database.iris'
  ,mode = 'overwrite'
)

但这不允许我设置path or format

我也可以使用spark_write_orc

spark_write_orc(
    iris
  , path = "s3://my_bucket/iris/"
  , mode = "overwrite"
)

但它没有saveAsTable option

现在，我可以使用invoke复制 Spark 代码的语句，

  sdf <- spark_dataframe(iris_spark)
  writer <- invoke(sdf, "write")
  writer %>% 
    invoke('format', 'orc') %>% 
    invoke('mode', 'overwrite') %>% 
    invoke('option','path', "s3://my_bucket/iris/") %>% 
    invoke('saveAsTable',"my_database.iris")

但我想知道是否有办法可以通过format and path选项进入spark_write_table or the saveAsTable选择进入spark_write_orc?

path可以使用设置options参数，相当于options调用本地人DataFrameWriter:

spark_write_table(
  iris_spark, name = 'my_database.iris', mode = 'overwrite', 
  options = list(path = "s3a://my_bucket/iris/")
)

默认情况下，在 Spark 中，这将创建一个表，存储为Parquet https://en.wikipedia.org/wiki/Apache_Parquet at path（分区子目录可以用partition_by争论）。

截至今天，没有这样的格式选项，但一个简单的解决方法是设置spark.sessionState.conf.defaultDataSourceName属性，无论是在运行时

spark_session_config(
  sc, "spark.sessionState.conf.defaultDataSourceName", "orc"
)

或者当您创建会话时。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

apachespark

hive

apachesparksql

sparklyr

我可以将格式和路径选项传递到spark_write_table中吗？或者将 saveAsTable 与 Spark_write_orc 一起使用？的相关文章

在 ggplot2 facet_wrap 标签上使用半填充的正方形

我正在尝试使用标签上的一半以及四分之一填充方块来生成 ggplot2 图表但 Mac 上的 ggplot2 似乎不支持某些符号例如当我输入 print u25E9 它显示一个半黑的正方形但是当我尝试在 ggplot 中使用它时
Spark scala - 按数组列分组[重复]

这个问题在这里已经有答案了我对 Spark Scala 很陌生感谢你的帮助我有一个数据框 val df Seq a a1 Array x1 x2 a b1 Array x1 a c1 Array x2 c c3 Array x2 a
TaskSchedulerImpl：初始作业尚未接受任何资源；

这就是我正在尝试做的事情我创建了DataStax企业集群的两个节点在其上创建了一个java程序来获取一张表 Cassandra数据库表的计数该程序是在 eclipse 中构建的实际上是来自 windows 盒子从 Windows
比较具有不同顶点数的图中的社区

我正在根据通信数据图计算鲁汶社区其中顶点代表大型项目的执行者这些图表代表不同的通信方式例如电子邮件电话我们想尝试从通信数据中识别表演者团队由于表演者对不同的通信方法有不同的偏好因此图的大小不同并且可能有一些独特的顶点而这些
如何将我自己的函数添加为 ML pyspark Pipeline 中的自定义阶段？ [复制]

这个问题在这里已经有答案了 Florian 的示例代码 ball column keep the hall column 0 7 14 1 8 15 2 9 16 3 10 17 4 11 18
ggplot geom_hline 中无法识别数据列

我想知道为什么变量mean y不被我识别geom hline yintercept unique mean y call library tidyverse set seed 20 n groups lt 2 n in group lt 2
确定执行脚本的路径

我有一个名为foo R其中包括另一个脚本other R 位于同一目录中 usr bin env Rscript message Hello source other R 但我想要R找到那个other R无论当前工作目录是什么换句话说 fo
使用 RSQLite 库时加载 MacPorts SQLite3

我在 SQLite 一个计算乘积的聚合器中有一个用户定义的函数它在 R 之外工作得很好但是我有时在 Mac 上如果您想添加您的 SQLite3 则需要 MacPorts 版本的 SQLite3自己的功能扩展我可以选择 RSQLi
tidyr：在函数内使用 mutate

我想使用 tidyverse 中的 mutate 函数来基于旧列创建一个新列仅使用数据框和字符串代表列标题作为输入我可以在不使用 tidyverse 的情况下让它工作参见下面的函数 f 但我想使用 tidyverse 让它工作参
参数为动态的 Spark 滞后函数

我需要在spark中实现lag函数我可以像下面这样做使用 hive temp Spark 表中的一些数据假设 DF 有这些行 lagno value 0 100 0 200 2 null 3 null 其中第一列是您要使用的实际滞后数
ANEW 字典可以用于 Quanteda 中的情感分析吗？

我正在尝试找到一种方法来实施英语单词情感规范荷兰语以便使用 Quanteda 进行纵向情感分析我最终想要的是每年的平均情绪以显示任何纵向趋势在数据集中所有单词均由 64 名编码员按照 7 分李克特量表在四个类别上进行评分这提
R data.table %like% 带有逻辑 AND

我正在尝试构建一个闪亮的搜索引擎应用程序我根据搜索关键字返回 data table DT lt data table field c A B C A C D A D A B A D B C F B D K DT field like A
Spark 数据框添加带有随机数据的新列

我想向数据框中添加一个新列其值由 0 或 1 组成我使用了 randint 函数 from random import randint df1 df withColumn isVal randint 0 1 但我收到以下错误 spark
在 Linux 集群上安装 R `forecast` 包：编译器问题？

我正在寻找测试性能R 更具体地说是一些例程forecast封装在具有 Intel Xeon Phi 协处理器的 HPC 集群上据我所知系统管理员已经建立了R 3 2 5按照英特尔网站上的说明从来源获取 https software in
如何在R中使用twoord.plot()绘制多个图（分面）？

我的数据看起来像这样 height lt c 1 2 3 4 2 4 6 8 weight lt c 12 13 14 15 22 23 24 25 person lt c Jack Jim Jill Tess Jack Jim Jill
Spark：shuffle操作导致GC长时间暂停

我在跑Spark 2我正在尝试洗牌大约 5 TB 的 json 我在洗牌期间遇到了很长的垃圾收集暂停Dataset val operations spark read json inPath as MyClass operations re
R中向后历史搜索

通常在我的机器中我可以通过键入我想要向后搜索的命令的所需第一个字符来向后搜索 R 的历史记录然后使用 PageUp 或 PageDown 键浏览 R 历史记录中的所有条目我现在在远程集群中以访客身份工作此选项在本机上不可用有谁知道
Density2d 使用另一个变量进行填充（类似于 geom_tile）？

我正在尝试为我的最终项目绘制地图并且正在尝试使用 BLock 绘制美国的犯罪热图对于每个街区我都有纬度经度和犯罪率预测它遵循以下结构 Lat Lon Prediction 76 0 40 0 125 76 120 40 5 145
使用 python 从 hive 读取数据时的性能问题

我在 hive 中有一个表其中包含 351 837 110 MB 大小记录我正在使用 python 读取该表并写入 sql server 在此过程中从 hive 读取数据到 pandas dataframe 需要很长时间当我加载整
映射多个参数，其中一个参数是常量（数据）

我正在努力在我构建的函数上使用 mapply 因为我在一个更大的环境中编程所以我需要一个或多个参数例如如果我编写一个函数其中一个参数是data fun test lt function data col val1 val2 retu

随机推荐

使用 TextFinder 搜索范围比搜索整个工作表慢

我有一张有很多行的表数千行我想在特定列中搜索文本我在用Range createTextFinder但它超时了如果Sheet只有4行数据甚至会超时 This is very slow var found sheet getRange
为什么window.onload事件发生在$(document).ready之前？

正如该线程中所述 window onload 与 document ready https stackoverflow com questions 3698200 window onload vs document ready The wi
shell脚本不通过crontab运行，手动运行正常

我尝试导出我的路径和变量但 crontab 仍然不会运行我的脚本我确信我做错了什么我有一个运行 jar 文件的 shell 脚本这无法正常工作阅读周围后我发现这通常是由于 cron 通过其自己的 shell 实例运行而导致路径不
ArrayListMultimap 与 LinkedListMultimap 有何不同？

所以我只是在阅读 javadocArrayListMultimap and LinkedListMultimap为了了解如何使用它们我开始知道两者都支持重复的键值对我的意思是相同的键不同的值如果我理解正确的话如果我错了请纠正我
Java中如何从HashMap中获取对象

我试图在给定密钥时从 HashMap 获取测试对象的速度但我不太确定该怎么做我尝试过这种方式但它是错误的 hash values getSpeed 有什么帮助吗谢谢 class Test private String id priv
如何将数据库从资产文件夹复制到数据库文件夹

我的代码如下 dbhelper java Override public void onUpgrade SQLiteDatabase db int oldVersion int newVersion if oldVersion gt new
情节性的javascript。 'plotly_click' 上的不是一个函数

我正在尝试在我的绘图图表上创建一个 onclick 事件根据文档我创建了以下图表 var graphDiv document getElementById uniqueId Plotly newPlot uniqueId charDat
证书和配置文件

我正在寻找有关对应用程序进行代码签名的不同步骤的更全面的指南我已阅读配置门户中提供的指南但我不了解证书和配置文件的概念以及开发人员和发行版之间的区别在 XCode 中也有不同的方案使用 XCode 4 我不明白它的目的我已成功将应
使用格式运算符 % 将 RGB 值的 numpy 数组转换为十六进制

遵循这个SOquestion https stackoverflow com questions 3380726 converting a rgb color tuple to a six digit code in python使用格式化
在 React 路由器重定向上运行 jquery 脚本

我正在寻求移植我现有的网站该网站使用主题来利用反应组件该主题有很多使 UI 正确渲染的功能包括几个动画主题的js导入了很多其他的js库这意味着我无法编写主题提供的任何 UI 元素的 React 版本然而实际上元素可以用作哑组
Angular 2：从父组件获取RouteParams

如何从父组件获取 RouteParams App ts Component RouteConfig path component HomeComponent as Home path username component ParentCom
GAS：从绑定脚本调用附加组件中定义的函数？

我已经为电子表格编写了谷歌应用程序脚本代码我想将其中的一部分作为附加组件发布另一部分作为绑定到电子表格的脚本应该能够调用该附加组件中的函数我在谷歌文档中没有找到任何关于此的提示我读了如何在库中调用函数调用附加组件中的函数是否类
从通用接口扩展

最后一排有什么问题吗 interface I1
使用 ASP.NET 获取 Active Directory 信息，无需用户名和密码

我正在尝试从 ASP NET Web 应用程序获取本地网络上用户的 Active Directory 信息 Web 应用程序运行在IIS在本地网络上我想要的当用户登录网站时他们可以从 Active Directory 中看到自己的名字
Codeigniter CSRF仅对一次ajax请求有效

我想在 jQuery 的更改事件上将图像上传到服务器上但使用 codeigniter csrf 我只能上传图像一次如何使用ajax上传图像以进行多个请求请记住当我设置此值时 config csrf protection FALSE
Win32 检测窗口是否最大化/停靠到半屏（Win 键 + 向左/向右）

我有一个经典的 Win32 API C 应用程序需要检测窗口是否停靠在屏幕的左右半部分问题的背景是窗口的大小仅以网格为单位假设为 32 像素在全屏模式下程序会检测到该状态允许大小与全屏匹配并填充多余的空间对于 Windows
多遍 C 预处理器 [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案应用该方法是否明智 C多次对同一代码库进行预处理具体来说依次两次例如具有如下声明 define DECLARE FILE define
IntelliJ IDEA 无法解析 import javax.servlet.*；

所以我的项目完美运行我决定安装一个新的硬盘 SSD 但现在我无法让它正常运行我正在使用 Intellij 并且所有这些导入都存在问题 import javax servlet Filter import javax servlet Fi
用运行时异常替换检查异常？

鉴于我基本上想消除检查异常的使用并将它们转换为运行时异常我通常会这样做 try file read catch IOException e throw new RuntimeException e 这样做有几个缺点但最让我恼火的是我的运
我可以将格式和路径选项传递到spark_write_table中吗？或者将 saveAsTable 与 Spark_write_orc 一起使用？

Spark 2 0 与 Hive 假设我正在尝试编写一个 Spark 数据框 irisDf to orc and将其保存到 hive 元存储在 Spark 中我会这样做 irisDf write format orc mode overw

我可以将格式和路径选项传递到spark_write_table中吗？或者将 saveAsTable 与 Spark_write_orc 一起使用？

我可以将格式和路径选项传递到spark_write_table中吗？或者将 saveAsTable 与 Spark_write_orc 一起使用？ 的相关文章

随机推荐

热门标签

我可以将格式和路径选项传递到spark_write_table中吗？或者将 saveAsTable 与 Spark_write_orc 一起使用？的相关文章