如何将Spark DataFrame插入Hive内表？

2024-06-24

以追加模式将 DF 插入 Hive 内部表的正确方法是什么？看来我们可以使用“saveAsTable”方法直接将 DF 写入 Hive 或将 DF 存储到临时表然后使用查询。

df.write().mode("append").saveAsTable("tableName")

df.registerTempTable("temptable") 
sqlContext.sql("CREATE TABLE IF NOT EXISTS mytable as select * from temptable")

第二种方法会追加记录还是覆盖它？

还有其他方法可以有效地将 DF 写入 Hive 内部表吗？

这里的两个选项都不适合我/自从写完答案后可能已经贬值了。

据最新消息火花 API 文档 https://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.DataFrameWriter（对于 Spark 2.1），它使用insertInto()方法从DataFrameWriterclass

我正在使用Python PySpark API http://spark.apache.org/docs/2.1.0/api/python/pyspark.sql.html#pyspark.sql.DataFrameWriter但在 Scala 中也是一样的：

df.write.insertInto(target_db.target_table,overwrite = False)

以上对我有用。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

hive

apachesparksql

如何将Spark DataFrame插入Hive内表？的相关文章

使用 Akka 将文件从服务器流式传输到客户端

基本上我想允许用户从服务器下载 csv 文件假设服务器上已存在 CSV 文件 API 端点通过 GET export 公开如何将文件从 Akka HTTP 服务器流式传输到客户端这就是我到目前为止所拥有的 Service def ex
生成 k 个成对独立的哈希函数

我正在尝试实施一个计数最小草图 http en wikipedia org wiki Count Min sketchScala中的算法所以我需要生成k个成对独立的哈希函数这是一个比我以前编写过的任何东西都低的级别除了算法类之外我对
方法返回类型的类型推断

当存在显式方法时为什么 Scala 无法推断方法的返回类型return方法中使用的语句例如为什么下面的代码可以编译 object Main def who 5 def main args Array String println wh
Scala 修饰符和类型参数化

我正在创建一个记忆类每个类都会记忆一个函数类型并具有以下定义 class MemoizedFunction1 T1 R f T1 gt R private this val cache mutable Map T1 R def apply
抽象类型与类型参数

在什么情况下抽象类型应该优先于类型参数添加到我的之前关于抽象类型与参数的回答 https stackoverflow com questions 1154571 scala abstract types vs generics 11547
Hive 中的 CASE 语句

好的我有以下代码来用二进制标志标记表中具有最高 Month cd 的记录 Select t1 month cd t2 max month cd CASE WHEN t2 max month cd null then 0 else 1 en
如何在不进行硬编码的情况下使用 Cake 模式进行依赖注入？

我刚刚阅读并享受蛋糕图案文章 http jonasboner com real world scala dependency injection di 然而在我看来使用依赖项注入的关键原因之一是您可以改变 XML 文件或命令行参数所使用
mssql 的 UUID 疯狂

我的数据库条目有一个 UUID 及其值使用 Microsoft SQL Server Management Studio 提取 CDF86F27 AFF4 2E47 BABB 2F46B079E98B 将其加载到我的 Scala 应用程序
Spark中DataFrame、Dataset、RDD的区别

我只是想知道有什么区别RDD and DataFrame Spark 2 0 0 DataFrame 只是一个类型别名Dataset Row 在阿帕奇火花你能将其中一种转换为另一种吗首先是DataFrame是从SchemaRDD 是的
仅当要转换的函数至少有两个参数时，函数到二阶函数的隐式转换才有效

我有隐式转换和高阶函数的问题似乎只有当要转换的函数至少有两个参数时函数到二阶函数的隐式转换才有效 Works implicit def conv foo Integer gt String String gt String null 不
使用新的反射API，如何找到类的主构造函数？

您可以像这样获取类的所有构造函数 import scala reflect runtime universe val ctor typeOf SomeClass declaration nme CONSTRUCTOR asTerm alte
Hive 错误：parseException 缺少 EOF

我不确定我在这里做错了什么 hive gt CREATE TABLE default testtbl int1 INT string1 STRING stored as orc tblproperties orc compress NONE
java.lang.RuntimeException：不支持的文字类型类org.joda.time.DateTime

我在一个使用库的项目中工作这对我来说非常新尽管我在其他项目中使用它没有任何问题 org joda time DateTime 所以我和Scala 并将项目作为作业运行数据块 scala版本 2 11 12 根据我到目前为止的调查异常
在 Spark 中访问数组列

Spark DataFrame 包含类型为 Array Double 的列当我尝试将其返回到 map 函数时它会抛出 ClassCastException 异常以下 Scala 代码生成异常 case class Dummy x Ar
IntelliJ、Akka 和配置文件

使用时akka http akka io 我放置akka conf in src main resources 当我run通过 sbt akka conf被正确识别但当我运行 IntelliJ 时却没有即使在gen idea 实现这一目
将 Seq 与 Range 进行模式匹配

考虑一段代码 def foo xs Seq Int xs match case Nil gt empty list case head Nil gt one element list case head tail gt s head is
Scala 中表达式和语句有什么区别

我是 Scala 世界的新手想知道表达式和语句之间有什么区别以及为什么 if else 用于表达式而不是语句是否有办法在 if else 中使用语句 EDIT 正如 J rg W Mittag 在评论中指出的这个答案实际上是错误的
如何创建独立的电梯 Web 应用程序？

如何制作独立的电梯应用程序使用哪些工具库与在某些应用程序服务器中使用 lift 应用程序作为战争相比性能如何使用 onejar maven 插件http onejar maven plugin googlecode com svn
sbt：未经授权发布到公司 Nexus 存储库

快速解决所需的凭证需要连接所定义的确切领域请参阅下面如何找到您定义的那个但最肯定的是 Sonatype Nexus Repository Manager 像平常一样将其余详细信息添加到凭据中 c data user sbt crede
如何使用 flex/bison 解析 Scala 语法中的新行？

我想用flex和bison解析Scala语法但我不知道如何解析 Scala 语法中的换行符如果我将换行符解析为令牌T NL 这是Toy l例如 a zA Z a zA Z0 9 yylval gt literal strdup yy t

随机推荐

SSL 与 WinHTTP

我用 winhttp 创建了一个简单的 Web 服务器它只有一个客户端一个网站在我启用 SSL 之前它工作得很好我没有收到任何错误并且一切似乎都正常但网站在尝试连接时收到错误代码 104 并且我在服务器中没有看到任何活动该网站
在 AppDelegate Swift 中获取本地通知的正文文本或标识符

每当应用程序收到操作响应时我想访问 AppDelegate swift 中的应用程序数据我试图使用 func userNotificationCenter center UNUserNotificationCenter didRecei
如果订单状态为“暂停”，则禁用 WooCommerce 新订单电子邮件通知 [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案当订单状态为暂停时是否有办法禁用发送给管理员的新订单电子邮件通知或者仅将其启用为处理状态我还尝试了不同的方法仅在状态为
C# (.Net) 的面向方面编程 (AOP) 解决方案及其功能 [关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 我想在这里询问3个信息有无集成解决
我如何为网站创建安装程序。 PHP mysql [关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 我有一个制作的网站我需要知道如何为
如何使用 Perl 将连接数据线转换为方案块？

我正在寻找一种将信号连接转换为简单方案或图表的方法假设我有 2 个组件周围有 2 条线路信号 component A input S1 output S2 component B input S2 output S1 这将是输入数据文
Angular 2 bootstrap 函数给出错误“参数类型 AppComponent 无法分配给参数类型 Type”

这是我的第一个简单的Hello World角度 2 应用程序来自Angular 2 快速入门指南 https angular io docs ts latest quickstart html import Component from a
将数组初始化为空白自定义类型 OCAML

我设置了自定义数据类型 type vector a float b float 我想初始化一个向量类型的数组但不包含任何内容只是一个长度为 x 的空数组下列 let vecarr Array create max seq length
递归地将整个文件夹添加到存储库

我正在尝试向 GitHub 上的 master 分支添加一个分支并将一个文件夹推送到该分支上分支的文件夹结构如下所示 Social App Source Code Dev Trunk Social App 以及所有源代码文件都在最后一个
在保存到 Rails 之前将输入转换为整数

我有一组代表用户生日的选择输入出生年份出生月份和生日我想像这样验证出生年份 validates inclusion of birthyear in gt Date today year 50 Date today year 12 因此
如何使用 Apache Hello World 将最新 (2020) Django 安装到 AWS EC2 Linux 2 实例和服务器

我缺少什么这是我第一次尝试使用 Django Django 中内置的服务器可以在本地很好地提供该文件但我无法让 Apache 执行相同的操作以下是我在一个全新的干净的 Linux 2 实例上所做的事情 sudo yum update
karma.conf.js 未捕获引用错误：谷歌未定义

当我尝试运行 karma 测试运行程序时我从我的一个文件中收到如下错误说我的库 google 未定义 Chrome 36 0 1985 Mac OS X 10 9 4 ERROR Uncaught ReferenceError goog
从 PHP 连接到安全 FTP 服务器

这个问题符合这个问题 https stackoverflow com questions 2170720 secure ftp connection using php 我正在尝试连接到安全的 FTP 服务器但它无法连接奇怪的是我能够执
第二次触摸动画

尝试掌握 Xcode 并且在过去几周似乎取得了一些进展有谁知道自定义按钮可以在第二次单击时执行一组不同的动画的方法假设我有一个自定义按钮它是马里奥的当我单击它时他从屏幕中间跑出屏幕右侧然后从屏幕左侧跑回中间他也会发出噪音我使
警告：不要将 Android 上下文类放置在静态字段中；这是内存泄漏（也会破坏即时运行）

安卓工作室不要将 Android 上下文类放置在静态字段中这是一个内存泄漏并且还会破坏即时运行所以有2个问题 1 你如何称呼startService来自没有上下文静态变量的静态方法 2 如何从静态方法发送 localBroadca
创建一个引用计数的图形

看来在 matplotlib 中创建图形的标准方法并不像我在 python 中期望的那样默认调用fig matplotlib figure in a 循环将保留创建的所有图形并最终耗尽内存有quite https stackoverf
python 将句子标记为单词

我想从不同的句子中提取信息所以我使用 nltk 将每个句子划分为单词我使用以下代码 words for i in range len sentences words append nltk word tokenize sentences
iOS上使用NSURLProtocol实现AVPlayer边下载边播放

我正在尝试在我的服务器上播放 mp4 视频并且我想同时将该视频缓存到磁盘我知道我可以只使用 2 个请求来执行此操作一个用于下载另一个由 AVPlayer 创建的用于播放视频但这会浪费网络带宽因此我只需要使用一个外部请求来下载数
如何在主屏幕上设置 Fire TV“图标”？

我有一个 Fire TV 应用程序该应用程序也将在普通 Android TV 上发布以及一些搭载 Android 非 Android TV 的电视也可能在平板电脑上发布因此我为 Android TV 设置了横幅并且工作正常该图
如何将Spark DataFrame插入Hive内表？

以追加模式将 DF 插入 Hive 内部表的正确方法是什么看来我们可以使用 saveAsTable 方法直接将 DF 写入 Hive 或将 DF 存储到临时表然后使用查询 df write mode append saveAsTable

如何将Spark DataFrame插入Hive内表？

如何将Spark DataFrame插入Hive内表？ 的相关文章

随机推荐

热门标签

如何将Spark DataFrame插入Hive内表？的相关文章