如何将Spark DataFrame插入Hive内表?

2024-06-24

以追加模式将 DF 插入 Hive 内部表的正确方法是什么?看来我们可以使用“saveAsTable”方法直接将 DF 写入 Hive 或将 DF 存储到临时表然后使用查询。

df.write().mode("append").saveAsTable("tableName")

OR

df.registerTempTable("temptable") 
sqlContext.sql("CREATE TABLE IF NOT EXISTS mytable as select * from temptable")

第二种方法会追加记录还是覆盖它?

还有其他方法可以有效地将 DF 写入 Hive 内部表吗?


这里的两个选项都不适合我/自从写完答案后可能已经贬值了。

据最新消息火花 API 文档 https://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.DataFrameWriter(对于 Spark 2.1),它使用insertInto()方法从DataFrameWriterclass

我正在使用Python PySpark API http://spark.apache.org/docs/2.1.0/api/python/pyspark.sql.html#pyspark.sql.DataFrameWriter但在 Scala 中也是一样的:

df.write.insertInto(target_db.target_table,overwrite = False)

以上对我有用。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

如何将Spark DataFrame插入Hive内表? 的相关文章

  • 使用 Akka 将文件从服务器流式传输到客户端

    基本上我想允许用户从服务器下载 csv 文件 假设服务器上已存在 CSV 文件 API 端点通过 GET export 公开 如何将文件从 Akka HTTP 服务器流式传输到客户端 这就是我到目前为止所拥有的 Service def ex
  • 生成 k 个成对独立的哈希函数

    我正在尝试实施一个计数最小草图 http en wikipedia org wiki Count Min sketchScala中的算法 所以我需要生成k个成对独立的哈希函数 这是一个比我以前编写过的任何东西都低的级别 除了算法类之外 我对
  • 方法返回类型的类型推断

    当存在显式方法时 为什么 Scala 无法推断方法的返回类型return方法中使用的语句 例如 为什么下面的代码可以编译 object Main def who 5 def main args Array String println wh
  • Scala 修饰符和类型参数化

    我正在创建一个记忆类 每个类都会记忆一个函数类型并具有以下定义 class MemoizedFunction1 T1 R f T1 gt R private this val cache mutable Map T1 R def apply
  • 抽象类型与类型参数

    在什么情况下抽象类型应该优先于类型参数 添加到我的之前关于抽象类型与参数的回答 https stackoverflow com questions 1154571 scala abstract types vs generics 11547
  • Hive 中的 CASE 语句

    好的 我有以下代码来用二进制标志标记表中具有最高 Month cd 的记录 Select t1 month cd t2 max month cd CASE WHEN t2 max month cd null then 0 else 1 en
  • 如何在不进行硬编码的情况下使用 Cake 模式进行依赖注入?

    我刚刚阅读并享受蛋糕图案文章 http jonasboner com real world scala dependency injection di 然而 在我看来 使用依赖项注入的关键原因之一是您可以改变 XML 文件或命令行参数所使用
  • mssql 的 UUID 疯狂

    我的数据库条目有一个 UUID 及其值 使用 Microsoft SQL Server Management Studio 提取 CDF86F27 AFF4 2E47 BABB 2F46B079E98B 将其加载到我的 Scala 应用程序
  • Spark中DataFrame、Dataset、RDD的区别

    我只是想知道有什么区别RDD and DataFrame Spark 2 0 0 DataFrame 只是一个类型别名Dataset Row 在阿帕奇火花 你能将其中一种转换为另一种吗 首先是DataFrame是从SchemaRDD 是的
  • 仅当要转换的函数至少有两个参数时,函数到二阶函数的隐式转换才有效

    我有隐式转换和高阶函数的问题 似乎只有当要转换的函数至少有两个参数时 函数到二阶函数的隐式转换才有效 Works implicit def conv foo Integer gt String String gt String null 不
  • 使用新的反射API,如何找到类的主构造函数?

    您可以像这样获取类的所有构造函数 import scala reflect runtime universe val ctor typeOf SomeClass declaration nme CONSTRUCTOR asTerm alte
  • Hive 错误:parseException 缺少 EOF

    我不确定我在这里做错了什么 hive gt CREATE TABLE default testtbl int1 INT string1 STRING stored as orc tblproperties orc compress NONE
  • java.lang.RuntimeException:不支持的文字类型类org.joda.time.DateTime

    我在一个使用库的项目中工作 这对我来说非常新 尽管我在其他项目中使用它 没有任何问题 org joda time DateTime 所以我和Scala 并将项目作为作业运行数据块 scala版本 2 11 12 根据我到目前为止的调查 异常
  • 在 Spark 中访问数组列

    Spark DataFrame 包含类型为 Array Double 的列 当我尝试将其返回到 map 函数时 它会抛出 ClassCastException 异常 以下 Scala 代码生成异常 case class Dummy x Ar
  • IntelliJ、Akka 和配置文件

    使用时akka http akka io 我放置akka conf in src main resources 当我run通过 sbt akka conf被正确识别 但当我运行 IntelliJ 时却没有 即使在gen idea 实现这一目
  • 将 Seq 与 Range 进行模式匹配

    考虑一段代码 def foo xs Seq Int xs match case Nil gt empty list case head Nil gt one element list case head tail gt s head is
  • Scala 中表达式和语句有什么区别

    我是 Scala 世界的新手 想知道表达式和语句之间有什么区别 以及为什么 if else 用于表达式 而不是语句 是否有办法在 if else 中使用语句 EDIT 正如 J rg W Mittag 在评论中指出的 这个答案实际上是错误的
  • 如何创建独立的电梯 Web 应用程序?

    如何制作独立的电梯应用程序 使用哪些工具 库 与在某些应用程序服务器中使用 lift 应用程序作为战争相比 性能如何 使用 onejar maven 插件http onejar maven plugin googlecode com svn
  • sbt:未经授权发布到公司 Nexus 存储库

    快速解决 所需的凭证需要连接所定义的确切领域 请参阅下面如何找到您定义的那个 但最肯定的是 Sonatype Nexus Repository Manager 像平常一样将其余详细信息添加到凭据中 c data user sbt crede
  • 如何使用 flex/bison 解析 Scala 语法中的新行?

    我想用flex和bison解析Scala语法 但我不知道如何解析 Scala 语法中的换行符 如果我将换行符解析为令牌T NL 这是Toy l例如 a zA Z a zA Z0 9 yylval gt literal strdup yy t

随机推荐

  • SSL 与 WinHTTP

    我用 winhttp 创建了一个简单的 Web 服务器 它只有一个客户端 一个网站 在我启用 SSL 之前它工作得很好 我没有收到任何错误 并且一切似乎都正常 但网站在尝试连接时收到错误代码 104 并且我在服务器中没有看到任何活动 该网站
  • 在 AppDelegate Swift 中获取本地通知的正文文本或标识符

    每当应用程序收到操作响应时 我想访问 AppDelegate swift 中的应用程序数据 我试图使用 func userNotificationCenter center UNUserNotificationCenter didRecei
  • 如果订单状态为“暂停”,则禁用 WooCommerce 新订单电子邮件通知 [关闭]

    Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案 当订单状态为 暂停 时 是否有办法禁用发送给管理员的 新订单 电子邮件通知 或者仅将其启用为 处理 状态 我还尝试了不同的方法 仅在状态为
  • C# (.Net) 的面向方面编程 (AOP) 解决方案及其功能 [关闭]

    很难说出这里问的是什么 这个问题是含糊的 模糊的 不完整的 过于宽泛的或修辞性的 无法以目前的形式得到合理的回答 如需帮助澄清此问题以便重新打开 访问帮助中心 help reopen questions 我想在这里询问3个信息 有无集成解决
  • 我如何为网站创建安装程序。 PHP mysql [关闭]

    很难说出这里问的是什么 这个问题是含糊的 模糊的 不完整的 过于宽泛的或修辞性的 无法以目前的形式得到合理的回答 如需帮助澄清此问题以便重新打开 访问帮助中心 help reopen questions 我有一个制作的网站 我需要知道如何为
  • 如何使用 Perl 将连接数据线转换为方案块?

    我正在寻找一种将信号连接转换为简单方案或图表的方法 假设我有 2 个组件 周围有 2 条线路 信号 component A input S1 output S2 component B input S2 output S1 这将是输入数据文
  • Angular 2 bootstrap 函数给出错误“参数类型 AppComponent 无法分配给参数类型 Type”

    这是我的第一个简单的Hello World角度 2 应用程序来自Angular 2 快速入门指南 https angular io docs ts latest quickstart html import Component from a
  • 将数组初始化为空白自定义类型 OCAML

    我设置了自定义数据类型 type vector a float b float 我想初始化一个向量类型的数组 但不包含任何内容 只是一个长度为 x 的空数组 下列 let vecarr Array create max seq length
  • 递归地将整个文件夹添加到存储库

    我正在尝试向 GitHub 上的 master 分支添加一个分支 并将一个文件夹推送到该分支上 分支的文件夹结构如下所示 Social App Source Code Dev Trunk Social App 以及所有源代码文件都在最后一个
  • 在保存到 Rails 之前将输入转换为整数

    我有一组代表用户生日的选择输入 出生年份 出生月份和生日 我想像这样验证出生年份 validates inclusion of birthyear in gt Date today year 50 Date today year 12 因此
  • 如何使用 Apache Hello World 将最新 (2020) Django 安装到 AWS EC2 Linux 2 实例和服务器

    我缺少什么 这是我第一次尝试使用 Django Django 中内置的服务器可以在本地很好地提供该文件 但我无法让 Apache 执行相同的操作 以下是我在一个全新的 干净的 Linux 2 实例上所做的事情 sudo yum update
  • karma.conf.js 未捕获引用错误:谷歌未定义

    当我尝试运行 karma 测试运行程序时 我从我的一个文件中收到如下错误 说我的库 google 未定义 Chrome 36 0 1985 Mac OS X 10 9 4 ERROR Uncaught ReferenceError goog
  • 从 PHP 连接到安全 FTP 服务器

    这个问题符合这个问题 https stackoverflow com questions 2170720 secure ftp connection using php 我正在尝试连接到安全的 FTP 服务器 但它无法连接 奇怪的是我能够执
  • 第二次触摸动画

    尝试掌握 Xcode 并且在过去几周似乎取得了一些进展 有谁知道自定义按钮可以在第二次单击时执行一组不同的动画的方法 假设我有一个自定义按钮 它是马里奥的 当我单击它时 他从屏幕中间跑出屏幕右侧 然后从屏幕左侧跑回中间 他也会发出噪音 我使
  • 警告:不要将 Android 上下文类放置在静态字段中;这是内存泄漏(也会破坏即时运行)

    安卓工作室 不要将 Android 上下文类放置在静态字段中 这是一个 内存泄漏 并且还会破坏即时运行 所以有2个问题 1 你如何称呼startService来自没有上下文静态变量的静态方法 2 如何从静态方法发送 localBroadca
  • 创建一个引用计数的图形

    看来在 matplotlib 中创建图形的标准方法并不像我在 python 中期望的那样 默认调用fig matplotlib figure in a 循环将保留创建的所有图形 并最终耗尽内存 有quite https stackoverf
  • python 将句子标记为单词

    我想从不同的句子中提取信息 所以我使用 nltk 将每个句子划分为单词 我使用以下代码 words for i in range len sentences words append nltk word tokenize sentences
  • iOS上使用NSURLProtocol实现AVPlayer边下载边播放

    我正在尝试在我的服务器上播放 mp4 视频 并且我想同时将该视频缓存到磁盘 我知道我可以只使用 2 个请求来执行此操作 一个用于下载 另一个由 AVPlayer 创建的用于播放视频 但这会浪费网络带宽 因此 我只需要使用一个外部请求来下载数
  • 如何在主屏幕上设置 Fire TV“图标”?

    我有一个 Fire TV 应用程序 该应用程序也将在普通 Android TV 上发布 以及一些搭载 Android 非 Android TV 的电视 也可能在平板电脑上发布 因此 我为 Android TV 设置了横幅 并且工作正常 该图
  • 如何将Spark DataFrame插入Hive内表?

    以追加模式将 DF 插入 Hive 内部表的正确方法是什么 看来我们可以使用 saveAsTable 方法直接将 DF 写入 Hive 或将 DF 存储到临时表然后使用查询 df write mode append saveAsTable