Spark中是否可以插入临时表?

2024-02-05

我使用 Databricks 和 Apache Spark 2.4 测试了以下查询:

%sql

<step1>
create temporary view temp_view_t
as select 1 as no, 'aaa' as str;

<step2>
insert into temp_view_t values (2,'bbb');

然后我收到此错误消息。

SQL 语句错误: AnalysisException:不允许插入基于 RDD 的表。;; 'InsertIntoTable 项目 [1 AS no#824,aaa AS str#825],假,假 +- LocalRelation [col1#831, col2#832]

我的问题是

  1. Spark中无法插入临时表吗?
  2. 如何在 Spark sql 中创建临时数据?

谢谢。


We can't将数据插入临时表,但我们可以用以下命令模拟插入union all (or) union(删除重复项)。

Example:

#create temp view
spark.sql("""create or replace temporary view temp_view_t as select 1 as no, 'aaa' as str""")

spark.sql("select * from temp_view_t").show()
#+---+---+
#| no|str|
#+---+---+
#|  1|aaa|
#+---+---+

#union all with the new data
spark.sql("""create or replace temporary view temp_view_t as select * from temp_view_t union all select 2 as no, 'bbb' as str""")

spark.sql("select * from temp_view_t").show()                                                                     
#+---+---+
#| no|str|
#+---+---+
#|  1|aaa|
#|  2|bbb|
#+---+---+

#to eliminate duplicates we can use union also. 
spark.sql("""create or replace temporary view temp_view_t as select * from temp_view_t union select 1 as no, 'aaa' as str""")

spark.sql("select * from temp_view_t").show()
#+---+---+
#| no|str|
#+---+---+
#|  1|aaa|
#|  2|bbb|
#+---+---+
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Spark中是否可以插入临时表? 的相关文章

  • TaskSchedulerImpl:初始作业尚未接受任何资源;

    这就是我正在尝试做的事情 我创建了DataStax企业集群的两个节点 在其上创建了一个java程序来获取一张表 Cassandra数据库表 的计数 该程序是在 eclipse 中构建的 实际上是来自 windows 盒子 从 Windows
  • 按分区“内”键进行高效分组

    我正在尝试调整一个流程来激发火花 基本上 该过程分析来自 JDBC 数据源的批量数据 每条记录都有一个batchId 还有一个更高级别的groupId 批次数量较大 提前未知 组数约为 100 RAM 中可以容纳每个批次的记录数 实际的分析
  • 参数为动态的 Spark 滞后函数

    我需要在spark中实现lag函数 我可以像下面这样做 使用 hive temp Spark 表中的一些数据 假设 DF 有这些行 lagno value 0 100 0 200 2 null 3 null 其中第一列是您要使用的实际滞后数
  • 在Spark的客户端模式下,驱动程序需要网络访问远程执行程序?

    使用火花时在客户端模式 例如yarn client 运行驱动程序的本地计算机是否直接与运行远程执行程序的集群工作节点通信 如果是 是否意味着机器 运行驱动程序 需要具有对工作节点的网络访问权限 那么master节点向集群请求资源 并将wor
  • 如何查找组中第一个非空值? (使用dataset api进行二次排序)

    我正在研究一个代表事件流的数据集 例如从网站跟踪事件时触发 所有事件都有一个时间戳 我们经常遇到的一个用例是尝试查找给定字段的第一个非空值 例如 类似的东西最能让我们到达那里 val eventsDf spark read json jso
  • 如何使用 Spark 执行插入覆盖?

    我正在尝试将我们的 ETL Hive 脚本之一转换为 Spark 其中 Hive ETL 脚本维护一个表 其中需要在每晚新同步之前删除部分数据 Hive ETL 使用插入覆盖的方式将主表删除超过 3 天的数据 基本上创建一个临时表 其中的数
  • Spark 中的广播 Annoy 对象(对于最近邻居)?

    由于 Spark 的 mllib 没有最近邻居功能 我正在尝试使用Annoy https github com spotify annoy为近似最近邻 我尝试广播 Annoy 对象并将其传递给工人 然而 它并没有按预期运行 下面是可重复性的
  • 将 Spark 数据框中的时间戳转换为日期

    我见过 这里 如何将DataFrame中的时间戳转换为日期格式 https stackoverflow com questions 40656001 how to convert timestamp to date format in da
  • 司机下令停车后 Spark 工作人员停下来

    基本上 主节点也充当从节点之一 一旦主服务器上的从服务器完成 它就会调用 SparkContext 来停止 因此该命令传播到所有从服务器 从而在处理过程中停止执行 其中一名工作人员登录时出错 信息 SparkHadoopMapRedUtil
  • 如何在 Mac 上使用 homebrew 安装 apache-spark 2.3.3

    brew install apache spark只安装最新版本的 Spark 2 4 和 brew search apache spark没有给出任何其他选项 有没有办法用自制程序安装旧版本的 Spark Type brew tap ed
  • 从 SparkSession.read() 获取“org.apache.spark.sql.AnalysisException:路径不存在”[重复]

    这个问题在这里已经有答案了 我正在尝试读取提交的文件spark submit在客户端模式下连接到yarn集群 将文件放入 HDFS 不是一个选项 这是我所做的 def main args Array String if args null
  • Spark Scala:按小时或分钟计算两列的 DateDiff

    我在数据框中有两个时间戳列 我想获取它们的分钟差异 或者小时差异 目前我可以通过四舍五入获得日差 val df2 df1 withColumn time datediff df1 ts1 df1 ts2 但是 当我查看文档页面时https
  • 无法在 SBT 中运行 Apache Spark 相关单元测试 - NoClassDefFoundError

    我有一个简单的单元测试 使用SparkContext 我可以在 IntelliJ Idea 中运行单元测试 没有任何问题 但是 当尝试从 SBT shell 运行相同的测试时 我收到以下错误 java lang NoClassDefFoun
  • 如何将模型从 ML Pipeline 保存到 S3 或 HDFS?

    我正在尝试保存 ML Pipeline 生成的数千个模型 正如答案中所示here https stackoverflow com questions 32121046 run 3000 random forest models by gro
  • 通过过滤对 Pyspark Dataframe 进行分组

    我有一个数据框如下 cust id req req met 1 r1 1 1 r2 0 1 r2 1 2 r1 1 3 r1 1 3 r2 1 4 r1 0 5 r1 1 5 r2 0 5 r1 1 我必须观察客户 看看他们有多少要求 看看
  • 过滤字符串上的 Spark DataFrame 包含

    我在用火花1 3 0 http spark apache org releases spark release 1 3 0 html and 火花阿夫罗1 0 0 https github com databricks spark avro
  • Spark日期格式问题

    我在火花日期格式中观察到奇怪的行为 实际上我需要转换日期yy to yyyy 日期转换后 日期应为 20yy 我尝试过如下 2040年后失败 import org apache spark sql functions val df Seq
  • 如何在 Apache Spark 中通过 DStream 使用特征提取

    我有通过 DStream 从 Kafka 到达的数据 我想进行特征提取以获得一些关键词 我不想等待所有数据的到达 因为它是可能永远不会结束的连续流 所以我希望以块的形式执行提取 如果准确性会受到一点影响 对我来说并不重要 到目前为止 我整理
  • Spark问题中读取大文件 - python

    我已经使用 python 在本地安装了 Spark 并在运行以下代码时 data sc textFile C Users xxxx Desktop train csv data first 我收到以下错误 Py4JJavaError Tra
  • 在 Spark MLlib 上使用 Java 中的 Breeze

    在尝试从Java使用MLlib时 使用微风矩阵运算的正确方法是什么 例如scala 中的乘法很简单 matrix vector 相应的功能在Java中是如何表达的 有一些方法 例如 colon times 可以通过正确的方式调用 breez

随机推荐

  • 如何使用服务的输入/输出动态创建组件实例并将其单独注入到 DOM 中?

    在 Angular 2 中创建动态组件时 我found https stackoverflow com questions 36325212 angular 2 dynamic tabs with user click chosen com
  • 将表单和框架添加到包中

    我正在开发一个 IDE 注册组件包 其中大部分都派生自 TFrame 基类 包中还包含这些组件调用的各种自定义对话框表单 我在 Delphi 2007 工作 我注意到 有时框架和表单单元 通常具有关联的 DFM 文件 并不总是在其下方 下方
  • WSO2 EMM:从设备管理中删除设备

    我成功将 Android 设备注册到 EMM 然后我恢复出厂设置并重新注册 现在 同一设备在我的设备管理中列出了两次 第一件事 这种行为是想要的吗 我认为应该有一个规则来检查 IMEI 并用新注册的对象替换旧对象 第二件事 如何摆脱旧对象
  • tidyverse 中多个群体的引导:rsample 与 broom

    In 这个问题 https stackoverflow com questions 42986736 bootstrapping by multiple groups in dplyr由几个小组和子小组进行引导似乎很容易使用broom bo
  • urllib 异常 http.client.BadStatusLine

    我一生都无法弄清楚为什么我不能捕获这个异常 看着这里本指南 https docs python org 3 howto urllib2 html def get team names get team id url team id prin
  • 错误 404 的默认重定向

    我想在我的 ASP net 网站中引入一项功能 每当收到对我的域中未知 URL 的请求时 用户就会被重定向到我的网站error 404 htm应用程序根目录中的页面 例如 如果请求是http www mydomain com blahbla
  • System.IO.ReadAllxxx / WriteAllxxx 方法的性能

    是否有 System IO File ReadAllxxx WriteAllxxx 方法与 Web 上提供的 StreamReader StremWriter 类的性能比较 您认为在 net 3 0 中读取 写入文本文件的最佳方式 从性能角
  • Cloud Functions 中的 Cloud Firestore

    我想将新的 Cloud Firestore 集成到我的 Cloud Functions 中 我更新了 node js 并在我的 Mac 上安装了最新的 firebase 版本 文档说 exports myFunctionName funct
  • 如何在 React 应用程序中处理 Firebase onAuthStateChanged 并相应地路由用户?

    我正在开发一个与 Firebase 集成的 React Web 应用程序 并且我正在尝试对我的用户进行身份验证 我已经设置了路线 以便在用户通过身份验证时显示主页组件 否则显示登录页面 但是 当我的应用程序首次加载时 它会显示登录页面 需要
  • 数据框的小提琴图

    我有一个data frame 例如 df data frame AAA rnorm 100 1 1 BBB rnorm 100 2 1 5 CCC rnorm 100 1 5 1 2 我想在联合小提琴图中绘制它的每个列 这是我目前所处的位置
  • 计算 sf 线串与 r 中的网格单元相交的次数

    考虑一组线串和一个多边形网格 sf 几何 library sf creating data example id lt c 844 844 844 844 844 855 855 855 855 855 lat lt c 30 6456 2
  • 大数的质因数分解

    我正在尝试找出大数因式分解的复杂性 哪种算法是最好的 查找数字质因数的复杂度是多少 假设数字的长度为n 最著名的大于 100 位整数因式分解算法是通用数域筛 http en wikipedia org wiki General number
  • VBA代码取消保护打开的powerpoint演示文稿,然后在保存之前再次保护它?

    我保护了 Power Point 演示文稿不被用户修改 但是我无法使用 VBA 取消对其的保护 我尝试使用下面的代码 但它不起作用 它仅适用于未受保护的演示文稿 但您必须从代码中删除密码 set p pa presentations ope
  • 我如何更改 DOCTYPE

    这里有人知道我如何使用 javascript 动态更改文档类型吗 我尝试过这个功能 document doctype 但它不起作用 我希望这可以帮助你们中的一些人 在控制台中测试 它改变了实际的 DOCTYPE var newDoctype
  • 文件名中可以​​使用“/”吗?

    我知道这不是应该做的事情 但是有没有办法使用通常在 Linux 中分隔文件名中的目录的斜杠字符 答案是你不能 除非你的文件系统有错误 原因如下 有一个系统调用用于重命名您定义的文件fs namei c called renameat SYS
  • 如何进行布尔异或?

    显然没有布尔版本的按位异或运算符 该怎么办 这是由不等于运算符提供的 lt gt
  • Razor 语法突出显示在带有 MVC 5 的 VS 2012 中不起作用

    我正在 Visual Studio 2013 RC 中使用 MVC 5 RC 1 效果很好 现在 我按照与描述相同的方式将 VS 2012 中现有的 MVC 4 项目升级到 MVC 5here http egypt silverkeytec
  • 大整数的 GCD 算法

    我正在研究快速 次二次 GCD 计算算法并寻找它们的任何细节 我想看看它们的实现 以便有机会更好地理解它们 Euclid GCD 和 Binary GCD 算法 具有二次运行时间 显然非常简单 我对它们没有任何问题 我正在寻找的算法是 Le
  • X-Macros 的实际使用

    我刚刚了解到X Macros http en wikibooks org wiki C Programming Preprocessor X Macros 您见过 X 宏在现实世界中的哪些用途 它们什么时候是适合这项工作的工具 几年前 当我
  • Spark中是否可以插入临时表?

    我使用 Databricks 和 Apache Spark 2 4 测试了以下查询 sql