在 Spark 上执行多个 SQL 查询

2024-03-02

我在文件 test.sql 中有一个 Spark SQL 查询 -

CREATE GLOBAL TEMPORARY VIEW VIEW_1 AS select a,b from abc

CREATE GLOBAL TEMPORARY VIEW VIEW_2 AS select a,b from VIEW_1

select * from VIEW_2

现在，我启动我的 Spark-Shell 并尝试像这样执行它 -

val sql = scala.io.Source.fromFile("test.sql").mkString
spark.sql(sql).show

此操作失败并出现以下错误 -

org.apache.spark.sql.catalyst.parser.ParseException:
mismatched input '<' expecting {<EOF>, 'GROUP', 'ORDER', 'HAVING', 'LIMIT', 'OR', 'AND', 'WINDOW', 'UNION', 'EXCEPT', 'MINUS', 'INTERSECT', 'SORT', 'CLUSTER', 'DISTRIBUTE'}(line 1, pos 128)

我尝试在不同的 Spark.sql 语句中一一执行这些查询，并且运行良好。问题是，我有 6-7 个创建临时视图的查询，最后我需要最后一个视图的输出。有没有一种方法可以让我在单个 Spark.sql 语句中运行这些 SQL。我曾研究过 Postgres SQL (Redshift)，它能够执行此类查询。在 Spark sql 中，在这种情况下我将不得不维护很多文件。

问题是mkString将所有行连接到一个字符串中，该字符串无法正确解析为有效的 SQL 查询。

脚本文件中的每一行都应作为单独的查询执行，例如：

scala.io.Source.fromFile("test.sql").getLines()
  .filterNot(_.isEmpty)  // filter out empty lines
  .foreach(query =>
    spark.sql(query).show
  )

Update

如果查询被拆分为多行，则情况会稍微复杂一些。

我们绝对需要一个标记查询结束的标记。让它成为分号字符，就像标准 SQL 中一样。

首先，我们从源文件中收集所有非空行：

val lines = scala.io.Source.fromFile(sqlFile).getLines().filterNot(_.isEmpty)

然后我们处理收集到的行，将每个新行与前一行连接起来（如果它不以分号结尾）：

val queries = lines.foldLeft(List[String]()) { case(queries, line) =>
  queries match {
    case Nil => List(line) // case for the very first line
    case init :+ last =>
      if (last.endsWith(";")) {
        // if a query ended on a previous line, we simply append the new line to the list of queries
        queries :+ line.trim
      } else {
        // the query is not terminated yet, concatenate the line with the previous one
        val queryWithNextLine = last + " " + line.trim
        init :+ queryWithNextLine
      }
  }
}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

apachespark

apachesparksql

在 Spark 上执行多个 SQL 查询的相关文章

在 Spark 结构化流 2.3.0 中连接两个流时，左外连接不发出空值

两个流上的左外连接不发出空输出它只是等待记录添加到另一个流中使用套接字流来测试这一点在我们的例子中我们想要发出具有 null 值的记录这些记录与 id 不匹配或且不属于时间范围条件水印和间隔的详细信息如下 val ds1Map
如何执行仅匹配正则表达式的测试？

在 sbt 0 10 1 中我经常使用test only缩小我的测试数量 sbt gt test only com example MySpec 但是我想缩小范围以便只运行名称描述与正则表达式匹配的测试是否有一些语法可以实现这样的
获取SettingKey[T]的值

我正在开发一个用于文档生成的插件我想将所有生成的文件输出到我选择的目录中该目录可以是SBT的子目录target目录如下 val newTargetDirectory SettingKey File document target di
XML 创建 - 错误：带有替代方案的重载方法构造函数 UnprefixedAttribute

scala gt val count 7 count Int 7 将其放入 XML 属性中会出现错误 scala gt val x
Akka-Http 2.4.9 抛出 java.lang.NoClassDefFoundError: akka/actor/ActorRefFactory 异常

我正在尝试使用 Akka http 构建一个简单的 Web 服务我遵循了这个指南 http doc akka io docs akka 2 4 9 scala http low level server side api html htt
Spark 在 WholeTextFiles 上创建的分区少于 minPartitions 参数

我有一个文件夹里面有 14 个文件我在一个集群上使用 10 个执行器运行 Spark Submit 该集群的资源管理器为 YARN 我创建了我的第一个 RDD 如下所示 JavaPairRDD
使用 Shapeless 记录组合任意数量的状态更改函数

我正在尝试移植combineReducers从 Redux 到 Scala 这个想法是每个函数控制它的一小部分状态并且combineReducers创建一个控制整个状态的函数我无法找出应该像这样工作的函数所需的签名 sealed trai
scala 返回列表中的第一个 Some

我有一个清单l List T1 目前我正在执行以下操作 myfun T1 gt Option T2 val x Option T2 l map myfun l flatten find gt true The myfun函数返回 None
从 PySpark RDD 中的每个组中取出前 N 个元素（不使用 groupByKey）

我有一个如下所示的 RDD dataSource sc parallelize user1 3 blue user1 4 black user2 5 white user2 3 black user2 6 red user1 1 red 我
如何关闭 Scala 中因方法重载而导致代码无法编译的特定隐式？

我正忙着尝试自己回答这个问题 Scala Play 2 4 x 通过 anorm MySQL 处理扩展字符到 Java Mail https stackoverflow com questions 31417718 scala play 2
Scala 中的随机列表[重复]

这个问题在这里已经有答案了我对 scala 中的随机播放列表有疑问使用scala util Random 例如我有 val a cyan val b magenta val c yellow val d key val color Ra
使用 scalapb 在 Spark Streaming 中解码 Proto Buf 消息时出错

这是一个 Spark Streaming 应用程序它使用编码的 Kafka 消息Proto Buf Using scalapb图书馆我收到以下错误请帮忙 gt com google protobuf InvalidProtocolBu
Spark：查找前 n 个值的高性能方法

我有一个很大的数据集我想找到具有 n 个最高值的行 id count id1 10 id2 15 id3 5 我能想到的唯一方法是使用row number没有分区就像 val window Window orderBy desc coun
在 scala 宏中使用 LabelDef (2.10)

我正在尝试 scala 2 10 宏功能我使用时遇到问题LabelDef但在某些情况下在某种程度上我偷看了编译器的代码阅读了摘录米格尔加西亚的论文 http lampwww epfl ch magarcia但我还是卡住了如果我的
如何通过删除 Scala 中的一个元素来从列表中获取所有可能的子列表？

我有一个清单List 1 2 3 4 并希望通过删除一个元素来获得所有子列表 List 2 3 4 List 1 3 4 List 1 2 4 List 1 2 3 做到这一点最简单的方法是什么如果你的意思是离开每个position在列
如何使用 Scala 从 Spark 更新 ORC Hive 表

我想更新 orc 格式的 hive 表我可以从 ambari hive 视图进行更新但无法从 sacla spark shell 运行相同的更新语句 objHiveContext sql select from table name 能
过滤器的 Scala 集合类型

假设您有一个 List 1 1 其类型为 List Any 这当然是正确的且符合预期现在如果我像这样映射列表 scala gt List 1 1 map case x Int gt x case y String gt y toInt 结
我可以在没有 Hadoop 的情况下使用 Spark 作为开发环境吗？

我对大数据和相关领域的概念非常陌生如果我犯了一些错误或拼写错误我很抱歉我想了解阿帕奇火花 http spark apache org 并使用它仅在我的电脑中在开发测试环境中由于Hadoop包含HDFS Hadoop分布式文件系统
InvalidRequestException（为什么：empid 如果包含 Equal，则不能被多个关系限制）

这是关于我从 Apache Spark 查询 Cassandra 时遇到的问题 Spark 的正常查询工作正常没有任何问题但是当我使用关键条件进行查询时出现以下错误最初我尝试查询复合键列族它也给出了与下面相同的问题由以下原因引
你能在 scala 中使用 varargs 柯里化一个函数吗？

我正在考虑如何用可变参数柯里化一种方法然后我意识到我什至不知道如何去做理想情况下它应该让您可以随时开始使用它然后以可迭代结束 def concat strs String strs mkString val curriedConca

随机推荐

无法检测adb版本，退出值：0xc0000135

我使用的android studio最新版本 HEXM 已安装在我的电脑中 android虚拟设备未创建其显示未知问题好的所以我使用 genymotion 模拟器但 android studio 没有检测到它无法检测adb版本退出
标题中单个单词的颜色与组的颜色相匹配

我最近在经济学人上看到了一张折线图其中标题包含彩色单词以匹配折线图中使用的组的颜色 https www economist com blogs graphicdetail 2018 04 daily chart 1 我想知道如何使用
Golang SQL 查询变量替换

我有 sql 查询需要变量替换才能更好地消耗我的go kit https github com go kit kit服务 I have dep org作为我的休息服务一部分的用户输入例如 dep abc and org def 我尝试过一
“未捕获的引用错误：JQueryValidatorUI 未定义”？

使用 jquery validation ui 插件时未捕获的 ReferenceError JQueryValidatorUI 未定义也未捕获类型错误对象对象对象没有方法验证这是我的脚本顺序
如何在JUNG中添加具有相同标签（但端点不同）的两条边？

如何添加具有相同标签但端点不同的两条边例如我想添加两条具有相同标签 label1 的边一条从顶点 v 1 到顶点 v 2 另一条从顶点 v 2 到 v 3 部分代码是 g addEdge label1 v 1 v 2 g addEdg
如何将 javascript 对象发送到远程 CFC 组件

我创建了一个 javascript 对象 var spanglist one q1 two q2 three q3 four q4 我创建 ajax jquery 对象以将数据发送到 CFC ajax url gridly componen
Angularjs：ReferenceError：范围未定义

我是 Angularjs 的初学者在理解模块和范围方面有一些困难我不断收到范围未定义的错误但我不明白为什么首先我将控制器链接到设置路线的位置但由于控制器内的函数是在提交按钮上调用的因此单击我将其拿走我试过把它放回去但这没有
pytest从不同的测试文件独立导入相同的模块

以下主题模块包含两个函数其中之一操作全局变量 mod py def global setter global x x 123 print setter x x def global getter print getter x x 每个功能
如何在magento的成功页面中动态集成JS代码

我知道 success phtml 是我应该放置我想要执行的代码的文件但是我从 CJ 收到这个文件它不是 html 而是一个 php 类问题很简单我想知道如何在收到订单后将此文件集成到 success phtml 中谢谢 clas
np.ndarray`“is”中的奇怪行为

is 内置运算符显示元素的奇怪行为np ndarray 尽管右侧和左侧的 id 相同但 is 运算符返回 False 此行为特定于np ndarray a np array 1 b a view print id a 0 id b 0 T
postgres 使用 join 更新

我正在尝试使用 ht 中的数据更新表 tr 两者都有几乎相同的列所以为了测试我运行了这个查询 SELECT FROM tr a RIGHT OUTER JOIN ht b USING date name ft WHERE ft IS NO
判断设备是否有触摸屏

我的应用程序可以在标准手机上运行但它也可以在 Android 播放器上运行我通过 HDMI 将其连接到电视并使用鼠标进行导航有没有办法以编程方式确定设备是否支持触摸屏以便我可以区分两种导航方式 I tried this http d
从项目 azure devops REST API 获取所有工作项

我正在使用 Azure Devops API 通过 AWS Lambda node js 创建通知机器人此时我需要检查每个任务工作项是否附加到父用户故事第一步是获取给定项目上的所有任务工作项对于这一步我正在阅读 azure d
最坏情况时间复杂度分析伪代码

有人可以帮我分析这个伪代码的时间复杂度吗我正在寻找最坏情况的复杂度但我无法弄清楚它是 O n 4 O n 5 还是完全其他的东西如果您能详细说明您是如何解决这个问题的我们将不胜感激 sum 0 for i 1 to n do for
在构造函数中创建一个指针，指向 C++ 中类的实例

我对这些 C 指针有点困惑我想知道是否可以在构造函数内创建一个指向类实例的指针以下行中的内容 class Room public Room Room private Room ptrToSelf Room Room ptrToSelf
zeppelin hive 解释器抛出 ClassNotFoundException

我已经部署了zeppelin 0 6并在Jdbc解释器下配置了hive 尝试执行 hive show databases Throws org apache hive jdbc HiveDriver 类 java lang ClassNot
如何访问封装在类中的未命名“枚举类”？

class A public enum class HELLO WORLD 众所周知在一个class 声明一个简单的enum 而不是enum class 是一个更好的主意因为它已经用class鉴别但上面的说法仍然是有效的C 0x签名
将字符串写入文本文件

我正在将日志保存到 SD 卡上的 txt 文件中但是一旦保存了两行它就会覆盖它并重新开始这是我的代码 public static String getTimestamp try SimpleDateFormat dateFormat
从Python中的一行中提取特定的子字符串

我有一个包含多行格式的文件格式如下 DIV ID 0X78800009 EXT LOS ANGELES TY STANDARD OWN 0X74400002 ABBR LA 我需要提取 EXT 值但只提取引号中的部分我目前正在使用这个
在 Spark 上执行多个 SQL 查询

我在文件 test sql 中有一个 Spark SQL 查询 CREATE GLOBAL TEMPORARY VIEW VIEW 1 AS select a b from abc CREATE GLOBAL TEMPORARY VIEW

在 Spark 上执行多个 SQL 查询

Update

在 Spark 上执行多个 SQL 查询 的相关文章

随机推荐

热门标签

在 Spark 上执行多个 SQL 查询的相关文章