Cloudera JDBC Driver for Impala 的WITH 子句问题 - 返回列名称而不是实际数据

2023-12-06

我正在使用 Cloudera JDBC Driver for Impala v 2.5.38 和 Spark 1.6.0 来创建 DataFrame。它适用于除WITH子句之外的所有查询，但WITH在我的组织中广泛使用。下面是我的代码片段。

def jdbcHDFS(url:String,sql: String):DataFrame = {
  var rddDF: DataFrame = null
  val jdbcURL = s"jdbc:impala://$url"
  val connectionProperties = new java.util.Properties
  connectionProperties.setProperty("driver","com.cloudera.impala.jdbc41.Driver")
  rddDF = sqlContext.read.jdbc(jdbcURL, s"($sql) AS ST", connectionProperties)
  rddDF
}

下面给出了工作和非工作 SQL 的示例

val workingSQL = "select empname from (select * from employee) as tmp"
val nonWorkingSQL = "WITH tmp as (select * from employee) select empname from tmp"

以下是上述 SQL 的 rddDF.first 的输出。

对于工作SQL

scala> rddDF.first
res8: org.apache.spark.sql.Row = [Kushal]

对于非工作 SQL

scala> rddDF.first
res8: org.apache.spark.sql.Row = [empname] //Here we are expecting actual data ie. 'Kushal' instead of column name like the output of previous query.

如果有人能提出任何解决方案，那将非常有帮助。

请注意：这两个查询在 IMPALA-SHELL 以及通过 HUE 的 HIVE 中都运行良好。

更新：我尝试设置普通 JDBC 连接并执行 nonWorkingSQL，它成功了！然后我认为问题是由于 Spark 在查询周围包装了“SELECT * FROM ()”，因此我尝试使用下面的 SQL 来查找根本原因，但它仍然有效并显示了预期结果。

String sql  = "SELECT * FROM (WITH tmp as (select * from employee) select empname from tmp) AS ST"

因此，根本原因尚不清楚，需要进行分析，以便它也适用于 SPARK。请进一步建议。

None

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop

apachespark

JDBC

Cloudera

impala

Cloudera JDBC Driver for Impala 的WITH 子句问题 - 返回列名称而不是实际数据的相关文章

使用 jdbc 程序连接到 Open Office odb 文件

我编写了以下代码来连接到 OpenOffice db String db C Documents and Settings hkonakanchi Desktop Test odb Class forName org hsqldb jdbc
Kubernetes WatchConnectionManager：执行失败：HTTP 403

我遇到错误Expected HTTP 101 response but was 403 Forbidden 在我使用以下命令设置新的 Kubernetes 集群之后Kubeadm当我提交下面遇到的 pyspark 示例应用程序时只有一个主
Spring：如何使用 GenericDao 获取多个数据源？

我有一个使用 Spring 3 1 1 的网络应用程序我们有一个使用 JdbcTemplate 的 genericDao 数据源在 GenericDaoImpl 中像这样注入 public class GenericDaoImpl
用Java将图像添加到数据库

我正在尝试将图像添加到 mysql 数据库中的 BLOB 字段图像大小将小于 100kb 但是我遇到了问题想知道将这些数据添加到数据库的更好方法是什么 com mysql jdbc MysqlDataTruncation 数据截断第
如何通过sparkSession向worker提交多个jar？

我使用的是火花2 2 0 下面是我在 Spark 上使用的 java 代码片段 SparkSession spark SparkSession builder appName MySQL Connection master spark ip
通过过滤对 Pyspark Dataframe 进行分组

我有一个数据框如下 cust id req req met 1 r1 1 1 r2 0 1 r2 1 2 r1 1 3 r1 1 3 r2 1 4 r1 0 5 r1 1 5 r2 0 5 r1 1 我必须观察客户看看他们有多少要求看看
Android 中的 JDBC 连接

有没有人在 android 中尝试过 JDBC 连接因为在 Android 2 3 中支持 JDBC 我必须在没有 Web 服务的情况下连接 Mysql 我已经提出申请但它给了我错误 public class MysqlConnect
获取jdbc中表依赖顺序

我在 MySQL 数据库中有一组表 A B C D 依赖关系如下 B gt C gt A 和 D gt A 也就是说 A 有一个 PrimaryKey C 有一个外键指向 A 的主键 B 有一个外键指向 C 的主键类似地 D 有一个外键指
过滤字符串上的 Spark DataFrame 包含

我在用火花1 3 0 http spark apache org releases spark release 1 3 0 html and 火花阿夫罗1 0 0 https github com databricks spark avro
org.postgresql.util.PSQLException：协议错误。会话设置失败

我知道这些类型的问题已经存在但提供的解决方案对我不起作用在我的应用程序中没有版本不匹配的黑白驱动程序和 PostgreSQL 服务器我还没有找到任何其他解决方案我正在使用 PostgreSQL 服务器 9 4 和 postgres
猪参考

我正在学习 Hadoop Pig 并且我总是坚持引用元素请查找下面的示例 groupwordcount group chararray words bag of tokenTuples from line token chararray
H2控制台看不到JAVA创建的表

我已经从以下位置下载了 H2 控制台http www h2database com html download html http www h2database com html download html我已经在我的中配置了 URLjdb
更改 Spark SQL 中的 Null 顺序

我需要能够按升序和降序对列进行排序并且还允许空值位于第一个或空值位于最后一个使用 RDD 我可以将 sortByKey 方法与自定义比较器结合使用我想知道是否有使用 Dataset API 的相应方法我了解如何将 desc asc
pyspark flatmat 错误：TypeError：“int”对象不可迭代

这是我书中的示例代码 from pyspark import SparkConf SparkContext conf SparkConf setMaster spark chetan ThinkPad E470 7077 setAppNam
Spark：如何使用crossJoin

我有两个数据框 df1有 100000 行并且df2有 10000 行我想创建一个df3这是两者的交叉连接 val df3 df1 crossJoin df2 这将产生 10 亿行尝试在本地运行它但似乎需要很长时间您认为本地可以实现
获取 int() 参数必须是字符串或数字，而不是“Column”- Apache Spark

如果我使用以下代码我会收到此异常 int argument must be a string or a number not Column df df withColumn FY F when df ID substr 5 2 isin
如何设置SPARK_HOME变量？

按照链接中的气泡水步骤进行操作http h2o release s3 amazonaws com sparkling water rel 2 2 0 index html http h2o release s3 amazonaws com
JDBC 时间戳和日期 GMT 问题

我有一个 JDBC 日期列如果我使用 getDate 则会得到 date 仅部分2009 年 10 月 2 日但如果我使用 getTimestamp 我会得到完整的 date 2009 年 10 月 2 日 13 56 78 890 这正
Spark/Gradle -- 在 build.gradle 中获取 IP 地址以用于启动 master 和worker

我在基本层面上了解 build gradle 构建脚本的各个移动部分但无法将它们全部结合在一起在 Apache Spark 独立模式下只需尝试从 build gradle 在同一个机器上启动 master 和worker 稍后将使用
YARN UNHEALTHY 节点

在我们的 YARN 集群已满 80 的情况下我们看到一些纱线节点管理器被标记为不健康在深入研究日志后我发现这是因为数据目录的磁盘空间已满 90 出现以下错误 2015 02 21 08 33 51 590 INFO org apach

随机推荐

固定表单的位置

我正在启动一个 winform 应用程序 NET 3 5 C 其中应用程序的主窗体从特定的指定位置启动我为此在构造函数中调用以下代码 private void SetFormPosition this StartPosition Form
PHP Carbon，获取日期范围内的所有日期？

如何在 PHP 中获取两个日期之间的所有日期更喜欢使用 Carbon 来处理日期 from Carbon now to Carbon createFromDate 2017 5 21 我想获得这两个日期之间的所有日期但是如何呢只能使用
mousemoved 事件中的 Javafx 滑块值

我正在制作一个媒体播放器并尝试在将鼠标悬停在滑块上时获取光标位置处的播放滑块值为了尝试做到这一点我使用了以下内容 timeSlider addEventFilter MouseEvent MOUSE MOVED event gt Sy
我可以使用 jQuery 淡入淡出颜色吗？

我有 javascript 可以使用如下函数更改一些 HTML if correct true ft2 html Correct ft2 css color Green ft2 css border color Green else ft2
PHP脚本输出的AJAX持续响应

我的 PHP 脚本的 AJAX 响应有问题我创建了 Status div 我想在其中输出 PHP 脚本的响应它工作得很好但是只有当整个脚本完成时才会显示响应我想实时输出每个回声这是我的文件 form php div class
在PHP中，如何检测是从CLI模式执行还是通过浏览器执行？ [复制]

这个问题在这里已经有答案了我有一个通用脚本我将其包含在我的 PHPcron 文件和通过浏览器访问的文件中代码的某些部分我只需要非 cron 文件我如何检测执行是从 CLI 还是通过浏览器我知道可以通过使用 cron 文件传递一
Git LFS git lfs migrate import 包括 .gitattribute 中指定的所有文件类型？

我安装了 git lfs 并创建了一个 gitattribute 文件其中包含许多要跟踪的文件类型我现在想对 gitattribute 中指定的所有文件类型运行 git lfs migrate 命令我怎样才能做到这一点我发现的所有源
页面上的某些控件对于 MS UI Automation 不可见

我们有一个带有 StartPage xaml 的应用程序其中 TabControl 的控件模板定义了一些网格和堆栈面板该模板中的 xaml 中间有一个 itemPresenter 其下方有一个堆栈面板虽然它对用户来说工作得很好但 M
检查 Hashable 一致性

我有一些结构符合的基本协议模型它们也符合 Hashable protocol Model struct Contact Model Hashable var hashValue Int return static func lhs Co
无法将资产发送到 Android Wear 设备

我正在尝试将资产发送到我的 Sony SmartWatch3 我遵循了谷歌的文档 https developer android com training wearables data layer assets html 但它不起作用我的
com.google.firebase.database.DatabaseException：必须在使用 FirebaseDatabase 实例之前调用 setPersistenceEnabled()

当我尝试在 firebase 中设置持久性时遇到问题有人可以解释一下如何解决这个问题吗 protected void onCreate Bundle savedInstanceState super onCreate savedInsta
清空 ArrayList 还是只是创建一个新的并让旧的被垃圾收集？ [复制]

这个问题在这里已经有答案了清空集合在我的例子中是 ArrayList 与创建新集合并让垃圾收集器清除旧集合相比有哪些优点和缺点具体来说我有一个ArrayList
减少多个条形图中条形的宽度 R

我需要减少下面多个条形图中条形的宽度我尝试使用space选项按照这里更改条形图中条形的宽度 R 但似乎对于多个条形图即在我的情况下每个变量有 4 个条形图该函数space不起作用以下是一些重现该情节的虚假数据 mat example
TThread.Synchronize 在 Delphi 2009 中导致（接近）死锁（在 Delphi 7 中工作）

在 Delphi 2009 中在 Delphi 7 中运行良好的同步函数执行速度极其缓慢直到您在打开的窗体上移动鼠标为止摆动鼠标会导致程序进入某种鼠标空闲状态这不会CheckSynchronize CheckSynchronize
ASP.NET 的类似 Excel 的服务器端控件

我们需要增加用于在 Web 应用程序上编辑的网格的功能并且我们的经理一直引用 Excel 作为数据网格的完美示例他仍然没有真正意识到电子表格之类的控件不会这样做它不存在现成的但我想我还是应该做一些搜索我在 Google 上找到了一
C 和 printf 中的递归函数

首先我是 C 语言的初学者我们正在大学的结构化编程课程中学习 C 语言现在最后几节关于递归函数的讲座对我这个初学者来说是一个痛苦你们中的任何人都可以向我解释一下这一点吗所以我有这个小脚本一个递归函数它接受一个十进制数
如何获取 Outlook 邮件的发件人

我有一些代码可以部分填充电子邮件作为回复但我无法联系发件人除非他们在一个我们的上交换服务器 Public Sub CreateMessage Dim EmailFrom As String Dim NewMessage As O
在 Woocommerce 的下拉变体属性选项中显示价格和库存状态

在 woocommerce 上我的可变产品的每个变体都有特定的价格如何在属性下拉选项中显示变化价格和库存状态 Note 这只适用于只有一个下拉选择字段因此变量产品中设置的变体有一个属性使用多个属性因此多个下拉选择字段它会显示一些
MongoDB 查询不存在字段和索引的记录

我们有一个包含大约 1M 文档的 mongo 数据库我们希望使用已处理字段轮询该数据库以查找我们以前从未见过的文档为此我们设置一个名为的新字段 processed 为了查询需要处理的文档我们查询没有这个已处理字段的文档 db sto
Cloudera JDBC Driver for Impala 的WITH 子句问题 - 返回列名称而不是实际数据

我正在使用 Cloudera JDBC Driver for Impala v 2 5 38 和 Spark 1 6 0 来创建 DataFrame 它适用于除WITH子句之外的所有查询但WITH在我的组织中广泛使用下面是我的代码片段

Cloudera JDBC Driver for Impala 的WITH 子句问题 - 返回列名称而不是实际数据

Cloudera JDBC Driver for Impala 的WITH 子句问题 - 返回列名称而不是实际数据 的相关文章

随机推荐

热门标签

Cloudera JDBC Driver for Impala 的WITH 子句问题 - 返回列名称而不是实际数据的相关文章