通过 JDBC 集成 Spark SQL 和 Apache Drill

2023-11-25

我想根据使用 Apache Drill 对 CSV 数据（在 HDFS 上）执行查询的结果创建 Spark SQL DataFrame。我成功配置了 Spark SQL，使其通过 JDBC 连接到 Drill：

Map<String, String> connectionOptions = new HashMap<String, String>();
connectionOptions.put("url", args[0]);
connectionOptions.put("dbtable", args[1]);
connectionOptions.put("driver", "org.apache.drill.jdbc.Driver");

DataFrame logs = sqlc.read().format("jdbc").options(connectionOptions).load();

Spark SQL 执行两个查询：第一个查询获取架构，第二个查询检索实际数据：

SELECT * FROM (SELECT * FROM dfs.output.`my_view`) WHERE 1=0

SELECT "field1","field2","field3" FROM (SELECT * FROM dfs.output.`my_view`)

第一个成功，但在第二个中，Spark 将字段括在双引号内，这是 Drill 不支持的，因此查询失败。

有人设法让这种集成发挥作用吗？

谢谢你！

您可以为此添加 JDBC Dialect 并在使用 jdbc 连接器之前注册该方言

case object DrillDialect extends JdbcDialect {

  def canHandle(url: String): Boolean = url.startsWith("jdbc:drill:")

  override def quoteIdentifier(colName: java.lang.String): java.lang.String = {
    return colName
  }

  def instance = this
}

JdbcDialects.registerDialect(DrillDialect)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop

JDBC

apachespark

apachesparksql

apachedrill

通过 JDBC 集成 Spark SQL 和 Apache Drill 的相关文章

从数据块中的数组列获取数据，无需交叉连接

假设我有一张桌子 id array col 101 system x value 1 system y value 2 system z value 3 其中 array col 基本上包含一个结构数组 0 系统 x 值 1 1 系统 y
主节点的“start-all.sh”和“start-dfs.sh”没有启动从节点服务？

我已使用从属节点的主机名更新了 Hadoop 主节点上的 conf slaves 文件但我无法从主节点启动从属节点我必须单独启动从属服务器然后我的 5 节点集群才能启动并运行如何使用主节点的单个命令启动整个集群此外 Seconda
为什么我必须明确告诉 Spark 要缓存什么？

在 Spark 中每次我们对 RDD 执行任何操作时都会重新计算 RDD 因此如果我们知道 RDD 将被重用我们应该显式地缓存 RDD 比方说 Spark 决定延迟缓存所有 RDD 并使用 LRU 自动将最相关的 RDD 保留在内存
如何在 HBase 中预分割表

我将数据存储在具有 5 个区域服务器的 HBase 中我使用 url 的 md5 哈希作为我的行键目前所有数据仅存储在一台区域服务器中所以我想预先分割区域以便数据在所有区域服务器上统一传输我希望通过行键的第一个字符将表分成五个区
从 Java 中的另一个应用程序部署 Apache Spark 应用程序，最佳实践

我是 Spark 的新用户我有一个 Web 服务允许用户请求服务器通过读取数据库并将结果推送回数据库来执行复杂的数据分析我已将这些分析转移到各种 Spark 应用程序中目前我使用spark submit来部署这些应用程序但是我很
如何避免以明文形式存储 tomcat 的 server.xml 数据源资源定义的密码？

tomcat中的资源定义server xml看起来像这样
名称节点与辅助名称节点

Hadoop 具有一致性和分区容忍性即它属于 CAP 理论的 CP 类别 Hadoop不可用因为所有节点都依赖于名称节点如果名称节点崩溃集群就会崩溃但考虑到 HDFS 集群有一个辅助名称节点为什么我们不能称 hadoop 为可用
启动包中没有指定postgresql用户名

public class HelloPostgreSQLActivity extends Activity TextView resultArea Override public void onCreate Bundle savedInst
PHP中通过Hive/Thrift查询数据库不起作用

我正在尝试通过 PHP 中的 Hive Thrift 查询数据库但是我不断收到错误 TSocket timed out reading 4 bytes from XYZ 我正在使用来自的代码 https cwiki apache org
为什么 Apache Spark 会读取嵌套结构中不必要的 Parquet 列？

我的团队正在构建一个 ETL 流程以使用 Spark 将原始分隔文本文件加载到基于 Parquet 的数据湖中 Parquet 列存储的承诺之一是查询将仅读取必要的列条带但我们看到意外的列被读取以获取嵌套模式结构为了进行演示下
Hadoop2.2.0无法访问网页http://:8088

我设置了一个包含两个节点 hadoop01 master 10 0 0 151 和 hadoop02 slaves 10 0 0 152 的 hadoop 集群当输入 start dfs sh 然后访问网站 my ip 上面就是 10 0
Hive 中的 CASE 语句

好的我有以下代码来用二进制标志标记表中具有最高 Month cd 的记录 Select t1 month cd t2 max month cd CASE WHEN t2 max month cd null then 0 else 1 en
java为oracle VARCHAR2返回空字符串值

我有以下代码它似乎工作正常但它不显示 personCode 字符串的任何值 PERSON CODE 是 Oracle 9i 数据库中的 VARCHAR2 我在我的项目中使用 Java SE 1 7 和 ojdbc7 jar 我是 Jav
Spark 写入 S3 V4 SignatureDoesNotMatch 错误

我遇到S3SignatureDoesNotMatch尝试使用 Spark 将 Dataframe 写入 S3 时症状尝试过的事情代码失败有时但有效有时代码可以read从 S3 没有任何问题并且能够不时写入 S3 这排除了错误的配置
Spark中DataFrame、Dataset、RDD的区别

我只是想知道有什么区别RDD and DataFrame Spark 2 0 0 DataFrame 只是一个类型别名Dataset Row 在阿帕奇火花你能将其中一种转换为另一种吗首先是DataFrame是从SchemaRDD 是的
Zeppelin：如何在 zeppelin 中重新启动 SparkContext

我正在使用 zeppelins Spark 解释器的隔离模式在这种模式下它将为 Spark 集群中的每个笔记本启动一项新工作我想在笔记本执行完成后通过 zeppelin 终止该作业为此我做了sc stop这停止了 sparkCont
使用一个连接执行两个 Java 准备语句 - 样式选择

好吧我意识到我确实问了太多问题却没有回馈社区但我想听听您对此的意见说如果我有 private void closeAll ResultSet rs PreparedStatement ps Connection con if rs
如何使用 Play Framework 2.4 的 H2 数据库文件配置相对于项目根目录的路径？

我们正在开发 Play 2 4 应用程序 Java API 出于开发目的我们希望使用持久性 H2 数据库其数据库文件路径相对于项目根目录 In 如何在 Play 框架中使用持久 H2 数据库而不是内存中的数据库 https stacko
Hive 错误：parseException 缺少 EOF

我不确定我在这里做错了什么 hive gt CREATE TABLE default testtbl int1 INT string1 STRING stored as orc tblproperties orc compress NONE
Java Spark DataFrameReader java.lang.NegativeArraySizeException

学习 Spark for java 并尝试阅读 csv文件为DataFrame使用DataFrameReader 甚至不能得到一个超级简单的 csv文件工作因为我不断收到异常java lang NegativeArraySizeExcep

随机推荐

Swiftui [BUG] 导航视图和列表仅在 iPad 模拟器上不显示

各种iPad模拟器上的空白页前往Apple开发者网站下载以下教程项目 https developer apple com tutorials swiftui building lists and navigation 在任何 iPad 模
在支持应用程序的模式下在 Mobile Safari 中使用 mailto: 链接时出错

我在网页中有一个表单其操作为 mailto email 其中电子邮件是真实的电子邮件地址当我在 Mobile Safari 中以常规模式加载此页面时即不是在支持应用程序的模式下从主屏幕启动效果很好在我提交表单后电子邮件应用程序
ASP.Net MVC 6 中的全局错误日志记录

我正在测试 MVC 6 Web Api 并希望实现登录到全局错误处理程序只是保证没有错误会在没有被记录的情况下离开系统我创建了一个 ExceptionFilterAttribute 并将其全局添加到启动中 public class Ap
Angular2 http 重试逻辑

我有一个带有基于令牌的身份验证机制的 API 成功登录后我在浏览器的本地存储中存储两个令牌访问令牌和刷新令牌访问令牌包含在服务器端授权用户所需的所有必要信息并且具有到期日期当访问令牌过期时客户端可以使用刷新令牌请求新的访问令牌
如何使用新线程库中的 Task.Wait For Any？

尝试使用Delphi中的线程库并行计算任务并使用TTask WaitForAny 为了得到第一个计算结果偶尔会出现异常停止执行异常时的调用堆栈第一次机会例外价格为 752D2F71 美元异常类 EMonitorLockExcept
TextView 中的整数值

如何在 TextView 中显示整数值当我尝试时出现错误android content res Resources NotFoundException String resource ID TextView tv new TextVie
如何在Java 8中逐行读取文件？

在Java 8中我看到Files类中添加了名为lines 的新方法该方法可用于在Java中逐行读取文件它适用于大文件吗我的意思是我们可以加载前 1000 行然后加载第二组 1000 行吗我有 1GB 的大文件可以吗有人可以分
狮身人面像和“你的意思是……？”建议想法。它会起作用吗？

我正在尝试想出最快的方法来提出搜索建议起初我认为 Levenstein UDF 函数与 mysql 表相结合就可以完成这项工作但是使用 levenshtein mysql 必须遍历表中的每一行大量的单词这会使查询非常慢现在我最近安
如何用等角透视进行渲染？ [复制]

这个问题在这里已经有答案了可能的重复使用opengl进行真正的等角投影我想使用 Blender3d 使用的相同等距渲染进行渲染我该怎么做是否可以仅调用 glMultMatrix 我尝试谷歌搜索但找不到任何可以导致这种渲染模式的工
Kotlin 中默认构造函数中的两个附加类型？

自从我一直在使用kotlin 反射为了调用我的默认值和声明的构造函数我看到了第二个不同的构造函数我意识到两个不同的领域int arg3 and kotlin jvm internal DefaultConstructorMarker a
Visual Studio 2015 中的 TFS 生成资源管理器在哪里？

我在 Windows 8 上运行 Visual Studio Enterprise 2015 RTM 在 Visual Studio 2013 中构建资源管理器位于团队资源管理器 gt 构建 gt 操作 gt 管理队列中 Visual S
Typescript 泛型中对接口成员的约束

我有一个方法应该接受任何对象只要它的所有字段都是字符串或数字我做了这个它非常适合鸭子打字 static interpolateParams route string params key string string number s
一个很好的 C 随机数生成器

我需要一个好的随机数生成器来用于我用 C 编写的程序如果您感兴趣的话它是一个分形火焰生成器尽管我过去使用相同的算法取得了成功但我的图像仍然非常粗糙我最终意识到区别在于我使用的随机数生成器令人难以置信的是它产生了巨大的变化我
Linq 查询适用于 null 但不适用于 int？在 where 子句中

我有一个像简化的的 linq 查询函数 public IList
Windows Phone 8.1 位置跟踪

我想实现一个将设备位置持续发送到网络服务的应用程序查看文档我发现了 Geolocation 类和一些讨论位置跟踪的文章如何持续跟踪 Windows Phone 8 手机的位置如何在 Windows Phone 8 后台运行位置跟踪应
java中如何调整文本大小

我发现在 Photoshop 中只需拖动文本即可轻松调整文本大小我们如何在 Java 中做同样的事情关于如何在java中调整文本大小有什么想法吗添加了在 Photoshop 中调整大小的字母 A 的快照请让我知道这段代码有什么问题
如何使用 XPath 获取属性的值

我一直在使用 Selenium WebDriver 进行测试并且一直在寻找 XPath 代码来获取 HTML 元素的属性值作为回归测试的一部分但我找不到一个好的答案这是我的示例 html 元素 div class firstdiv
如何实现android视频播放器全屏播放

我已经实现了android视频播放器但我不需要像这样我需要什么意思当我打开活动时我需要支付视频半屏在中心当我点击按钮全屏按钮然后我需要全屏支付如何实现它帮助我视频播放器活动 public class VideoPlayerActivi
如何在intellij idea编辑器中删除顶行面包屑？

我在弄清楚 IntelliJ Idea Community Edition 15 中的此显示栏时遇到问题有谁知道这是什么和或如何将其关闭它被称为当前代码位置的面包屑菜单例如在您的图像中您处于类 Display gt 方法 Dis
通过 JDBC 集成 Spark SQL 和 Apache Drill

我想根据使用 Apache Drill 对 CSV 数据在 HDFS 上执行查询的结果创建 Spark SQL DataFrame 我成功配置了 Spark SQL 使其通过 JDBC 连接到 Drill Map

通过 JDBC 集成 Spark SQL 和 Apache Drill

通过 JDBC 集成 Spark SQL 和 Apache Drill 的相关文章

随机推荐

热门标签