从 JDBC 创建 Spark 数据帧时如何指定 sql 方言？

2023-12-05

我在使用 Spark 通过自定义 JDBC 读取数据时遇到问题。我将如何覆盖通过 jdbc url 推断的 sql 方言？

有问题的数据库是 vitess (https://github.com/youtube/vitess）它运行一个 mysql 变体，所以我想指定一个 mysql 方言。 jdbc url 以 jdbc:vitess/ 开头

否则，DataFrameReader 会推断使用“””作为引用标识符的默认方言。因此，通过spark.read.jdbc 的查询将发送为

从表中选择“id”、“col2”、“col3”、“etc”

它选择字符串表示形式而不是列值代替

从表中选择 id、col2、col3 等

也许已经太晚了。但接下来就是答案：

创建自定义方言，就像我对 ClickHouse 数据库所做的那样（我的 jdbc 连接 url 看起来像这样 jdbc:clickhouse://localhost:8123）

 private object ClickHouseDialect extends JdbcDialect {
    //override here quoting logic as you wish
    override def quoteIdentifier(colName: String): String = colName

    override def canHandle(url: String): Boolean = url.startsWith("jdbc:clickhouse")
  }

并将其注册到代码中的某个位置，如下所示：

JdbcDialects.registerDialect(ClickHouseDialect)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

JDBC

apachesparksql

apachespark20

vitess

从 JDBC 创建 Spark 数据帧时如何指定 sql 方言？的相关文章

如何在 Mac 上使用 homebrew 安装 apache-spark 2.3.3

brew install apache spark只安装最新版本的 Spark 2 4 和 brew search apache spark没有给出任何其他选项有没有办法用自制程序安装旧版本的 Spark Type brew tap ed
在 kubernetes 上安装 PySpark 软件包时出现 Spark-Submit：ivy-cache 文件未找到错误

我一整天都在与它斗争我能够安装并使用带有 Spark shell 或连接的 Jupiter 笔记本的包 graphframes 但我想使用 Spark Submit 将其移动到基于 kubernetes 的 Spark 环境我的火花版
如何将多行标签 xml 文件转换为 dataframe

我有一个包含多个行标签的 xml 文件我需要将此 xml 转换为正确的数据帧我使用了spark xml 它只处理单行标签 xml数据如下
Spark Scala：按小时或分钟计算两列的 DateDiff

我在数据框中有两个时间戳列我想获取它们的分钟差异或者小时差异目前我可以通过四舍五入获得日差 val df2 df1 withColumn time datediff df1 ts1 df1 ts2 但是当我查看文档页面时https
Kubernetes WatchConnectionManager：执行失败：HTTP 403

我遇到错误Expected HTTP 101 response but was 403 Forbidden 在我使用以下命令设置新的 Kubernetes 集群之后Kubeadm当我提交下面遇到的 pyspark 示例应用程序时只有一个主
无法在 SBT 中运行 Apache Spark 相关单元测试 - NoClassDefFoundError

我有一个简单的单元测试使用SparkContext 我可以在 IntelliJ Idea 中运行单元测试没有任何问题但是当尝试从 SBT shell 运行相同的测试时我收到以下错误 java lang NoClassDefFoun
通过过滤对 Pyspark Dataframe 进行分组

我有一个数据框如下 cust id req req met 1 r1 1 1 r2 0 1 r2 1 2 r1 1 3 r1 1 3 r2 1 4 r1 0 5 r1 1 5 r2 0 5 r1 1 我必须观察客户看看他们有多少要求看看
Android 中的 JDBC 连接

有没有人在 android 中尝试过 JDBC 连接因为在 Android 2 3 中支持 JDBC 我必须在没有 Web 服务的情况下连接 Mysql 我已经提出申请但它给了我错误 public class MysqlConnect
过滤字符串上的 Spark DataFrame 包含

我在用火花1 3 0 http spark apache org releases spark release 1 3 0 html and 火花阿夫罗1 0 0 https github com databricks spark avro
BoneCP 和 Derby - 如何正确关闭

I have BoneCP CONNECTION POOL CONNECTION POOL getConfig setJdbcUrl jdbc derby database shutdown true Connection connecti
如何使用 PySpark 预处理图像？

我有一个项目需要为 1 设置大数据架构 AWS S3 SageMaker 的概念验证使用 PySpark 预处理图像 2 执行 PCA and 3 训练一些机器或深度学习模型我的问题是了解如何使用 PySpark 操作图像数据但无法在
Spark问题中读取大文件 - python

我已经使用 python 在本地安装了 Spark 并在运行以下代码时 data sc textFile C Users xxxx Desktop train csv data first 我收到以下错误 Py4JJavaError Tra
带有安全 Kafka 抛出的 Spark 结构化流：无权访问组异常

为了在我的项目中使用结构化流我正在 hortonworks 2 6 3 环境上测试 Spark 2 2 0 和 Kafka 0 10 1 与 Kerberos 的集成我正在运行下面的示例代码来检查集成我能够在 Spark 本地模式下的
Java MYSQL/JDBC 查询从缓存的连接返回过时的数据

我一直在 Stackoverflow 中寻找答案但似乎找不到不涉及 Hibernate 或其他数据库包装器的答案我直接通过 Tomcat 6 Java EE 应用程序中的 MYSQL 5 18 JDBC 驱动程序使用 JDBC 我正在缓
获取 int() 参数必须是字符串或数字，而不是“Column”- Apache Spark

如果我使用以下代码我会收到此异常 int argument must be a string or a number not Column df df withColumn FY F when df ID substr 5 2 isin
Spark DataFrame 序列化为无效 json

TL DR 当我倾倒 Spark 时DataFrame作为 json 我总是得到类似的结果 key1 v11 key2 v21 key1 v12 key2 v22 key1 v13 key2 v23 这是无效的 json 我可以手动编辑转储
IntelliJ：线程“主”java.lang.NoClassDefFoundError中的异常：org/apache/spark/sql/types/DataType

附言有一个类似的问题here https stackoverflow com questions 40287289 java lang noclassdeffounderror org apache spark logging 但那是在
如何设置SPARK_HOME变量？

按照链接中的气泡水步骤进行操作http h2o release s3 amazonaws com sparkling water rel 2 2 0 index html http h2o release s3 amazonaws com
Spark 有没有办法捕获执行器终止异常？

在执行我的 Spark 程序期间有时其原因对我来说仍然是个谜 yarn 会杀死容器执行器并给出超出内存限制的消息我的程序确实恢复了但 Spark 通过生成一个新容器重新执行任务但是在我的程序中任务还会在磁盘上创建一些中间文
Spark/Gradle -- 在 build.gradle 中获取 IP 地址以用于启动 master 和worker

我在基本层面上了解 build gradle 构建脚本的各个移动部分但无法将它们全部结合在一起在 Apache Spark 独立模式下只需尝试从 build gradle 在同一个机器上启动 master 和worker 稍后将使用

随机推荐

无法在 bash 脚本中运行 adb 命令

我正在尝试从 adb shell 启动 Android 网络共享设置这样做的主要目的是通过运行 shell 脚本来启用 USB 网络共享模式我在 Ubuntu 终端 12 04 上使用以下命令集 adb shell am start n
Sublime Text 是否有查找打开文件的快捷方式（Eclipse Ctrl + E）？

Ctrl P of Sublime Text lets me find a file from all project files However there are too many duplicated names I m lookin
OpenGL 窗口未打开

我有来自 OpenGLBook openglbook com 的代码它可以编译但无法加载我完全不知道为什么它没有加载代码如下 main cpp include main h Methods int main int argc cha
C++等待用户输入[重复]

这个问题在这里已经有答案了在控制台应用程序中等待用户输入的最佳方法是什么 std cout lt lt press any key to exit wait for user to hit enter or another key 有多种
使用for循环的索引访问变量的名称

假设我有 4 个字符串 private string string 1 string 2 string 3 string 4 然后假设我有一个 for 循环如何通过for循环的索引访问变量名这是我正在谈论的内容的一个想法 for int
Oozie 抑制 shell 作业操作的日志记录？

我有一个运行 shell 脚本的简单工作流程见下文 shell 脚本运行 pyspark 脚本该脚本将文件从本地移动到 hdfs 文件夹当我运行 shell 脚本本身时它工作得很好日志在 shell 脚本中通过 gt spark
像关系 SQL 数据库一样使用 JSon (Javascript)

所以我有一个如下所示的 JSON 变量 var peopleList 1 Name Lisa item1 Name of Item 1 2 Name Marty 3 Name Jordan item1 Name of Item 1 item
如何显示文本视图几秒钟然后使其不可见？

这个网站是最好的它对我帮助很大我是创建 android applecation 的初学者这是我第一次在这里问问题我的问题是如何显示一个文本视图5秒并使其消失当我搜索时我发现了一些代码但我不知道如何使用它或者也许我使用它以错误的方
输入[类型=文件]验证

如何检查输入文件是否不为空我试过 image file click function if image file val alert Chose a file return false 但没有成功 The click事件被触发before
Sweave 文档中 R 注释中对图形的动态引用

我想找到一种使用 LaTeX 的方法 ref 用于在 Sweave Rnw 文件中的 R 代码中进行注释的标记这里有两个例子一个是印刷版的 http cm bell labs com cm ms departments sia proj
SetLayeredWindowAttributes 使窗口透明仅在部分时间起作用

我试图使窗口透明以便只有部分内容可见我尝试使用SetLayeredWindowAttributes为了实现这一点这使窗口按照我想要的方式透明但是只有当窗口图片的一部分位于桌面可见区域之外时它才有效由于某种原因每当窗口完全在屏幕
声音录制

我是 Android 新手我正在尝试构建一个应用程序来记录音频数据我正在使用带有 ADT 插件的 Eclipse Galileo IDE 我的应用程序针对的是 Andriod 2 1 平台不幸的是example开发指南中提供的抛出许多
Python - 导入包失败

我在导入包时遇到问题我的文件结构是这样的 filelib init py converters init py cmp2locus py modelmaker init py command file py 模块内command file
我在运行 ant build 时收到“**** 错误的 JAVA 版本 ****”

我的问题不是这个问题因为我的java版本没有差异我安装了 java 1 8 45 jdk 和 jre 后运行 ant clean all 的构建失败它说 Java 版本错误环境检查失败您使用的版本不受支持爪哇请确保您使用的是
如何在 JPQL 或 HQL 查询中使用 MySQL CONVERT_TZ 函数

我目前有一个表MySQL数据库有一个startDate and endDate两者都是timestamps 这与使用 hibernate 的代码相关联我可以使用以下 HQL 返回这些 SELECT startDate endDate FR
迭代目录中的所有文件并查找和替换文本 - Python

宝贝全新这是弗兰肯斯坦从几个类似的主题组合在一起的其中没有一个似乎涵盖了在文件循环中嵌套查找和替换的必要步骤我试图迭代特定类型此处列为 LIC 的文件夹中的每个文件不是递归我只有一个文件夹级别并替换一小段文本以下是我所能得出
MSBuild XmlMassUpdate 任务

我想问一个有关 MSBuild 任务 XmlMassUpdate 行为的简单问题有没有人发现该任务只会将唯一节点复制到内容 XML 中例如如果我有一个客户端节点它有多个称为端点的子节点那么它只会批量复制第一个端点节点同时消除所有
如何使用spring全局配置jackson？

为了序列化反序列化对象我使用 Jackson 作为流程 JsonSerialize using LocalDateSerializer class JsonDeserialize using LocalDateDeserializer c
如何在本机反应中隐藏特定屏幕上的底部导航栏？

我正在使用 React Native 和 React Native Navigation 来构建我的应用程序目前我有三个底部选项卡主页上传视频和消息选择上传视频选项卡后我想渲染上传视频组件并隐藏该屏幕上的底部选项卡并显
从 JDBC 创建 Spark 数据帧时如何指定 sql 方言？

我在使用 Spark 通过自定义 JDBC 读取数据时遇到问题我将如何覆盖通过 jdbc url 推断的 sql 方言有问题的数据库是 vitess https github com youtube vitess 它运行一个 mysql

从 JDBC 创建 Spark 数据帧时如何指定 sql 方言？

从 JDBC 创建 Spark 数据帧时如何指定 sql 方言？ 的相关文章

随机推荐

热门标签

从 JDBC 创建 Spark 数据帧时如何指定 sql 方言？的相关文章