在 Spark 中将带有 MapType 列的 DataFrame 写入数据库

2024-03-02

我正在尝试使用 clickhouse-native-jdbc 驱动程序将带有 MapType 列的数据帧保存到 Clickhouse（架构中也包含地图类型列），并遇到以下错误：

Caused by: java.lang.IllegalArgumentException: Can't translate non-null value for field 74
        at org.apache.spark.sql.execution.datasources.jdbc.JdbcUtils$.$anonfun$makeSetter$16(JdbcUtils.scala:593)
        at org.apache.spark.sql.execution.datasources.jdbc.JdbcUtils$.$anonfun$makeSetter$16$adapted(JdbcUtils.scala:591)

我在spark源代码中找到了这个地方，它包含以下内容：

private def makeSetter(
      conn: Connection,
      dialect: JdbcDialect,
      dataType: DataType): JDBCValueSetter = dataType match {
    case IntegerType =>
      (stmt: PreparedStatement, row: Row, pos: Int) =>
        stmt.setInt(pos + 1, row.getInt(pos))

    case LongType =>
      (stmt: PreparedStatement, row: Row, pos: Int) =>
        stmt.setLong(pos + 1, row.getLong(pos))

...
    case _ =>
      (_: PreparedStatement, _: Row, pos: Int) =>
        throw new IllegalArgumentException(
          s"Can't translate non-null value for field $pos")

该函数匹配列类型，如果没有合适的类型，则会抛出此错误。正如我所看到的，spark 根本无法处理 MapType 列。

我尝试复制和修改org.apache.spark.sql.execution.datasources.jdbc.JdbcUtils文件以使其能够与 MapType 列一起使用，如下所示：

case MapType(_, _, _) =>
    (stmt: PreparedStatement, row: Row, pos: Int) =>
        val map = row.getMap[AnyRef, AnyRef](pos)
        stmt.setObject(pos + 1, mapAsJavaMap(map))

在本地计算机中，它按预期工作，但在集群模式执行器中使用库存版本，而不是我自己的版本。

有谁知道如何让 Spark 以另一种方式使用 MapType 列，或者使用修改后的源代码来创建执行器？

感谢 Danilo Rodrigues 的启发，最后我这样解决了我的问题：我没有按原样编写 Map 值，而是将其转换为 json 字符串，Clickhouse 中的表架构现在如下所示：

CREATE TABLE t1 (
    param_str String,
    param MATERIALIZED cast((arrayMap(x->x.1, JSONExtractKeysAndValues(param_str, 'String')), arrayMap(x->x.2, JSONExtractKeysAndValues(param_str, 'String'))), 'Map(String, String)')
) Engine ...

是的，它看起来有点难看，我更愿意选择改变 Spark 源代码的方法，但当前的方法效果很好

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

apachespark

JDBC

clickhouse

在 Spark 中将带有 MapType 列的 DataFrame 写入数据库的相关文章

Apache Spark 两个 RDD 之间的差异

假设我有这个示例作业在带有 Java API 的 Groovy 中 def set1 def set2 0 upto 10 set1 lt lt it 8 upto 20 set2 lt lt it def rdd1 context pa
Slick：将操作与 DBIOAction 的 Seq 组合起来

我有工作以下代码 val actions for lt slickUsers insertOrUpdate dbUser loginInfo lt loginInfoAction lt slickUserLoginInfos DBUse
Scala 程序中三元运算符的用法[关闭]

Closed 这个问题是无法重现或由拼写错误引起 help closed questions 目前不接受答案我有一个需要应用过滤器的对象数组 val filteredList list filter l gt pid true l Pro
pyspark 数据框中的自定义排序

是否有推荐的方法在 pyspark 中实现分类数据的自定义排序我理想地寻找 pandas 分类数据类型提供的功能因此给定一个数据集Speed列可能的选项是 Super Fast Fast Medium Slow 我想实现适合上下文的
scala 如何对元组进行排序？

我试图了解 scala 如何处理元组的排序和排序例如如果我得到了列表 val l for i lt 1 to 5 yield i i 2 Vector 1 2 2 4 3 6 4 8 5 10 scala 知道如何对其进行排序 l so
sh / Bash shell 脚本中 !# (bang-pound) 的含义是什么？

我想了解这个 Scala 脚本是如何工作的 usr bin env bash exec scala 0 object HelloWorld def main args Array String println Hello world arg
“为 Apache Hadoop 2.7 及更高版本预构建”是什么意思？

Apache Spark 下载页面上的 pre built for Apache Hadoop 2 7 and later 是什么意思这是否意味着spark中HDFS必须有库如果是这样其他存储系统例如 Cassandra s3 HB
缩放数据框的每一列

我正在尝试缩放数据框的每一列首先我将每一列转换为向量然后使用 ml MinMax Scaler 除了简单地重复它之外是否有更好更优雅的方法将相同的函数应用于每一列 import org apache spark ml linalg
通过向上转换将 Java.sql.date 转换为 Java.util.date 安全吗？

java sql date 扩展了 java util date 那么通过将 java sql date 转换为 java util date 是否可以在两者之间进行转换或者有其他方法可以转换它们吗您不一定需要强制转换您可以将 SQL
使用 Scala 宏或反射实例化类

在我的 scala 代码中我希望能够实例化一个新类例如假设我有以下代码 class Foo def foo 10 trait Bar val bar 20 理想情况下我希望能够做类似的事情 def newInstance A lt
比较 jdbc 中的结果集

在我的java代码中我获得了两个结果集rs1和rs2 如下所示 rs1 statement executeQuery select from tableA rs2 statement executeQuery select from ta
将 Scala Future 转变为 CompletableFuture

我的项目中有一个 Akka 层它返回Scala Future 而接收 Future 的部分是 Java 风格的团队中的人不了解 Scala 他们宁愿使用CompletableFuture因为他们更了解 Java 8 API 有没有什么好
解释一下 Scala 中 Y 组合器的实现？

这是 Y 组合器在 Scala 中的实现 scala gt def Y T func T gt T gt T gt T T gt T func Y func T Y T func T gt T gt T gt T T gt T scala
在 Jupyter 笔记本中使用 PySpark 读取 XML

我正在尝试读取 XML 文件 df spark read format com databricks spark xml load path to my xml 并收到以下错误 java lang ClassNotFoundExceptio
为什么 sbt 在 build.sbt 工作时使用 Build.scala 报告“未找到：值 PlayScala”？

我正在创建一个多模块 sbt 项目其结构如下
Spark 写入 hdfs 无法使用 saveAsNewAPIHadoopFile 方法

我在 CDH 5 2 0 上使用 Spark 1 1 0 并试图确保我可以读取和写入 hdfs 我很快意识到 textFile 和 saveAsTextFile 调用旧的 api 并且似乎与我们的 hdfs 版本不兼容 def testHD
Talend 和 Apache Spark？

我对 Talend 和 Apache Spark 在大数据生态系统中的定位感到困惑因为 Apache Spark 和 Talend 都可以用于 ETL 有人可以用一个例子解释一下吗 Talend 是一种基于工具的大数据方法通过内置组件支
强制类型差异

在 Scala 中我可以在编译时强制执行类型相等例如 case class Foo A B a A b B implicit ev A B scala gt Foo 1 2 res3 Foo Int Int Foo 1 2 scala
由于 UTFDataFormatException 导致 Spark 中的任务无法序列化：编码字符串太长

我在 Yarn 上运行 Spark 应用程序时遇到一些问题我有非常广泛的集成测试运行时没有任何问题但是当我在 YARN 上运行应用程序时它将抛出以下错误 17 01 06 11 22 23 ERROR yarn Applicatio
源值 1.5 的错误已过时，将在未来版本中删除

我使用 scala maven plugin 来编译包含 scala 和 java 代码的项目我已经将源和目标设置为1 7 但不知道为什么maven仍然使用1 5 这是我在 pom xml 中的插件

随机推荐

如何将 React 组件导出为 npm 包？ Create-React-App 语法错误：意外的标记

我创建了反应应用程序名称为 create react app npm 在 src index js 文件中我导出了组件以在另一个项目中使用它的 npm 包首先我在我的主根目录中运行了这段代码 npm run eject然后是我项目的
PDFBox 叠加失败

我使用 PDFBox 1 8 8 并尝试使用以下 scala 方法将 PDDocument 与其他文档叠加 def mergeTest val home System getProperty user home val doc PDDocu
Azure DevOps REST API SendMail

我正在尝试在发布定义的成功阶段后发送邮件遵循文档在我的阶段中选中了 OAuth 框项目收集服务帐户已添加到构建管理员和发布管理员中但 REST API 的响应是 Azure DevOps Login Page 这是我的脚本 Orga
EF5：如何更改默认的删除功能来实现我自己的

嗯这是我的情况我们不想删除表中的数据有一个名为 isDeleted 的列应该更新而不是删除它我想使用 EF5 开发随附的 Web 应用程序但我遇到了问题我如何实施该限制我可以使用存储过程来删除和选择但我希望有一种方法可以使用
在 ES6 之前，在 Typescript 中实现 Iterator 的推荐方法[重复]

这个问题在这里已经有答案了我有一个项目其中包含许多理想情况下可以实现的类Iterable
Rails in_place_edit：如何传递真实性令牌？

我正在尝试进行适当的编辑工作但遇到了此错误 ActionController InvalidAuthenticityToken ActionController InvalidAuthenticityToken 我知道 Rails 现在想
如何找到GIF图像中图像块从哪里开始？

信息来源 http www onicos com staff iz formats gif html header http www onicos com staff iz formats gif html header In GIFima
计算单个查询的加权平均值

示例数据 table A part rating numReviews A308 100 7 A308 98 89 我正在尝试获取上述数据的平均评分它需要的是rating numReviews每行除以总数numReviews 这就是我正在
Windows Phone 8 应用程序开发的设置。制作新项目时出错

我有 1 Windows 7 64 位 2 Visual Studio 13 已安装 3 Windows Phone SDK 8 1 已安装当我创建新的移动项目时出现错误创建子项目 App Mobile Native WinPhone
MySQL插入大量数据时出现数据截断错误如何解决？

我正在使用一个来自 Java 应用程序的相当简单的数据库我们尝试使用标准 JDBC mysql 适配器一次插入大约 200k 的文本我们间歇性地得到一个com mysql jdbc MysqlDataTruncation Data tr
从内核模块触发用户线程的最佳方法是什么

我在内核中有一个模块其中在特定事件计数时我想唤醒一个用户线程该线程将通过 proc fs 从内核模块读取一些数据我正在尝试从内核模块向处于睡眠状态的用户线程发送 RT 信号该信号将调用其处理程序并进一步从内核读取数据缓冲区并将
&& 之后的条件是否总是得到评估

我有这个if测试以下 2 个条件的语句第二个是一个函数goodToGo 所以我想调用它除非第一个条件已经成立 value 2239 if value lt 2000 goodToGo value do stuff function go
使用 Cloudflare 时，NGINX 速率限制不起作用。我可以使用简单的“ab”命令关闭我的网站

我根据这篇博客文章实现了一个非常简单但超级有效的速率限制 https www nginx com blog rate limiting nginx https www nginx com blog rate limiting nginx 基
在 iOS 上使用 C++ 获取加密安全随机数

我正在开发一个用 Objective C 和 C 编写的 iOS 应用程序在 C 部分我需要加密安全的随机数据我了解iOS安全模型没有办法访问 dev random直接地那是对的吗获取安全随机数的官方方法是Sec随机复制字节 h
是否可以将 C# 结构体之类的联合序列化为 XML？

假设我有这个简单的类似联合 C 结构 StructLayout LayoutKind Explicit public struct MyData FieldOffset 0 public int Num FieldOffset 0 pub
Angular2 http.request 无法添加标头

我在 Angular2 TypeScript 中有这段代码我试图添加如下所示的标题 access token localStorage getItem token client localStorage getItem client ui
使用 XSL:FO 将附件添加到 PDF

解决后内联图像 https stackoverflow com questions 10372069 inline image data in xslfo apache fop在SO的帮助下我需要整理内联附件 PDF 可以包含附件我发现
HTTPClient 示例 - 线程“main”中的异常 java.lang.NoSuchFieldError: INSTANCE

我正在使用 Apache 的 HttpClient 组件来执行以下简单程序并且看到以下异常 Exception in thread main java lang NoSuchFieldError INSTANCE at org apach
如何加载保存为 .pb 的 keras 模型

I d like to load a keras model that i ve trained and saved it as pb Here s the code 我正在使用 jupyter 笔记本模型已成功另存为保存的模型 pb在同
在 Spark 中将带有 MapType 列的 DataFrame 写入数据库

我正在尝试使用 clickhouse native jdbc 驱动程序将带有 MapType 列的数据帧保存到 Clickhouse 架构中也包含地图类型列并遇到以下错误 Caused by java lang IllegalArgume

在 Spark 中将带有 MapType 列的 DataFrame 写入数据库

在 Spark 中将带有 MapType 列的 DataFrame 写入数据库 的相关文章

随机推荐

热门标签

在 Spark 中将带有 MapType 列的 DataFrame 写入数据库的相关文章