JSON 格式的 Spark DataFrame 列上的隐式架构发现

2023-11-24

我正在 Scala 阅读中编写 ETL Spark (2.4) 作业;-S3 上使用 glob 模式分隔的 CSV 文件。数据加载到 DataFrame 中并包含一列（假设它名为custom) 与 JSON 格式的字符串 (多层嵌套）。目标是自动从该列推断架构，以便可以为 S3 中的 Parquet 文件上的写入接收器构建它。

这个帖子（如何使用 Spark DataFrames 查询 JSON 数据列？）建议schema_of_jsonSpark 2.4 中的可以从 JSON 格式的列或字符串推断模式。

这是我尝试过的：

val jsonSchema: String = df.select(schema_of_json(col("custom"))).as[String].first

df.withColumn(
    "nestedCustom",
    from_json(col("custom"), jsonSchema, Map[String, String]())
)

但上面的方法不起作用并引发此异常：

Exception in thread "main" org.apache.spark.sql.AnalysisException: cannot resolve 'schemaofjson(`custom`)' due to data type mismatch: The input json should be a string literal and not null; however, got `custom`.;;
'Project [schemaofjson(custom#7) AS schemaofjson(custom)#16]

请记住，我正在过滤掉空值custom对于这个数据框。

EDIT:下面的整个代码。

import org.apache.spark.sql
import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.functions._
import org.apache.spark.sql.types._

/**
  * RandomName entry point.
  *
  * @author Random author
  */
object RandomName {
  def main(args: Array[String]): Unit = {
    val spark: SparkSession = SparkSession.builder
      .appName("RandomName")
      .config("spark.serializer", "org.apache.spark.serializer.KryoSerializer")
      .config("spark.sql.parquet.fs.optimized.committer.optimization-enabled", true)
      .getOrCreate

    import spark.implicits._

    val randomName: RandomName = new RandomName(spark)

    val df: sql.DataFrame  = randomName.read().filter($"custom".isNotNull)
    val jsonSchema: String = df.select(schema_of_json(col("custom"))).as[String].first

    df.withColumn(
      "nestedCustom",
      from_json(col("custom"), jsonSchema, Map[String, String]())
    )

    df.show

    spark.stop
  }
}

class RandomName(private val spark: SparkSession) {

  /**
    * Reads CSV files from S3 and creates a sql.DataFrame.
    *
    * @return a sql.DataFrame
    */
  def read(): sql.DataFrame = {
    val tableSchema = StructType(
      Array(
        StructField("a", StringType, true),
        StructField("b", StringType, true),
        StructField("c", DateType, true),
        StructField("custom", StringType, true)
      ))

    spark.read
      .format("csv")
      .option("sep", ";")
      .option("header", "true")
      .option("inferSchema", "true")
      .schema(tableSchema)
      .load("s3://random-bucket/*")
  }
}

JSON 的示例：

{
  "lvl1":  {
    "lvl2a": {
      "lvl3a":   {
        "lvl4a": "random_data",
        "lvl4b": "random_data"
      }
    },
    "lvl2b":   {
      "lvl3a":   {
        "lvl4a": "ramdom_data"
      },
      "lvl3b":  {
        "lvl4a": "random_data",
        "lvl4b": "random_data"
      }
    }
  }
}

这是一个指标custom不是有效的输入schema_of_json

scala> spark.sql("SELECT schema_of_json(struct(1, 2))")
org.apache.spark.sql.AnalysisException: cannot resolve 'schemaofjson(named_struct('col1', 1, 'col2', 2))' due to data type mismatch: argument 1 requires string type, however, 'named_struct('col1', 1, 'col2', 2)' is of struct<col1:int,col2:int> type.; line 1 pos 7;
...

您应该返回到您的数据并确保custom确实是一个String.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

apachespark

JSON 格式的 Spark DataFrame 列上的隐式架构发现的相关文章

Spark Streaming 中是否需要检查点

我注意到 Spark 流示例也有检查点代码我的问题是检查点有多重要如果是为了容错那么在此类流应用程序中发生故障的频率是多少这一切都取决于您的用例假设您正在运行一个流作业它仅从 Kafka 读取数据并计算记录数如果您的应用程序在
如何将多个 parquet 文件附加到 Pandas 中的一个数据帧

我正在使用 Spark 和 Pandas 解压缩 snappy parquet 文件我有 180 个文件我的 Jupyter 笔记本中有 7GB 数据根据我的理解我需要创建一个循环来获取所有文件用 Spark 解压缩它们并附加到
如何向数据框spark添加标题和列？

我有一个数据框我想在其中添加标题和第一列手动这是数据框 import org apache spark sql SparkSession val spark SparkSession builder master local appN
在 Spark 中将多行汇总为单行和单列

我有一个如下的火花 DF 我需要汇总具有与单行相同 ID 的多行但值应该不同 id values 1 hello 1 hello Sam 1 hello Tom 2 hello 2 hello Tom 预期输出 id values 1 h
如何在 Pyspark 中使用滑动窗口对时间序列数据进行数据转换

我正在尝试根据时间序列数据的滑动窗口提取特征在Scala中似乎有一个sliding函数基于这个帖子 https stackoverflow com a 28863132 3089523 and 文档 http spark apache
理解 scala 的 _ 与 Any/Nothing

如果一个类具有协变类型参数例如Iterable A http www scala lang org archives downloads distrib files nightly docs 2 10 1 library index ht
将 Apache Zeppelin 连接到 Hive

我尝试将我的 apache zeppelin 与我的 hive 元存储连接起来我使用 zeppelin 0 7 3 所以没有 hive 解释器只有 jdbc 我已将 hive site xml 复制到 zeppelin conf 文件夹
PySpark DataFrame 上分组数据的 Pandas 式转换

如果我们有一个由一列类别和一列值组成的 Pandas 数据框我们可以通过执行以下操作来删除每个类别中的平均值 df DemeanedValues df groupby Category Values transform lambda g
将当前类作为 scala 中的参数传递

如何传递当前类作为参数在java中我们这样做 mymethod this class or mymethod MyClass class 如何将 scala 当前类传递给此方法 this getClass or classOf MyCla
Scala 匿名函数中的 return 语句

为什么显式 return 语句使用return关键字在匿名函数中从封闭的命名函数返回而不仅仅是从匿名函数本身返回例如以下程序会导致类型错误 def foo String x Integer gt return x foo 我知道建
相当于 scala 中的 python repr()

有没有相当于Python的东西reprscala 中的函数即您可以给任何 scala 对象提供一个函数它将生成该对象的字符串表示形式该对象是有效的 scala 代码 eg val l List Map 1 gt a print re
Scala：“递归值...需要类型”，但我只使用 Java 类型

object Rec extends App val outStream new java io ByteArrayOutputStream val out new java io PrintStream new java io Buffe
Akka中有轻量级的actor吗？

我的用例非常简单在两个对象之间交换少量现在我正在从 Scala Actors 迁移到 Akka 但是我再也找不到那些轻量级 Actors 使用Akka 我不仅需要为Actor创建创建ActorSystem Props 还需要照顾Acto
如何使用精炼库定义 A 和 B 取决于彼此的类型类？

Problem 我有一个案例类 Passenger 从 A 点出发前往 B 点有效乘客意味着A点不等于B点 Passenger a Int b Int 问题我如何使用设计乘客舱refind https index scala lang
Spark 数据帧分组、排序和选择一组列的顶部行

我正在使用 Spark 1 5 0 我有一个包含以下列的 Spark 数据框 user id description fName weight 我想做的是为每个用户选择前 10 行和后 10 行基于列权重的值数据类型为 Double 如
来自 Janino 和 Commons-Compiler 的 Spark java.lang.NoSuchMethodError

我正在构建一个使用 Spark 进行基于随机森林分类的应用程序当尝试运行该程序时我从该行收到异常 StringIndexerModel labelIndexer new StringIndexer setInputCol label
Scala 2.8 中 <:<、<%< 和 =:= 的含义是什么？它们的文档在哪里？

我可以在 API 文档中看到Predef https scala lang org files archive api 2 8 2 scala Predef 24 html它们是通用函数类型 From gt To 的子类但仅此而已嗯什么
Scala 中用于阻止调用的 Future

The Akka文档说 you may be tempted to just wrap the blocking call inside a Future and work with that instead but this strate
Scala 中的高级类型 [重复]

这个问题在这里已经有答案了我正在阅读 Scala 中的函数式编程一书在 Monoids 章节中他们讨论了 Monoid 接口如下所示 trait Monoid A def op a1 A a2 A A def zero A 后来他
在 Scala 中反转地图的优雅方法

目前正在学习Scala 需要反转Map 来进行一些反转值 gt 键查找我一直在寻找一种简单的方法来做到这一点但只想到了 Map origMap map kvp gt kvp 2 gt kvp 1 有人有更优雅的方法吗假设值是唯一的则

随机推荐

Node.js HTTP 响应正文的 unicode 问题

使用本机 http 模块的 HTTP 请求的响应正文显示 unicode 字符的问号字符而不是其实际值这是我正在运行的基本代码片段 var http require http var google http createClient 8
未定义的行为，或者：Swift 有序列点吗？

在 C C 中第二条语句 int i 0 int j i i i 调用两者未指定的行为因为操作数的求值顺序未指定并且未定义的行为因为对同一个对象的副作用i彼此之间是无序的参见示例为什么这些构造使用是未定义的行为未定义
如何在 didReceiveRemoteNotification 中获取 userInfo JSON 值

func application application UIApplication didReceiveRemoteNotification userInfo NSObject AnyObject PFPush handlePush us
Magento 产品不会显示在类别中

我最近负责构建和部署一个大型电子商务网站过去我们不得不使用客户遗留的 X cart 安装进行重新开发与他们现有的工作流程集成度太高我们听说过 Magento 的优点所以我设置了一个测试安装来掌握它在几个最初的问题之后有一个实时
在 ClickOnce 应用程序中使用 EventLog

我有一个在多个 ClickOnce 应用程序中使用的库如果这个库出现错误我想将错误写入窗口EventLog 我找到了一个知识库文章关于如何但这似乎需要管理员权限才能搜索源特别是当试图搜索时它会窒息Security事件日志是否有办法
在java中使用不同的用户调用外部进程

我们有一个作为 Windows 服务运行的 Java 应用程序特定功能需要执行二进制文件但使用启动应用程序的不同用户有什么方法可以让我们以以不同用户身份运行样式调用 exe 我检查了ProcessBuilder的API 但没有找到
Powershell 和 SQL 参数。如果为空字符串，则传递 DBNull

我得到这个参数 objDbCmd Parameters Add telephone System Data SqlDbType VarChar 18 Out Null objDbCmd Parameters telephone Value
为什么这个 Javascript RGB 到 HSL 代码不起作用？

我发现这个 RGB 到 HSL 脚本位于http www mjijackson com 2008 02 rgb to hsl and rgb to hsv color model conversion algorithms in javas
如何旋转元素并将其放置在左上角或右上角？

我用文本旋转了一个 div 并想将其放置在左上角我设法将其放置在顶部但无法使其与左边缘对齐我该怎么做呢 credit position absolute background color pink transform rotate 9
Chrome 和 Firefox CORS AJAX 调用在某些 Mac 计算机上中止

我们有一个网页 www saddleback com live Chrome 和 Firefox CORS AJAX 调用在某些 Mac 计算机上会中止在装有 OSX 10 9 最新更新 Chrome 和 Firefox 最新更新的 M
iOS 聊天应用程序如何通信？

Whatsapp 和 Skype 等应用程序中的文本聊天如何进行通信具体来说消息如何received即时的提前致谢这和iOS中所谓的Socket编程有关您可以参考苹果开发人员文档或这个链接可以在这方面帮助您事实上以下链接会非常
在 ubuntu 18.04 上更新后无法打开 libmpfr.so.4

今天我将笔记本电脑更新到 Ubuntu 18 04 现在我尝试为我的学士论文运行一个程序但它给了我以下错误消息加载共享库时出错 libmpfr so 4 无法打开共享对象文件没有这样的文件或目录我做了一些研究我认为 libmpfr
如何在Java中用Swing正确实现MVC？

如果您想了解更多详细信息请告诉我或参阅此问题的最后几行我已经读了很多书我觉得我正在把一些简单的东西变成复杂的东西但我仍然被困在这里和那里所以也许你可以在那些非常具体的点上帮助我我使用的是 Netbeans IDE 7 和 JD
asp.net mvc 4控制器并行执行多个ajax调用

我有一个 asp net MVC 4 控制器其方法是通过 ajax 调用的问题在于 ajax 请求是由控制器按顺序处理的这会导致性能问题因为加载页面的时间是所有 ajax 请求的总和而不是最长的 ajax 请求为了演示这一点我
JavaScript - 获取满足条件的数组元素

我正在使用 W3C 学习 JavaScript 但没有找到这个问题的答案我正在尝试对满足某些条件的数组元素进行一些操作除了在 for 循环中运行数组元素之外还有其他方法吗也许类似用其他语言 foreach object t in
在引导程序后向模块添加指令并应用于动态内容

我有一个网页其中定义了一个模块 myModule 我使用它来增强 angularjs angular bootstrap element myModule name 单击按钮后我添加动态 html 并使用进行编译 compile
本例中 C 语言逻辑表达式的短路行为

PROGRAM include
.htaccess 重定向仅在浏览器警告后执行

我有一个强制 HTTPS 和 www 的重写规则 SSL 证书适用于网站的 www 版本整个网站需要是 HTTPS 问题是如果请求是https example com 在执行重定向之前浏览器会显示一个警告页面 Firefox 中显示此
sftp 避免在找不到文件时退出

我有这个脚本 filePattern sor log filePattern2 sor SOR log myLocation opt tradertools omer clientLocation opt tradertools omer
JSON 格式的 Spark DataFrame 列上的隐式架构发现

我正在 Scala 阅读中编写 ETL Spark 2 4 作业 S3 上使用 glob 模式分隔的 CSV 文件数据加载到 DataFrame 中并包含一列假设它名为custom 与 JSON 格式的字符串多层嵌套目标是自动从该列

JSON 格式的 Spark DataFrame 列上的隐式架构发现

JSON 格式的 Spark DataFrame 列上的隐式架构发现 的相关文章

随机推荐

热门标签

JSON 格式的 Spark DataFrame 列上的隐式架构发现的相关文章