如何从json字符串中提取值？

2023-12-13

我有一个文件，其中有一堆列和一个名为jsonstring是字符串类型，其中包含 json 字符串...假设格式如下：

{
    "key1": "value1",
    "key2": {
        "level2key1": "level2value1",
        "level2key2": "level2value2"
    }
}

我想解析此列，如下所示： jsonstring.key1,jsonstring.key2.level2key1 返回 value1, level2value1

我怎样才能在 scala 或 Spark sql 中做到这一点。

在 Spark 2.2 中，您可以使用该函数来自_json它会为你解析 JSON。

from_json(e: 列，模式：字符串，选项：Map[String, String])：列将包含 JSON 字符串的列解析为StructType or ArrayType of StructTypes具有指定的架构。

支持通过使用展平嵌套列*（星）这似乎是最好的解决方案。

// the input dataset (just a single JSON blob)
val jsonstrings = Seq("""{
    "key1": "value1",
    "key2": {
        "level2key1": "level2value1",
        "level2key2": "level2value2"
    }
}""").toDF("jsonstring")

// define the schema of JSON messages
import org.apache.spark.sql.types._
val key2schema = new StructType()
  .add($"level2key1".string)
  .add($"level2key2".string)
val schema = new StructType()
  .add($"key1".string)
  .add("key2", key2schema)
scala> schema.printTreeString
root
 |-- key1: string (nullable = true)
 |-- key2: struct (nullable = true)
 |    |-- level2key1: string (nullable = true)
 |    |-- level2key2: string (nullable = true)

val messages = jsonstrings
  .select(from_json($"jsonstring", schema) as "json")
  .select("json.*") // <-- flattening nested fields
scala> messages.show(truncate = false)
+------+---------------------------+
|key1  |key2                       |
+------+---------------------------+
|value1|[level2value1,level2value2]|
+------+---------------------------+

scala> messages.select("key1", "key2.*").show(truncate = false)
+------+------------+------------+
|key1  |level2key1  |level2key2  |
+------+------------+------------+
|value1|level2value1|level2value2|
+------+------------+------------+

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

apachespark

apachesparksql

如何从json字符串中提取值？的相关文章

在 Databricks / Spark 中的 SQL 中为变量分配动态值

我觉得我一定在这里遗漏了一些明显的东西但我似乎无法在 Spark SQL 中动态设置变量值假设我有两张桌子 tableSrc and tableBuilder 我正在创建tableDest 我一直在尝试变体 SET myVar FLOA
使用列的长度过滤 DataFrame

我想过滤一个DataFrame使用与列长度相关的条件这个问题可能很简单但我在SO中没有找到任何相关问题更具体地说我有一个DataFrame只有一个Column哪一个ArrayType StringType 我想过滤DataFrame
SBT 对 Scala 类型感到困惑

SBT 抛出以下错误 value split is not a member of String String error filter arg gt arg split delimiter length gt 2 对于以下代码块 impl
PySpark DataFrame 上分组数据的 Pandas 式转换

如果我们有一个由一列类别和一列值组成的 Pandas 数据框我们可以通过执行以下操作来删除每个类别中的平均值 df DemeanedValues df groupby Category Values transform lambda g
按元素聚合数组

Spark scala 相当新我想知道是否有一种简单的方法以按列方式聚合 Array Double 这是一个例子 c1 c2 c3 1 1 1 0 1 0 3 4 1 2 1 0 0 0 4 3 2 1 0 0 0 0 0 0 2 3 1
如何防止 SQL Server 在导入数据时去除前导零

A data file被导入到SQL Server桌子数据文件中的一列是文本数据类型该列中的值只能是整数 SQL Server 数据库中目标表中的相应列的类型为varchar 100 但在数据导入后 SQL Server 会存储以下值
对 Spark 数据集中的数字字符串进行排序

假设我有以下内容Dataset productCode amount XX 13 300 XX 1 250 XX 2 410 XX 9 50 XX 10 35 XX 100 870 Where productCode is of Strin
相当于 scala 中的 python repr()

有没有相当于Python的东西reprscala 中的函数即您可以给任何 scala 对象提供一个函数它将生成该对象的字符串表示形式该对象是有效的 scala 代码 eg val l List Map 1 gt a print re
Scala：“递归值...需要类型”，但我只使用 Java 类型

object Rec extends App val outStream new java io ByteArrayOutputStream val out new java io PrintStream new java io Buffe
Akka中有轻量级的actor吗？

我的用例非常简单在两个对象之间交换少量现在我正在从 Scala Actors 迁移到 Akka 但是我再也找不到那些轻量级 Actors 使用Akka 我不仅需要为Actor创建创建ActorSystem Props 还需要照顾Acto
使用 org.apache.hadoop/* 依赖项离线编译 sbt 时遇到的问题

使用依赖于 org apache hadoop 包的 sbt 进行离线编译时遇到很多麻烦一个简单的build sbt name Test version 1 0 scalaVersion 2 10 4 libraryDependencie
Spark 数据帧分组、排序和选择一组列的顶部行

我正在使用 Spark 1 5 0 我有一个包含以下列的 Spark 数据框 user id description fName weight 我想做的是为每个用户选择前 10 行和后 10 行基于列权重的值数据类型为 Double 如
SBT插件——编译前执行自定义任务

我刚刚编写了我的第一个 SBT 自动插件它有一个生成设置文件的自定义任务如果该文件尚不存在当显式调用任务时一切都会按预期工作但我希望在使用插件编译项目之前自动调用它无需项目修改其 build sbt 文件有没有办法实现这一点
Scala 中的高级类型 [重复]

这个问题在这里已经有答案了我正在阅读 Scala 中的函数式编程一书在 Monoids 章节中他们讨论了 Monoid 接口如下所示 trait Monoid A def op a1 A a2 A A def zero A 后来他
为什么我在 Mac 上看到“java.lang.reflect.InaccessibleObjectException: Unable to make private java.nio.DirectByteBuffer(long,int)accessibl

我已经在工作中愉快地构建代码好几天了但突然我的一个项目不是全部失败并出现此错误消息看看下面的答案吧我是如何修复它的起初我用谷歌搜索看到很多有这个问题的人正在使用 Java 16 但我认为错误我正在使用 Java 11 因为
Spark scala：大量列上的简单 UDF 会导致性能下降

我有一个包含 1 亿行和约 10 000 列的数据框这些列有两种类型标准 C i 和动态 X i 这个dataframe是经过一些处理后得到的性能很快现在只剩下2步了 Goal 需要使用 C i 列的相同子集对每个 X i 执行特定
如何在scala中生成n-gram？

我正在尝试在 scala 中编写基于 n gram 的分离新闻算法如何为大文件生成 n gram 例如对于包含蜜蜂是蜜蜂中的蜜蜂的文件首先它必须选择一个随机的 n 元语法例如蜜蜂然后它必须寻找以 n 1 个单词开头的 n 元
Spark Dataframe/Parquet 中的枚举等效项

我有一个包含数亿行的表我想将其存储在 Spark 的数据帧中并作为 parquet 文件持久保存到磁盘我的 Parquet 文件的大小现在超过 2TB 我想确保我已经对此进行了优化这些列中很大一部分是字符串值它们可能很长但值通常也
如何通过数据框中数组列的索引计算平均值

我正在使用 Spark 2 2 我有一个关于合作的基本问题ArrayType 我没有找到可以使用的内置聚合函数 Given a DataFrame有一个柱子id和一列values of ArrayType 我们想按 id 分组然后按索引计
Pyspark - 一次聚合数据帧的所有列[重复]

这个问题在这里已经有答案了我想将数据框分组到单个列上然后对所有列应用聚合函数例如我有一个包含 10 列的 df 我希望对第一列 1 进行分组然后对所有剩余列均为数字应用聚合函数 sum 与此等效的 R 是 summarise

随机推荐

由给定数字相加形成的所有可能的数字

如果我有n r数字从1 to n where r中间缺少数字那么我如何计算这些数字相加可以形成的所有可能数字以 2 3 4 5 6 为一组例如假设我有5 2数字那是 1 2 4 and 3 5缺失现在我可以形成 1 1 2
使用 Java 查找基元数组中的最大/最小值

编写一个函数来确定数组中的最小值最大值很简单例如 param chars return the max value in the array of chars private static int maxValue char chars
如何清除使用 MVC HTML 帮助器定义的文本框

我不知道如何做这个非常简单的事情我的页面包含一组文本框用户可以填写这些文本框以将项目添加到列表中然后该项目将显示在下拉列表中此时我希望清除添加文本框我认为这是大多数用户所期望的行为该项目已添加现在文本框应该是空的准备好
GestureDetector onScroll()问题（执行3次）

我有这段代码来使用 GestureDetector 检测滚动手势它可以工作只不过它检测到滚动活动 3 次而不是一次我怎样才能让它只检测一次它记录滚动活动 log i 行 3 次并播放声音 mp start 3 次而不是一次也导致
使用 gstreamer 1.12.2 将 MPEG-TS 分割为 MP4 文件

我有一个 MPEG TS 文件其中包含两个视频音频流对 gst discoverer 1 0 Recorder Aug01 12 30 39 ts Analyzing Recorder Aug01 12 30 39 ts Done di
mysql root权限更新information_schema错误

当我尝试从 information schema 数据库更新一张表 GLOBAL VARIABLES 时我收到错误 Access denied for user root localhost to database information
具有角色的 AuthorizeAttribute 但不对角色值进行硬编码

是否可以添加角色但不能对值进行硬编码例如 Authorize Roles members admin 我想从数据库或配置文件中检索这些角色如果我需要为控制器操作添加删除角色则不需要重建应用程序我知道用枚举可以做到 http www
YouTube 视频的播放速度控制？ HTML5？

我需要为 youtube 视频实现一个视频播放速度控制器例如以 1 2 速度播放视频并且我认为 HTML5 是目前实现此目的的唯一方法如果可能的话我对 HTML5 视频知之甚少但对 youtube js API 了解很多有人能
我可以使用heredoc在bash中输入密码吗？

我了解 RSA 身份验证但出于我的目的我想使用heredoc 来指定密码我想要类似下面的东西但我无法让它工作这可能吗 bin bash echo n Enter Password read s password ssh myhos
这是 Boost::Python (Python 3.7) 错误“__init__() should return None, not 'NoneType'”是一个链接问题吗？

Update 我不会将此添加为答案因为我仍然没有从技术上解决该问题但由于我现在花了 2 5 天尝试让 boost python3 工作起来我已经失去了忍受它的意愿我刚刚遇到pybind11 我之前对 python 绑定工具的长时间搜
Android 应用内计费恢复交易

我的应用内计费实施场景 1 主屏幕显示我计划销售的产品列表 2 详细信息屏幕在主屏幕中选择列表项时显示的屏幕将提供购买该产品的选项我的理解是恢复交易请求和检查是否支持 InAppBilling 的请求必须在主屏幕活动中完成其余请求
Eclipse 中的测试有效，但 sbt 抛出 MissingRequirementError: object scala.runtime in compilermirror not found

我正在乱搞解析和scala tools nsc interactive Global在 Scala 中我在 sbt 下执行测试时遇到了问题测试在 Eclipse 上运行良好JUnitRunner和ScalaTest插入在 Google
将选定的音频文件设置为铃声

我正在开发一个应用程序我正在尝试将音频文件设置为铃声我看了很多帖子但没有人真正帮助我所以我决定问这个问题单击按钮时我使用此代码 Override public void onClick View v Intent intent n
按具有相同索引的另一个键数组对 [key => value] 数组进行排序[重复]

这个问题在这里已经有答案了我有一个索引数组我想对其他数组进行排序 order 7 2 1 4 array 1 gt O 2 gt T 4 gt F 7 gt S 我怎样才能订购 array基于 order数组因此输出是 array 7
如何在 Python 中将数据框作为参数传递给 SQL 查询？

我有一个由一列值组成的数据框我想将其作为参数传递以执行以下 sql 查询 query SELECT ValueDate Value FROM Table WHERE ID in 所以我尝试了以及其他许多事情以下内容 df pd rea
如何将 jQuery 安装到 Nuxt.js 中？

我试图在我的项目中添加 jQuery 尽管我收到一个错误指出它未定义 plugins src plugins js svgSprite js mode client src plugins vendor jquery jquery min
仅在提交或用户输入时验证表单字段

我有使用验证的表单字段required 问题是呈现表单时会立即显示错误我希望它仅在用户实际在文本字段中输入或提交后显示我怎样才能实现这个 Use dirty仅在用户与输入交互后才显示错误的标志 div div
string.search() 忽略重音字符？

我需要将重音字符视为与非重音字符相同这是我的代码 var re new RegExp string i if target search re 0 它目前忽略字符的大小写我如何也忽略字符是否重音我认为你必须先删除重音符号然后再进行正
如何从排除另一个元素的元素中获取 html() ？

抱歉问了一个真正愚蠢的问题但无论哪种方式都不起作用 div class content BEFORE div class dontgrab div div
如何从json字符串中提取值？

我有一个文件其中有一堆列和一个名为jsonstring是字符串类型其中包含 json 字符串假设格式如下 key1 value1 key2 level2key1 level2value1 level2key2 level2value2

如何从json字符串中提取值？

如何从json字符串中提取值？ 的相关文章

随机推荐

热门标签

如何从json字符串中提取值？的相关文章