从 scala 中的嵌套 json 文件创建 Spark 数据框 [重复]

2023-12-02

我有一个如下所示的 json 文件

{
"group" : {},
"lang" : [ 
    [ 1, "scala", "functional" ], 
    [ 2, "java","object" ], 
    [ 3, "py","interpreted" ]
]
}

我尝试使用创建一个数据框

val path = "some/path/to/jsonFile.json"
val df = sqlContext.read.json(path)
df.show()

当我运行这个时我得到

df: org.apache.spark.sql.DataFrame = [_corrupt_record: string]

我们如何根据“lang”键的内容创建 df？我不关心 group{} 我需要的只是从“lang”中提取数据并应用这样的案例类

case class ProgLang (id: Int, lang: String, type: String )

我读过这篇文章使用 Apache Spark 读取 JSON - `corrupt_record`并了解每条记录都需要换行，但就我而言，我无法更改文件结构

The json格式错误。的json api of sqlContext正在将其读取为损坏的记录。正确的形式是

{"group":{},"lang":[[1,"scala","functional"],[2,"java","object"],[3,"py","interpreted"]]}

假设你把它放在一个文件（“/home/test.json”）中，那么你可以使用以下方法来获取dataframe你要

import org.apache.spark.sql.functions._
import sqlContext.implicits._

val df = sqlContext.read.json("/home/test.json")

val df2 = df.withColumn("lang", explode($"lang"))
    .withColumn("id", $"lang"(0))
    .withColumn("langs", $"lang"(1))
    .withColumn("type", $"lang"(2))
    .drop("lang")
    .withColumnRenamed("langs", "lang")
    .show(false)

你应该有

+---+-----+-----------+
|id |lang |type       |
+---+-----+-----------+
|1  |scala|functional |
|2  |java |object     |
|3  |py   |interpreted|
+---+-----+-----------+

Updated

如果您不想更改下面评论中提到的输入 json 格式，您可以使用wholeTextFiles阅读json文件和parse如下

import sqlContext.implicits._
import org.apache.spark.sql.functions._

val readJSON = sc.wholeTextFiles("/home/test.json")
  .map(x => x._2)
  .map(data => data.replaceAll("\n", ""))

val df = sqlContext.read.json(readJSON)

val df2 = df.withColumn("lang", explode($"lang"))
  .withColumn("id", $"lang"(0).cast(IntegerType))
  .withColumn("langs", $"lang"(1))
  .withColumn("type", $"lang"(2))
  .drop("lang")
  .withColumnRenamed("langs", "lang")

df2.show(false)
df2.printSchema

它应该给你dataframe如上所述和schema as

root
 |-- id: integer (nullable = true)
 |-- lang: string (nullable = true)
 |-- type: string (nullable = true)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

apachespark

DataFrame

nested

apachesparksql

从 scala 中的嵌套 json 文件创建 Spark 数据框 [重复] 的相关文章

熊猫滚动意味着更新

考虑数据框 df pd DataFrame a None None None None 1 2 1 0 1 b 5 4 6 7 None None None None None gt gt a b 0 NaN 5 0 1 NaN 4 0 2
在 Scala 中调用反射案例类构造函数

我可以通过静态反射获取案例类的默认构造函数 val symbol currentMirror classSymbol myObj getClass typeSignature typeSymbol asClass val ctor symb
如何询问 Scala 类型参数的所有实例化是否存在证据？

给定皮亚诺数的以下类型级加法函数 sealed trait Nat class O extends Nat class S N lt Nat extends Nat type plus a lt Nat b lt Nat a match c
从 csv 中读取 pandas 数据帧，以非固定标头开始

我有许多数据文件是由我的实验室中使用的一些相当黑客的脚本生成的该脚本非常有趣因为它在标头之前附加的行数因文件而异尽管它们具有相同的格式并具有相同的标头我正在编写一个批处理来将所有这些文件处理为数据帧如果我不知道位置如何让 pan
Twitter Future 与 Scala Future 相比有何优势？

我知道 Scala Future 变得更好的很多原因有什么理由改用 Twitter Future 吗除了 Finagle 使用它这一事实之外免责声明我在 Twitter 负责 Future 的实施一点背景知识在 Scala 有一
如何将函数应用于多个 pandas 数据框

我有多个数据框 df1 df2 df3 dfn 它们具有相同类型的数据但来自无法连接的不同描述符组现在我需要手动将相同的函数应用于每个数据帧如何将相同的函数应用于多个数据框 pipe https pandas pydata org p
如何从 Databricks Delta 表中删除列？

我最近开始发现 Databricks 并遇到了需要删除增量表的特定列的情况当我使用 PostgreSQL 时它就像 ALTER TABLE main metrics table DROP COLUMN metric 1 我正在浏览 Da
.java 和 .scala 类之间是否可能存在循环依赖？

假设我在 java 文件中定义了类 A 在 scala 文件中定义了类 B A 类使用 B 类 B 类使用 A 类如果我使用 java 编译器则会出现编译错误因为 B 类尚未编译如果我使用scala编译器A类将找不到有没有可以同时
Nest Elastic - 构建动态嵌套查询

我必须使用 Nest 查询嵌套对象但是查询是以动态方式构建的下面的代码演示了以静态方式对嵌套书籍进行查询 QueryContainer qry qry new QueryStringQuery DefaultField name D
Spark：替换嵌套列中的空值

我想更换所有n a以下数据框中的值unknown 它可以是scalar or complex nested column 如果它是一个StructField column我可以循环遍历列并替换n a using WithColumn 但我希
如何使用to_sql将pandas数据帧写入oracle数据库？

我是一个新的oracle学习者我正在尝试将 pandas 数据帧写入 oracle 表中经过网上研究我发现代码本身很简单但我不知道为什么我的代码不起作用我已经从本地文件中读取了 pandas 数据框 import cx Oracl
Pandas DataFrame：如何计算组中第一行和最后一行的差异？

这是我的熊猫数据框 import pandas as pd import numpy as np data column1 338 519 871 1731 2693 2963 3379 3789 3910 4109 4307 4800 4
如何在 Scala 中编写 Pig UDF

我正在尝试在 Scala 中编写 Pig UDF 使用 Eclipse 我已将 pig jar 添加为 java 构建路径中的库这似乎解决了以下 2 个导入问题导入 org apache pig EvalFunc 导入 org apac
Scala 中奇怪的类型不匹配

我希望这个问题还没有在其他地方得到解答在这里没有找到答案在我的本地化系统中我有一个名为 Language 的类 class Language val name String dict HashMap String String def
清理 IntelliJ 中构建的 Play 框架

我有一个拼写错误conf routes文件导致 Play Framework 生成错误命名的类重建项目并运行Invalidate Caches并没有解决 IntelliJ 中的问题当我手动运行时重新生成了不正确的类文件play clea
';'预期但发现“导入” - Scala 和 Spark

我正在尝试使用 Spark 和 Scala 来编译一个独立的应用程序我不知道为什么会收到此错误 topicModel scala 2 expected but import found error import org apache sp
创建 df 以生成给定格式的 json

我正在尝试生成一个 df 来生成下面的 json Json数据 name flare children name K1 children name Exact size 4 name synonyms size 14 name K2 chi
使用 sapply 的列表和矩阵

我有一个也许是基本的问题我在网上搜索过我在读取文件时遇到问题尽管如此我还是按照 Konrad的建议设法读取了我的文件我很欣赏这一点 How to get R to read in files from multiple subdi
根据条件计算平均值

下面是我的数据框 Row ID A B 1 0 0 2 0 0 3 0 0 4 0 1 5 0 1 6 0 1 7 62 75 0 8 100 0 9 100 0 10 100 1 11 100 1 12 100 1 13 100 1 14
使用 pyspark 计算所有可能的单词对

我有一个文本文档我需要找到整个文档中重复单词对的可能数量例如我有下面的word文档该文档有两行每行用分隔文档 My name is Sam My name is Sam My name is Sam My name is Sa

随机推荐

从所有浏览器注销用户

我在用着表单验证mechanizm 和 auth 用户通过 FormsAuthentication SetAuthCookie Can I logout当前用户来自所有浏览器不知何故在认证参数中添加一个guid参数还将 guid 保存到
动态CRM插件下载Word文档

我创建了 CRM 插件在创建案例时需要将文档下载到客户端当我创建案例时插件正在工作但它不下载文档在控制台中我可以看到通过 POST 请求返回文档内容 AppWebServices InlineEditWebService asmx
如何将从 sha1 字节数组生成的字符串返回到该字节数组？

首先很抱歉英语不好好吧我想从 torrent 文件中读取片段哈希信息目前我正在使用https github com hyPiRion java bencode这个 Bencode 库来解码信息但我的问题是当我想将片段字符串转换为字
自定义MKOverlayRenderer drawMapRect函数不绘制多边形

我构建了一个自定义 MKOverlayRenderer 来构建多边形应用混合模式然后将它们添加到地图视图中在我的drawMapRect函数中我使用CGPoints数组来构建多边形并创建一条路径但是在运行时我的地图视图上没有显
JavaScript：一个变量可以有多个值吗？

除了 jQuery 之外我对 JavaScript 还很陌生我正在阅读 JavaScript 数组中的随机化以及使用带有随机数的 Array sort 方法的缺点我看到建议是使用 Fisher Yates 洗牌查看此方法的 Java
导入错误：没有名为 base 的模块

我正在尝试为我的第一次登录测试实现 PageObject 模式运行时我收到以下错误 gt gt py test v test login py test session starts platform linux2 Python 2 7
Django OneToOne 反向关系当空时DoesNotExists

我正在使用 Django 1 8 3 以及 Rest Framework 和 json api https github com django json api django rest framework json api 我有这种一对一的
Java 中的斐波那契数列耗时太长？

我试图在 Java 中找到斐波那契数列的总和但运行时间太长或者是应该的每当我使用超过 40 的整数时速度都会变慢注意在 50 时返回负值这让我很困惑有什么建议吗 public static void main String
JAAS认证新手；使用 URL 栏中的令牌登录 [关闭]

Closed 这个问题需要多问focused 目前不接受答案我有一个有趣的项目要求我们必须接受令牌作为 GET 参数以对进入应用程序的用户进行身份验证这是为了允许受信任的第三方将用户无缝地发送到我们的网站而无需让他们再次登录一个
IE 中的 org.openqa.selenium.NoSuchElementException 错误，但相同的代码在 Chrome 和 Firefox 中工作正常

我编写了一个登录脚本当我使用 ChromeDirver 和 FFDriver 执行它时它工作正常但是当我使用 IE 驱动程序运行相同的命令时它失败并给出以下错误 Exception in thread main org openqa
SVG 在 Firefox 中仅部分显示

我目前正在使用 SVG 格式的瑞士地图这
在ADT中使用Drawerlayout时，选项列表中没有显示layout_width属性

我是 Android 新手我研究了 Google 的导航抽屉示例http developer android com training implementing navigation nav drawer html 我在 eclipse
带有母版页/模板的 React Router V4 路由器

我对反应和尝试创建一个具有两种设计的应用程序相对较新一种是具有公共页眉和页脚的公共网站以及具有管理页眉和侧栏的内部应用程序我创建了一个路由器和 2 个主路由和 app 然后我添加了子路由希望如果父路由器匹配它将显示父组件并将子路
从列表中删除字典

如果我有一个字典列表请说 id 1 name paul id 2 name john 我想删除字典id共 2 个或姓名 john 以编程方式处理此问题的最有效方法是什么也就是说我不知道列表中条目的索引因此不能简单地弹出它 thel
Scala 中的广义结构类型一致性

我对使特定类型符合更通用的结构类型的问题感兴趣考虑以下示例 trait Sup trait Sub extends Sup type General def contra o Sub Unit def co Sup def default
重复本地通知会立即触发——如何推迟？

我的目标是设置一个在未来N秒后第一次发生的通知然后每N秒重复一次但是创建重复通知似乎会触发UNUserNotificationCenterDelegate立即地应用程序委托 func application application
检查图像是否存在恶意代码并将其删除

如何检测上传的图像是否包含恶意代码并将其从临时文件夹中删除 code FILES file tmp name 据我所知没有办法阻止它访问 tmp 文件夹我读到我可以使用 file data getimagesize FILES file
如何使用blueimp jQuery文件上传：Struts 2中文件上传结果为空，文件项为空

我使用的是Blueimp 服务器端是Java Struts2 我找不到使用 Java 的示例无论如何我设法使用示例代码但我得到了 Empty file upload result 当我也尝试上传单个文件时 HTML 部分是相同的我不在
如何在 Perl 程序中创建等待省略号？

以下代码无法正常工作 print Processing your listing sleep n print sleep n print sleep n print n n 试图在有的地方得到一些东西然后另一个然后另一个进而Proce
从 scala 中的嵌套 json 文件创建 Spark 数据框 [重复]

这个问题在这里已经有答案了我有一个如下所示的 json 文件 group lang 1 scala functional 2 java object 3 py interpreted 我尝试使用创建一个数据框 val path some

从 scala 中的嵌套 json 文件创建 Spark 数据框 [重复]

从 scala 中的嵌套 json 文件创建 Spark 数据框 [重复] 的相关文章

随机推荐

热门标签