将嵌套 Spark DataFrame 中的列提取为 scala 数组

2023-12-28

我有一个数据框myDf其中包含点对数组（即 x 和 y 坐标），它具有以下模式：

myDf.printSchema

root
 |-- pts: array (nullable = true)
 |    |-- element: struct (containsNull = true)
 |    |    |-- x: float (nullable = true)
 |    |    |-- y: float (nullable = true)

我想要得到x and y作为单独的普通 ScalaArray的。我想我需要应用爆炸功能，但我不知道如何应用。我尝试申请this https://stackoverflow.com/questions/37172254/select-specific-columns-in-spark-dataframes-from-array-of-struct解决方案，但我无法让它工作。

我正在使用 Spark 1.6.1 和 Scala 2.10

编辑：我意识到我误解了 Spark 的工作原理，只有收集数据（或使用 UDF）才能获取实际的数组

假设myDf is DataFrame读自json file:

{
 "pts":[
    {
     "x":0.0,
     "y":0.1
    },
    {
     "x":1.0,
     "y":1.1
    },
    {
     "x":2.0,
     "y":2.1
    }
  ]
}

你可以做explode像这样：

Java:

DataFrame pts = myDf.select(org.apache.spark.sql.functions.explode(df.col("pts")).as("pts"))
                    .select("pts.x", "pts.y");
pts.printSchema();
pts.show();

Scala:

// Sorry I don't know Scala
// I just interpreted from the above Java code
// Code here may have some mistakes
val pts = myDf.select(explode($"pts").as("pts"))
              .select($"pts.x", $"pts.y")
pts.printSchema()
pts.show()

这是打印的架构：

root
 |-- x: double (nullable = true)
 |-- y: double (nullable = true)

这是pts.show() result:

+---+---+
|  x|  y|
+---+---+
|0.0|0.1|
|1.0|1.1|
|2.0|2.1|
+---+---+

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

apachespark

将嵌套 Spark DataFrame 中的列提取为 scala 数组的相关文章

createOrReplaceTempView 在 Spark 中如何工作？

我是 Spark 和 Spark SQL 的新手如何createOrReplaceTempView在 Spark 工作如果我们注册一个RDD对象作为表 Spark 会将所有数据保留在内存中吗 createOrReplaceTempVie
如何在 akka actor 中测试公共方法？

我有一个 akka 演员 class MyActor extends Actor def recieve def getCount id String Int do a lot of stuff proccess id do more st
将 Spark 添加到 Oozie 共享库

默认情况下 Oozie 共享 lib 目录提供 Hive Pig 和 Map Reduce 的库如果我想在 Oozie 上运行 Spark 作业最好将 Spark lib jar 添加到 Oozie 的共享库而不是将它们复制到应用程序
带可变参数的 Spark UDF

如文档中所示列出最多 22 个参数是唯一的选择吗 https spark apache org docs 1 5 0 api scala index html org apache spark sql UDFRegistration ht
使用 PySpark 从 azure blob 存储读取 csv 文件

我正在尝试使用 Microsoft Azure 上的 PySpark HDInsight 集群来做一个机器学习项目要在我的集群上进行操作请使用 Jupyter 笔记本另外我的数据一个 csv 文件存储在 Azure Blob 存
从 pySpark 中的字典构建一行

我正在尝试在 pySpark 1 6 1 中动态构建一行然后将其构建到数据帧中总体思路是扩展结果describe例如包括偏斜和峰度这是我认为应该起作用的 from pyspark sql import Row row dict C0
当我们在 Apache Spark 中使用时，无法找到 Set([TOPIC NAME,0])) 的领导者

我们使用 Apache Spark 1 5 1 和 kafka 2 10 0 8 2 1 以及 Kafka DirectStream API 通过 Spark 从 Kafka 获取数据我们使用以下设置在 Kafka 中创建了主题复制因子
错误：无法在 scala 中找到或加载主类

安装 eclipse scala 插件和 eclipse maven scala 插件后我是 scala 新手所以我尝试确保在测试 scala hello world 项目后环境正常工作它按预期工作但我在尝试执行我从公司存储库中签出
Apache Spark 何时发生混洗？

我正在优化 Spark 中的参数并且想确切地了解 Spark 是如何对数据进行洗牌的准确地说我有一个简单的字数统计程序并且想知道spark shuffle file buffer kb如何影响运行时间现在当我将此参数设置得非常高
Scalaz 拆箱标记类型不会自动拆箱

Reading http eed3si9n com learning scalaz Tagged type html http eed3si9n com learning scalaz Tagged type html并尝试示例代码 imp
按元素聚合数组

Spark scala 相当新我想知道是否有一种简单的方法以按列方式聚合 Array Double 这是一个例子 c1 c2 c3 1 1 1 0 1 0 3 4 1 2 1 0 0 0 4 3 2 1 0 0 0 0 0 0 2 3 1
xsbt 插件 1.0.0-M7 和 scalatra

我尝试在我的 scalatra 项目中将 xsbt 插件升级到 1 0 0 M7 但 scalatra 似乎与此版本不兼容当我尝试重新加载项目时出现以下错误我尝试过 scalatra 2 3 0 版本问候德斯 java lang
来自 Janino 和 Commons-Compiler 的 Spark java.lang.NoSuchMethodError

我正在构建一个使用 Spark 进行基于随机森林分类的应用程序当尝试运行该程序时我从该行收到异常 StringIndexerModel labelIndexer new StringIndexer setInputCol label
Scala 2.8 中 <:<、<%< 和 =:= 的含义是什么？它们的文档在哪里？

我可以在 API 文档中看到Predef https scala lang org files archive api 2 8 2 scala Predef 24 html它们是通用函数类型 From gt To 的子类但仅此而已嗯什么
Scala 中用于阻止调用的 Future

The Akka文档说 you may be tempted to just wrap the blocking call inside a Future and work with that instead but this strate
在 Scala 中反转地图的优雅方法

目前正在学习Scala 需要反转Map 来进行一些反转值 gt 键查找我一直在寻找一种简单的方法来做到这一点但只想到了 Map origMap map kvp gt kvp 2 gt kvp 1 有人有更优雅的方法吗假设值是唯一的则
Map 和 Set 的实际类（不是抽象类，也不是特征类）是什么？

在 Scala 中映射和集合文字可以通过以下方式创建 val m Map 1 gt a 以及引用的类型m字面意思都是Map Int String 然而 scala文档表明Map实际上是一个特征具有需要实现才能实例化的抽象成员 scala
为什么我在 Mac 上看到“java.lang.reflect.InaccessibleObjectException: Unable to make private java.nio.DirectByteBuffer(long,int)accessibl

我已经在工作中愉快地构建代码好几天了但突然我的一个项目不是全部失败并出现此错误消息看看下面的答案吧我是如何修复它的起初我用谷歌搜索看到很多有这个问题的人正在使用 Java 16 但我认为错误我正在使用 Java 11 因为
在 AKKA 中，对主管调用 shutdown 是否会停止其监督的所有参与者？

假设我有一位主管连接了 2 位演员当我的应用程序关闭时我想优雅地关闭这些参与者调用supervisor shutdown 是否会停止所有参与者还是我仍然需要手动停止我的参与者 gracias 阻止主管 https github co
与文件名中的冒号“：”作斗争

我有以下代码用于加载大量 csv gz 并将它们转储到其他文件夹中并将源文件名作为一列 object DailyMerger extends App def allFiles path File List File val parts

随机推荐

从 Kendo Grid 导出到 Excel 后，日期时间列存在 28 秒差异

我们的 Web 应用程序中有一些网格并且我们使用 Kendo 来实现 ASP Net MVC 一些客户报告将网格数据导出到 Excel 时日期不同例如第一行来自控制器如下所示 SaleDate 2018 05 30T00 00 00
在引导模式中显示ajax调用结果

我需要在引导模式中显示多个数据为此我所做的是 js file seeProfile on show function see user on click function e e preventDefault var id this d
Knex：获取连接超时。泳池可能已经满了。您是否错过了 .transacting(trx) 调用？

我使用以下代码进行 knex 连接但经常发生错误 Knex 获取连接超时泳池可能已经满了您是否错过了 transacting trx 调用有人可以建议这个问题的解决方案吗 var knexConn reqKnex client pC
SceneKit 从单独的 scn 文件中加载带有动画的节点

我有一个动态创建 SCNView 的视图它的场景是空的但是当我按下按钮时我想从单独的 scn 文件添加一个节点该文件包含动画我希望它在主场景中制作动画问题是将对象添加到场景后它没有动画当我使用这个文件作为 SCNView
Facebook 有 OAuth 的刷新令牌吗？

Facebook 有 OAuth 的刷新令牌吗我想知道是否有刷新令牌它会过期多久 60天如果 Facebook 没有刷新令牌那么我是否可以将长期访问令牌理解为刷新令牌将短期访问令牌理解为访问令牌 Thanks Facebook 不
Rspec Rails 打印大量警告

我正在使用 rspec rails 3 0 1 测试 Rails 4 1 0 应用程序 rspec 命令正在打印大量有关我在应用程序中使用的 gem 的警告我在下面包含了部分输出我想知道是否可以抑制这种情况 home indika Do
列出从孩子到父母的分配

我正在尝试这样做 List
我可以拥有的最大“POST”大小是多少？

很抱歉如果这是一个重复的问题但我找不到有关我的问题的任何实质性信息目前我有一个 Java GWT 应用程序它调用部署在应用程序引擎上的 python 脚本他们通过 REST 进行通信那么我可以发送到部署脚本的 Google
Geoviews：向分区统计图添加滑块

我正在研究 GeoViews 我想知道我们是否可以有一个滑块作为 GeoViews 中的分区统计图的输入我在 gdf 中有另一个变量即年份是否可以有一个滑块来显示年份的 Total Crimes Edit 添加了更多信息 gdf数据框
updateSelectInput 不更新 selectInput 的 input$id 值

我正在开发一个用于教育目的的应用程序该应用程序应该显示用户上传的数据图用户被要求上传一个 csv 文件然后从该文件中选择两个将被绘制的变量我提供了两个可与repex一起使用的数据文件的代码 uniformData csv包含来自均匀
让 jquery.load 在 HTML 加载之前发生

我的文件中有一个引导导航栏 navbar html我将它加载到我的 HTML 页面中Jquery load 我的 HTML 页面底部有这个 and div div
SparkSQL DataFrame 跨分区排序

我正在使用 Spark sql 对我的数据集运行查询查询的结果非常小但仍然是分区的我想合并生成的 DataFrame 并按列对行进行排序我试过 DataFrame result sparkSQLContext sql my sql
从不同设备访问 Flask

有没有办法生成特定的IP地址或制作flask的特定站点http 127 0 0 1 5000 http 127 0 0 1 5000 在本地运行的站点用于从不同设备访问使用 Flask 制作的 Web 应用程序因为默认情况下它在本地运行
下载并在 jQuery 中打开文件

我通过 aspx 页面下载文件并返回一个文件 HttpContext Current Response ContentType APPLICATION OCTET STREAM String Header Attachment Filena
将数据从 csv 文件转换为“xts”对象

我有 CSV 文件其日期格式如下 2004 年 8 月 25 日我想将其读取为 xts 对象以便使用 quantmod 包中的函数 periodReturn 我可以使用以下文件来实现该功能吗 Symbol Series Date Pr
Webpack 开发服务器配置 - contentBase 在最新版本中不起作用

当我将 webpack 升级到 4 0 0 beta 3 并运行时npx webpack serve我收到此错误 webpack cli Invalid configuration object Object has been initia
为什么执行函数后实例变量没有丢失？

通常我希望函数变量在执行该函数后会丢失在下面的例子中我按照一些教程编写了一个单例但它是有效的有人可能会争辩说instances每次都应该再次为空singleton函数被调用 def singleton cls instances
什么是 sqlite 的良好 OO C++ 包装器 [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我想为 sqlite 找到一个好的面向对象的 C 而不是 C 包装器人们推荐什么如果您有多个建议请将它们放在单独的回复中以便投票另
如何将 Thunderbird Lightning 扩展“破解”为全彩色类别

Note While I m not entirely sure if this be better asked on SuperUser I guess the fact that you probably will have to me
将嵌套 Spark DataFrame 中的列提取为 scala 数组

我有一个数据框myDf其中包含点对数组即 x 和 y 坐标它具有以下模式 myDf printSchema root pts array nullable true element struct containsNull true x

将嵌套 Spark DataFrame 中的列提取为 scala 数组

将嵌套 Spark DataFrame 中的列提取为 scala 数组 的相关文章

随机推荐

热门标签

将嵌套 Spark DataFrame 中的列提取为 scala 数组的相关文章