获取 WrappedArray 行值并将其转换为 Scala 中的字符串

2024-03-28

我有一个数据框，如下所示

+---------------------------------------------------------------------+
|value                                                                |
+---------------------------------------------------------------------+
|[WrappedArray(LineItem_organizationId, LineItem_lineItemId)]         |
|[WrappedArray(OrganizationId, LineItemId, SegmentSequence_segmentId)]|
+---------------------------------------------------------------------+

从上面两行我想创建一个这种格式的字符串

"LineItem_organizationId", "LineItem_lineItemId"
"OrganizationId", "LineItemId", "SegmentSequence_segmentId"

我想将其创建为动态的，因此在第一列中存在第三个值，我的字符串将再有一个分隔的列值。

我怎样才能在 Scala 中做到这一点。

这就是我正在做的事情以创建数据框

 val xmlFiles = "C://Users//u6034690//Desktop//SPARK//trfsmallfffile//XML"
    val discriptorFileLOcation = "C://Users//u6034690//Desktop//SPARK//trfsmallfffile//FinancialLineItem//REFXML"
    import sqlContext.implicits._

    val dfDiscriptor = sqlContext.read.format("com.databricks.spark.xml").option("rowTag", "FlatFileDescriptor").load(discriptorFileLOcation)
    dfDiscriptor.printSchema()
    val firstColumn = dfDiscriptor.select($"FFFileType.FFRecord.FFField").as("FFField")
    val FirstColumnOfHeaderFile = firstColumn.select(explode($"FFField")).as("ColumnsDetails").select(explode($"col")).first.get(0).toString().split(",")(5)
    println(FirstColumnOfHeaderFile)
    //dfDiscriptor.printSchema()
    val primaryKeyColumnsFinancialLineItem = dfDiscriptor.select(explode($"FFFileType.FFRecord.FFPrimKey.FFPrimKeyCol"))
    primaryKeyColumnsFinancialLineItem.show(false)

添加完整架构

   root
 |-- FFColumnDelimiter: string (nullable = true)
 |-- FFContentItem: struct (nullable = true)
 |    |-- _VALUE: string (nullable = true)
 |    |-- _ffMajVers: long (nullable = true)
 |    |-- _ffMinVers: double (nullable = true)
 |-- FFFileEncoding: string (nullable = true)
 |-- FFFileType: array (nullable = true)
 |    |-- element: struct (containsNull = true)
 |    |    |-- FFPhysicalFile: array (nullable = true)
 |    |    |    |-- element: struct (containsNull = true)
 |    |    |    |    |-- FFFileName: string (nullable = true)
 |    |    |    |    |-- FFRowCount: long (nullable = true)
 |    |    |-- FFRecord: struct (nullable = true)
 |    |    |    |-- FFField: array (nullable = true)
 |    |    |    |    |-- element: struct (containsNull = true)
 |    |    |    |    |    |-- FFColumnNumber: long (nullable = true)
 |    |    |    |    |    |-- FFDataType: string (nullable = true)
 |    |    |    |    |    |-- FFFacets: struct (nullable = true)
 |    |    |    |    |    |    |-- FFMaxLength: long (nullable = true)
 |    |    |    |    |    |    |-- FFTotalDigits: long (nullable = true)
 |    |    |    |    |    |-- FFFieldIsOptional: boolean (nullable = true)
 |    |    |    |    |    |-- FFFieldName: string (nullable = true)
 |    |    |    |    |    |-- FFForKey: struct (nullable = true)
 |    |    |    |    |    |    |-- FFForKeyCol: string (nullable = true)
 |    |    |    |    |    |    |-- FFForKeyRecord: string (nullable = true)
 |    |    |    |-- FFPrimKey: struct (nullable = true)
 |    |    |    |    |-- FFPrimKeyCol: array (nullable = true)
 |    |    |    |    |    |-- element: string (containsNull = true)
 |    |    |    |-- FFRecordType: string (nullable = true)
 |-- FFHeaderRow: boolean (nullable = true)
 |-- FFId: string (nullable = true)
 |-- FFRowDelimiter: string (nullable = true)
 |-- FFTimeStamp: string (nullable = true)
 |-- _env: string (nullable = true)
 |-- _ffMajVers: long (nullable = true)
 |-- _ffMinVers: double (nullable = true)
 |-- _ffPubstyle: string (nullable = true)
 |-- _schemaLocation: string (nullable = true)
 |-- _sr: string (nullable = true)
 |-- _xmlns: string (nullable = true)
 |-- _xsi: string (nullable = true)

看着你给的dataframe

+---------------------------------------------------------------------+
|value                                                                |
+---------------------------------------------------------------------+
|[WrappedArray(LineItem_organizationId, LineItem_lineItemId)]         |
|[WrappedArray(OrganizationId, LineItemId, SegmentSequence_segmentId)]|
+---------------------------------------------------------------------+

它必须具有以下内容schema

 |-- value: array (nullable = true)
 |    |-- element: array (containsNull = true)
 |    |    |-- element: string (containsNull = true)

如果上述假设成立，那么你应该写一个udf充当

import org.apache.spark.sql.functions._
def arrayToString = udf((arr: collection.mutable.WrappedArray[collection.mutable.WrappedArray[String]]) => arr.flatten.mkString(", "))

并使用它在dataframe as

df.withColumn("value", arrayToString($"value"))

你应该有

+-----------------------------------------------------+
|value                                                |
+-----------------------------------------------------+
|LineItem_organizationId, LineItem_lineItemId         |
|OrganizationId, LineItemId, SegmentSequence_segmentId|
+-----------------------------------------------------+

 |-- value: string (nullable = true)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

apachespark

apachesparksql

获取 WrappedArray 行值并将其转换为 Scala 中的字符串的相关文章

使用 vs code，如何让 scala 格式工作并格式化我的代码？

我的多项目 sbt 存储库中有 scala 格式插件 addSbtPlugin org scalameta sbt scalafmt 2 3 2 所以在 sbt 控制台中如果我运行 scalafmt 它工作正常我的 build sbt 有
在 Spark-submit 上的 _find_and_load 中获取文件“”，第 991 行

我目前使用的是Python 3 7 9 spark spark 2 4 6 bin hadoop2 6 在这个项目 venv 中我的设置为 kafka python 2 0 2 pip 21 2 4 py4j 0 10 9 pyspark
scala 使用 GMPUtil 处理 pidigits

Rex Kerr 发布了有关在 scala 中使用 GMP 的信息特别是运行 pidigits 程序 libjpargmp so 使用 GmpUtil c 生成我的问题是在哪里可以找到 GMPUtil c 我的谷歌搜索没有发现任何东西
idea sbt java.lang.NoClassDefFoundError: org/apache/spark/SparkConf

我是spark的初学者我使用 linux idea sbt 构建了一个环境当我尝试快速启动Spark时我遇到了问题 Exception in thread main java lang NoClassDefFoundError org
Delta Lake 独立于 Apache Spark？

我一直在探索数据湖屋概念和 Delta Lake 它的一些功能看起来真的很有趣就在项目主页上https delta io https delta io 有一个图表显示 Delta Lake 运行在您现有的数据湖上但没有提及 Spar
消息：Hive 架构版本 1.2.0 与 Metastore 的架构版本 2.1.0 不匹配 Metastore 未升级或损坏

环境 spark2 11 hive2 2 hadoop2 8 2 hive shell 运行成功并且没有错误或警告但是当运行application sh时启动失败 usr local spark bin spark submit cl
对于值类型，asInstanceOf[X] 和 toX 之间有什么区别吗？

我使用 IntelliJ 将 Java 代码转换为 Scala 代码的功能通常效果很好看来 IntelliJ 用调用替换了所有强制转换asInstanceOf 是否有任何有效的用法asInstanceOf Int asInstanceO
将元组划分为多个元组的类型安全方法

我们有一个特征除其他外还包含execute T lt Record Seq Session gt T Seq T 方法其中Record是我们从数据库中检索的所有特征的超级特征 trait DbTrait val threadCount
异常：java.lang.Exception：使用 master 'yarn' 运行时，必须在环境中设置 HADOOP_CONF_DIR 或 YARN_CONF_DIR。在火花中

我是新的阿帕奇火花我已经在spark独立模式下测试了一些应用程序但我想运行应用程序yarn模式我正在windows中运行apache spark 2 1 0 这是我的代码 c spark gt spark submit2 master
将 Spark 数据框中的时间戳转换为日期

我见过这里如何将DataFrame中的时间戳转换为日期格式 https stackoverflow com questions 40656001 how to convert timestamp to date format in da
Play 框架 2.0：在 Http.Context 中存储值

我正在尝试在 Play 框架中的 scalaquery 中实现基于请求的会话我使用 scalaquery 创建一个会话并尝试将其存储在当前的 http 上下文中如下所示 def withTransaction A bp BodyP
以有效的方式从 BigQuery 读取到 Spark 中？

使用时BigQuery 连接器 https cloud google com hadoop examples bigquery connector spark example要从 BigQuery 读取数据我发现它首先将所有数据复制到 G
如何更改 SparkContext.sparkUser() 设置（在 pyspark 中）？

我是新来的Spark and pyspark 我使用 pyspark 之后我rdd处理中我试图将其保存到hdfs使用saveAsTextfile 功能但我得到一个没有权限错误消息因为 pyspark 尝试写入hdfs使用我的本地帐
如何从命令行运行scala文件？

scala是否支持scala run xxx scala go语言支持这样运行 go my go 并且Python支持 python my py 但看来 scala xxx scala 仅进行语法检查未观察到任何输出或运行行为那么有没有
压缩 HList 的函数的推断类型

谢谢https github com milessabin shapeless wiki Feature overview shapeless 2 0 0 https github com milessabin shapeless wiki
'val' 或 'var'，可变还是不可变？

我可以定义一个变量通过var 是不可变的 var x scala collection immutable Set aaaaaa bbbbbb println x isInstanceOf scala collection immutab
如何在Scala中实现尾递归快速排序

我写了一个递归版本 def quickSort T xs List T p T T gt Boolean List T xs match case Nil gt Nil case gt val x xs head val left righ
在 Scala 中调用反射案例类构造函数

我可以通过静态反射获取案例类的默认构造函数 val symbol currentMirror classSymbol myObj getClass typeSignature typeSymbol asClass val ctor symb
解析嵌套括号内包含的值

我只是在开玩笑奇怪地发现在简单的递归函数中解析嵌套括号有点棘手例如如果程序的目的是查找用户详细信息它可能来自 name surname age to Bob Builder age 然后到Bob Builder 20 这是一个用于在
Scala：尝试 .getOrElse 与 if/else

我是一名相当新的 Scala 开发人员我是一名经验丰富的 Java 开发人员到目前为止我一直很喜欢 Scala 的简单性我真的很喜欢函数式结构而且它们常常迫使你编写更简洁的代码然而最近我注意到由于舒适性和简单性我最终使用了在

随机推荐

在opencv python中分解单应性矩阵

H K R t 其中H 3 3 是单应矩阵 R是旋转矩阵 K是相机内参数矩阵 t是平移向量我使用棋盘模式计算了 K 如下所示 ret K dist rvecs tvecs cv2 calibrateCamera objpoints img
无法在 Raspberry Pi 上安装 PyQt5 [重复]

这个问题在这里已经有答案了我正在尝试在我的 Raspberry Pi 机器上安装 PyQt5 我努力了 pip3 install pyqt5 pip3 install upgrade pip pip3 install pyqt5 5 14
从 csv 文件中读取列上的多重索引

我有一个如下所示的 csv 文件 Male Male Male Female Female R R L R R 86 67 88 78 81 我想将其读入 df 这样我就有 Male Female R L R 0 86 67 88 78 8
Java 9 中“uses”指令的用途是什么？

Java s ServiceLoaderclass 现已正式融入 Java 语言中而不是寻找供应商META INF services您现在可以使用 provides
PHP 中的符号我以前从未遇到过

我可能应该这样做但我以前从未见过这个在查看 Smarty 插件的文档时遇到了它 smarty new Smarty 特别是符号如果您在 Google 中输入它它会被忽略就像任何其他搜索引擎一样这是做什么用的此函数签名也是如此
通过 Bash 在 Windows 上的 Ubuntu 上安装带有 Postgres 的 Windows 10 上的 PgAdmin

我想在其中安装 Rails 5 Postgres在 Windows 上的 Ubuntu 上 Bash并且还能够通过以下方式访问 Postgres 数据库Windows 版 PgAdmin https www pgadmin org down
将 java.io.StringWriter 转换为 byte[] 数组

如何转换java io StringWriter to byte 大批使用OpenCSV i get StringWriter sw对象和这个sw我想转换成的对象byte array 你可以做 byte bytes stringWrite
如何在IIS 7.5（经典模式）中添加通配符映射？

在 IIS 7 5 经典模式中添加通配符映射的最佳方法是什么你可以看看以下文章 http www asp net mvc tutorials using asp net mvc with different versions of ii
如何读取 dBase 文件的一部分

我有一个非常大的 dBase 文件 1 64Gb 使用标准在 R 中加载整个文件需要很长时间foreign read dbf 功能我只想加载数据集中的几个变量有没有人有办法解决吗我觉得read dbf 包中的函数foreign旨在阅读
致命错误：在非对象上调用成员函数prepare()

这就是我如何将发送器信息构建到 php 文件上以便在登录页面发送到登录页面时
这两个查询中“IS NOT NULL”和“NOT (field = NULL)”之间的区别

以下 2 个查询有什么区别 DELETE FROM experience WHERE end IS NOT NULL And DELETE FROM experience WHERE NOT end NULL 第一个查询被接受为正确答案但
詹金斯管道中的主动选择反应参考参数

我在 dsl 作业中使用 Active Choices Reactive Reference Parameter 插件这里是代码 parameters activeChoiceParam choice1 description selec
有或没有蓝图的两种语言 Flask 站点

我只想为两种语言运行 Flask Web 应用程序我尝试过 from flask import Flask Blueprint g app Flask name bp Blueprint frontend name url prefix
在 R 中索引出具有相同值的后续行

我有以下矩阵名为test High Thresh Sig 2007 02 27 19 01 11 88 1 2007 03 01 19 40 17 29 1 2007 03 02 18 63 17 29 1 2007 03 14 21 25
为什么不以浏览器特定的字节码发送 JavaScript 文件？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案 JavaScript 没有通用的字节码但大多数 JavaScript 引擎都有自己的字节码由于 JavaScript 文件作为源代码字符串传
如何使用scrollTop或scrollTo滚动到div的顶部

我在一个页面上有 4 个模态框如果我将一个卷轴打开到底部关闭它然后重新打开它它会将我置于模式中滚动到最后的位置每个模态都会发生这种情况因此如果我滚动到第一个模态的底部关闭它然后打开第三个模态它将把我带到模态的底部我正在
我可以在不成为系统管理员的情况下修复“找不到版本 GLIBC_2.14”错误吗？

我正在尝试运行一个setup pyConda 环境中远程计算机上的文件我收到以下错误消息 from torch utils cpp extension import BuildExtension CUDAExtension File ho
iOS 弹出“此应用内购买已被购买”

我的 iOS 应用程序遇到问题当我触摸购买按钮购买 IAP 产品时会出现一个弹出窗口显示以下消息此应用内购买已被购买它将免费恢复我以前从未遇到过这种弹出窗口而且我的产品只是不续订订阅所以我想知道为什么在购买订阅时会出现此
Java方法重载+双重调度

谁能详细解释一下重载方法的原因print Parent parent 在使用时被调用Child我的测试代码中的实例这里涉及到 Java 中的虚拟方法或方法重载解析的特殊性吗有直接参考 Java Lang Spec 的吗哪个术语描述了
获取 WrappedArray 行值并将其转换为 Scala 中的字符串

我有一个数据框如下所示 value WrappedArray LineItem organizationId LineItem lineItemId WrappedArray OrganizationId LineItemId Segme

获取 WrappedArray 行值并将其转换为 Scala 中的字符串

获取 WrappedArray 行值并将其转换为 Scala 中的字符串 的相关文章

随机推荐

热门标签

获取 WrappedArray 行值并将其转换为 Scala 中的字符串的相关文章