从数据帧中提取值会因 .在 Spark 的列名中

2024-03-02

这是我现有的数据框

+------------------+-------------------------+-----------+---------------+-------------------------+---------------------------+------------------------+--------------------------+---------------+-----------+----------------+-----------------+----------------------+--------------------------+-----------+--------------------+-----------+--------------------------------------------------------------------------------------------+-----------------------+------------------+-----------------------------+-----------------------+----------------------------------+
|DataPartition     |TimeStamp                |_lineItemId|_organizationId|fl:FinancialConceptGlobal|fl:FinancialConceptGlobalId|fl:FinancialConceptLocal|fl:FinancialConceptLocalId|fl:InstrumentId|fl:IsCredit|fl:IsDimensional|fl:IsRangeAllowed|fl:IsSegmentedByOrigin|fl:SegmentGroupDescription|fl:Segments|fl:StatementTypeCode|FFAction|!||LineItemName                                                                                |LineItemName.languageId|LocalLanguageLabel|LocalLanguageLabel.languageId|SegmentChildDescription|SegmentChildDescription.languageId|
+------------------+-------------------------+-----------+---------------+-------------------------+---------------------------+------------------------+--------------------------+---------------+-----------+----------------+-----------------+----------------------+--------------------------+-----------+--------------------+-----------+--------------------------------------------------------------------------------------------+-----------------------+------------------+-----------------------------+-----------------------+----------------------------------+
|SelfSourcedPrivate|2017-11-02T10:23:59+00:00|3          |4298009288     |XTOT                     |3016350                    |null                    |null                      |null           |true       |false           |false            |false                 |null                      |null       |BAL                 |I|!|       |Total Assets                                                                                |505074                 |null              |null                         |null                   |null                              |

这是上面数据框的架构

root
 |-- DataPartition: string (nullable = true)
 |-- TimeStamp: string (nullable = true)
 |-- _lineItemId: long (nullable = true)
 |-- _organizationId: long (nullable = true)
 |-- fl:FinancialConceptGlobal: string (nullable = true)
 |-- fl:FinancialConceptGlobalId: long (nullable = true)
 |-- fl:FinancialConceptLocal: string (nullable = true)
 |-- fl:FinancialConceptLocalId: long (nullable = true)
 |-- fl:InstrumentId: long (nullable = true)
 |-- fl:IsCredit: boolean (nullable = true)
 |-- fl:IsDimensional: boolean (nullable = true)
 |-- fl:IsRangeAllowed: boolean (nullable = true)
 |-- fl:IsSegmentedByOrigin: boolean (nullable = true)
 |-- fl:SegmentGroupDescription: string (nullable = true)
 |-- fl:Segments: struct (nullable = true)
 |    |-- fl:SegmentSequence: struct (nullable = true)
 |    |    |-- _VALUE: long (nullable = true)
 |    |    |-- _segmentId: long (nullable = true)
 |-- fl:StatementTypeCode: string (nullable = true)
 |-- FFAction|!|: string (nullable = true)
 |-- LineItemName: string (nullable = true)
 |-- LineItemName.languageId: long (nullable = true)
 |-- LocalLanguageLabel: string (nullable = true)
 |-- LocalLanguageLabel.languageId: long (nullable = true)
 |-- SegmentChildDescription: string (nullable = true)
 |-- SegmentChildDescription.languageId: long (nullable = true)

我想使用下面的代码重命名数据框的标题列。

 val temp = dfTypeNew.select(dfTypeNew.columns.filter(x => !x.equals("fl:Segments")).map(x => col(x).as(x.replace("_", "LineItem_").replace("fl:", ""))): _*)

当我这样做时，我收到以下错误

线程“main”org.apache.spark.sql.AnalysisException 中出现异常：无法从 LineItemName#368 中提取值：需要结构类型，但得到了细绳;

当我重命名我的列时没有.我能够提取

错误的存在是因为(.)点用于访问struct场地要读取具有列名的字段，请使用反引号，如下所示

  val df = Seq(
    ("a","b","c"),
    ("a","b","c")
  ).toDF("x", "y", "z.z")

  df.select("x", "`z.z`").show(false)

Output

+---+---+
|a  |c.c|
+---+---+
|a  |c  |
|a  |c  |
+---+---+

希望这可以帮助！

拉梅什编辑

@Anupam，你所要做的就是使用 Shankar 在你的代码中建议的上述技术

val temp = dfTypeNew.select(dfTypeNew.columns.filter(x => !x.equals("fl:Segments")).map(x => col(s"`${x}`").as(x.replace("_", "LineItem_").replace("fl:", ""))): _*)

就这样。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

apachespark

apachesparksql

从数据帧中提取值会因 .在 Spark 的列名中的相关文章

Play框架：单属性案例类的JSON读取

我正在尝试为包含单个属性的案例类创建隐式 JSON Reads 但收到错误 Reads Nothing 不符合预期类型这是代码 import play api libs functional syntax import play api
使用 Scala 获取 Spark 数据集中最新时间戳对应的行

我对 Spark 和 Scala 比较陌生我有一个具有以下格式的数据框 Col1 Col2 Col3 Col 4 Col 5 Col TS Col 7 1234 AAAA 1111 afsdf ewqre 1970 01 01 00 00
理解 Scala FP 库

只是为了让那些想要开始使用 Scala FP 库在纯 FP 方面变得更好的人快速清晰地了解有人能澄清猫和猫效应猫效应 IO 之间的区别关系吗最重要的是齐奥和莫尼克斯对此有何看法最后与 ScalaZ 7 8 有何关系到目前为
Scala中有类似Java Stream的“peek”操作吗？

在Java中你可以调用peek x gt println x 在 Stream 上它将对每个元素执行操作并返回原始流这与 foreach 不同 foreach 是 Unit Scala 中是否有类似的东西最好是适用于所有 Monady
在 Scala 中将元素追加到列表末尾

我无法添加 type 元素T到一个列表中List T 我尝试过myList myElement但它似乎创建了一个奇怪的对象并访问myList last始终返回放入列表中的第一个元素我怎么解决这个问题 List 1 2 3 4 Result
Spark DataFrame 序列化为无效 json

TL DR 当我倾倒 Spark 时DataFrame作为 json 我总是得到类似的结果 key1 v11 key2 v21 key1 v12 key2 v22 key1 v13 key2 v23 这是无效的 json 我可以手动编辑转储
解决“Show”类型类实例的隐式问题

我正在努力使Gender实施Show类型类 scala gt trait Gender extends Show Gender defined trait Gender scala gt case object Male extends G
应对失败的“未来”

给出以下两种方法 def f Future Int Future 10 def g Future Int Future 5 我想把它们写成 scala gt import scala concurrent Future import sca
Scala Spark 包含与不包含

我可以使用 contains 过滤 RDD 中的元组如下所示但是使用不包含来过滤 RDD 又如何呢 val rdd2 rdd1 filter x gt x 1 contains 我找不到这个的语法假设这是可能的并且我没有使用Dat
Spark 中的 Distinct() 函数如何工作？

我是 Apache Spark 的新手正在学习基本功能有一个小疑问假设我有一个元组键值的 RDD 并且想从中获取一些唯一的元组我使用distinct 函数我想知道该函数基于什么基础认为元组是不同的是基于键值还是两者 di
如何在 sbt 控制台中加载 scala 文件？ [复制]

这个问题在这里已经有答案了可能的重复将 Scala 文件加载到解释器中以使用函数 https stackoverflow com questions 7383436 load scala file into interpreter to
获取SettingKey[T]的值

我正在开发一个用于文档生成的插件我想将所有生成的文件输出到我选择的目录中该目录可以是SBT的子目录target目录如下 val newTargetDirectory SettingKey File document target di
将 Tuple2 的值部分（即映射）合并为按 Tuple2 的键分组的单个映射

我在 Scala 和 Spark 中这样做我有和Dataset of Tuple2 as Dataset String Map String String 下面是值的示例Dataset A 1 gt 100 2 gt 200 3 gt 1
Spark 2.2 无法将 df 写入 parquet

我正在构建一个聚类算法我需要存储模型以供将来加载我有一个具有以下架构的数据框 val schema new StructType add StructField uniqueId LongType add StructField tim
从 pyspark.sql 中的列表创建数据框

我完全陷入了有线的境地现在我有一个清单li li example data map lambda x get labeled prediction w x collect print li type li 输出就像 0 0 59 0 0
为什么这些类型参数不符合类型细化？

为什么此 Scala 代码无法进行类型检查 trait T type A trait GenFoo A0 S lt T type A A0 trait Foo S lt T extends GenFoo S A S 我不明白为什么类型参数
Scala 案例类忽略 Spark shell 中的导入

我希望这个问题有一个明显的答案我刚刚升级到 Spark v2 0 并且遇到了一个奇怪的问题火花外壳 Scala 2 11 版本如果我输入以下最小的 Scala import java sql Timestamp case class C
使用 Shapeless 记录组合任意数量的状态更改函数

我正在尝试移植combineReducers从 Redux 到 Scala 这个想法是每个函数控制它的一小部分状态并且combineReducers创建一个控制整个状态的函数我无法找出应该像这样工作的函数所需的签名 sealed trai
scala 返回列表中的第一个 Some

我有一个清单l List T1 目前我正在执行以下操作 myfun T1 gt Option T2 val x Option T2 l map myfun l flatten find gt true The myfun函数返回 None
如何在不从 DataFrame 转换并访问它的情况下向数据集添加列？

我知道使用以下方法将新列添加到 Spark 数据集的方法 withColumn and a UDF 它返回一个 DataFrame 我还知道我们可以将生成的 DataFrame 转换为 DataSet 我的问题是如果我们仍然遵循传统的

随机推荐

如何加快 AWS 设备场上的 Selenium 测试速度？

我正在使用 Python 在 AWS 设备场上进行测试看来开始使用硒需要非常非常长的时间这是我使用的代码 from time import time from boto3 import client from selenium impo
增加 sas 内存/memsize

您好有一个包含大约 6000 个观测值和 250 个变量的数据集我正在尝试使用 proc mix 在 sas 中运行混合模型但我不断收到错误由于内存不足 sas 系统停止处理此步骤我尝试了康奈尔大学的方法 http www ci
为什么@RequestBody得到一个带有null属性的对象

我有一个 springboot REST 控制器其中包含所示的 PATCH 和 PUT 请求方法由于某种原因 RequestBody 公司的字段属性作为空值出现我缺少什么我在前端使用 angular8 它正在执行 PATCH 调
在移动网站上禁用 JavaScript

我的网站上有一个聊天小部件它占据了手机的整个屏幕如何在一定宽度的设备或手机上禁用聊天设备
“可视化页面编辑器对 Windows 64 位提供实验性支持”

我正在使用 Eclipse Luna 和 JBoss AS 7 当我在 Eclipse 中创建 JSP 页面时出现以下错误我将服务器更改为 Tomcat 7 但仍然遇到相同的错误这是如何引起的以及如何解决该可视化页面编辑器是JBos
扩展 Javascript Promise 并在构造函数内解析或拒绝它

我想用 ES6 语法扩展原生 Javascript Promise 类并且能够在子类构造函数中调用一些异步函数根据异步函数结果承诺必须被拒绝或解决然而当then函数被称为子类构造函数执行两次抛出未捕获的类型错误 Promis
Oracle 中删除和删除清除之间的区别

我正在使用 Oracle 数据库但我对删除和清除命令有点困惑事实上对我来说两者都做同样的事情从数据库中删除具有架构的表这两者之间的主要区别是什么删除表表名删除表表名清除通常如果表被删除则会将其移至回收站从 Oracle
ScalaTest 可以为所有子项目生成一个 HTML 报告吗？

我正在尝试使用 ScalaTest 使用 Scala 2 11 0 和 SBT 0 13 x 为具有许多子项目的项目生成单个 HTML 报告为此我将以下行放入 build sbt 中 testOptions in ThisBuild T
Jetty 11 未检测到 Jakarta Servlet

这是后续this https stackoverflow com questions 66361859 jetty 11 doesnt detect servlets问题我不认为这是重复的因为接受的答案表明 Jetty 11 不能与ja
pandas dataframe 在整行中搜索字符串

我有一个如下所示的熊猫数据框我想在数据帧的每一行中搜索文本并突出显示该文本是否出现在该行中例如我想在每一行中搜索 jones 我想忽略搜索词的大小写在下面的情况下我想向名为 jones 的数据添加一个新列它的值将是 1 1 0
@CreatedBy 和 @LastModifiedBy 设置实际实体而不是 id

我有一个看起来像这样的实体 Audited Data MappedSuperclass EntityListeners AuditingEntityListener class public abstract class BaseEntit
如何确保用户在程序中只输入“y”或“n”？ [复制]

这个问题在这里已经有答案了如何确保用户仅输入 y 或 n 并使程序仅接受 y 或 n 作为答案 while True try cont input Do you want to continue If so enter y if cont
尝试通过 Google+ 登录按钮进行身份验证时收到 INVALID_KEY 消息

我正在尝试对以下用户进行身份验证伊恩巴伯 Ian Barber 的要点 https gist github com ianbarber 5170508 该按钮要求输入用户帐户但它永远不会显示授权对话框而是退出并显示消息发生内部错误
adobe flash buider (flex4)：错误 #2025 或错误：addChild() 在此类中不可用。相反，使用 addElement()

我是 Flex 的新手所以为我的愚蠢道歉我一直在寻找答案但没有找到任何似乎可以解决问题的东西我想做的事移植这个例子http www adobe com devnet air flex articles flex air codeb
Web 应用程序可以检测本地打印机吗？

我想知道 Web 应用程序托管在远程服务器上是否可以检测连接到主机访问 Web 应用程序的主机的打印机另外是否也可以将打印作业主要是图像发送到主机的打印机例如假设您有一个在桌面上运行的本地 WPF 应用程序 Window
多线程 Python 脚本比非线程脚本花费更长的时间

免责声明我对多线程非常糟糕所以我完全有可能做错了什么我用 Python 编写了一个非常基本的光线追踪器并且我一直在寻找可能加速它的方法多线程似乎是一个选择所以我决定尝试一下然而虽然原始脚本花了约 85 秒来处理我的示例场景
如何在 Java 中将分隔符与 Scanner.useDelimiter 一起使用？

sc new Scanner new File dataFile sc useDelimiter r n 我不明白分隔符是如何工作的有人可以用外行术语解释一下吗扫描仪还可以使用空格以外的分隔符简单的例子来自扫描仪API https d
Valgrind 和内存泄漏

我正在对我的软件进行一些内存分析并在使用 valgrind 的以下命令运行标准内存泄漏检查后 valgrind tool memcheck leak check full path to program 我得到以下总结 12550 泄漏摘
如何在汇编中表示八进制数？

例如对于十六进制数字我们可以使用0x98398 or 8790h 八进制数值常量如何写这有效吗 mov eax 70o NASM 支持 http www nasm us doc nasmdoc3 html section 3 4 1
从数据帧中提取值会因 .在 Spark 的列名中

这是我现有的数据框

从数据帧中提取值会因 .在 Spark 的列名中

从数据帧中提取值会因 .在 Spark 的列名中 的相关文章

随机推荐

热门标签

从数据帧中提取值会因 .在 Spark 的列名中的相关文章