在 Spark Dataframe 中提取数组索引

2024-05-07

我有一个带有数组类型列的数据框例如：

val df = List(("a", Array(1d,2d,3d)), ("b", Array(4d,5d,6d))).toDF("ID", "DATA")
df: org.apache.spark.sql.DataFrame = [ID: string, DATA: array<double>]

scala> df.show
+---+---------------+
| ID|           DATA|
+---+---------------+
|  a|[1.0, 2.0, 3.0]|
|  b|[4.0, 5.0, 6.0]|
+---+---------------+

我希望分解数组并具有像这样的索引

+---+------------------+
| ID|  DATA_INDEX| DATA|
+---+------------------+
|  a|1           | 1.0 |
|  a|2           | 2.0 |
|  a|3           | 3.0 |
|  b|1           | 4.0 |
|  b|2           | 5.0 |
|  b|3           | 6.0 |
+---+------------+-----+

我希望能够使用 scala、Sparlyr 或 SparkR 来做到这一点我用的是火花1.6

有一个posexplodeSpark 中可用的函数功能 https://spark.apache.org/docs/latest/api/java/org/apache/spark/sql/functions.html

   import org.apache.spark.sql.functions._

   df.select("ID", posexplode($"DATA))

PS：此功能仅适用于2.1.0版本

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

apachespark

DataFrame

在 Spark Dataframe 中提取数组索引的相关文章

如何识别嵌套 json 文件并将其分解为数据框的列？

我再次重新组织我的问题以便更清楚我的数据看起来像这样 Research xmlns http www xml org 2013 2 XML language eng createDateTime 2022 03 25T10 12 39Z
Play框架：读取包含空值的Json

我正在尝试在 Play Scala 程序中读取 Json 数据 Json 的某些字段可能包含空值因此我定义 Reads 对象的方式如下 implicit val readObj Reads ApplyRequest JsPath a re
获取两个顶点之间的边属性值时出现 ClassCastException

我正在尝试获取两个顶点之间的边缘属性值并低于异常 java lang ClassCastException 无法将 java lang String 转换为 scala runtime Nothing 环境内存中的泰坦 Code val
akka http配置中的idle-timeout和request timeout有什么区别？

我查阅了文档并发现了这些空闲连接自动关闭的时间设置infinite完全禁用空闲连接超时空闲超时 10 秒 Defines the default time period within which the application has
用 HashMap[Int, Vector[Int]] (Scala) 表示图（邻接列表）？

我想知道如何如果可能的话我可以通过以下方式制作可变图的邻接列表表示HashMap Int Vector Int HashMap当然是可变的目前我将其设置为HashMap Int ArrayBuffer Int 但我可以更改 Arr
带可变参数的 Spark UDF

如文档中所示列出最多 22 个参数是唯一的选择吗 https spark apache org docs 1 5 0 api scala index html org apache spark sql UDFRegistration ht
Scala：将整个列表的 Either 与每个元素的 Either 组合

我有一个 Either 列表它代表错误 type ErrorType List String type FailFast A Either ErrorType A import cats syntax either val l List
Python Pandas 根据另一列的总计从另一个数据帧中选择值

我下面有一个 DataFrame 但我需要根据取消和订单列从每个代码中选择行假设代码 xxx 的阶数为 6 1 5 1 阶数为 11 我需要一种算法可以选择满足总共 11 行的行阶数为 6 5 如果没有行匹配则选择最接近的 id 并
使用 PySpark 从 azure blob 存储读取 csv 文件

我正在尝试使用 Microsoft Azure 上的 PySpark HDInsight 集群来做一个机器学习项目要在我的集群上进行操作请使用 Jupyter 笔记本另外我的数据一个 csv 文件存储在 Azure Blob 存
如何向数据框spark添加标题和列？

我有一个数据框我想在其中添加标题和第一列手动这是数据框 import org apache spark sql SparkSession val spark SparkSession builder master local appN
对数据帧的每 2 小时数据进行 Groupby

我有一个数据框 Time T201FN1ST2010 T201FN1VT2010 1791 2017 12 26 00 00 00 854 69 0 87 1792 2017 12 26 00 20 00 855 76 0 87 1793
akka-http：找不到参数解组的隐式值

我的 Spray json 支持看起来像这样 object MarshallingSupport extends SprayJsonSupport implicit def json4sFormats Formats DefaultForm
如何初始化子类型中特征的值？

如果我写 trait T val t 3 val u 1 t Nil class U extends T override val t 2 new U u 它表明了这一点 List 1 0 我应该如何更改上面的代码以使其显示以下内容 Lis
Pandas 和 Matplotlib - 需要按国家/地区划分的疫苗接种百分比以及使用下拉菜单的特定国家/地区首选疫苗的条形图

这是数据集 location date vaccine total vaccinations 0 Austria 2021 01 08 Johnson Johnson 0 1 Austria 2021 01 08 Moderna 0 2 A
从 pySpark 中的字典构建一行

我正在尝试在 pySpark 1 6 1 中动态构建一行然后将其构建到数据帧中总体思路是扩展结果describe例如包括偏斜和峰度这是我认为应该起作用的 from pyspark sql import Row row dict C0
当我们在 Apache Spark 中使用时，无法找到 Set([TOPIC NAME,0])) 的领导者

我们使用 Apache Spark 1 5 1 和 kafka 2 10 0 8 2 1 以及 Kafka DirectStream API 通过 Spark 从 Kafka 获取数据我们使用以下设置在 Kafka 中创建了主题复制因子
删除 Pandas 数据框中的 NaN/NULL 列？

我有一个dataFrame在 pandas 中有些列的值全部为空是否有内置函数可以让我删除这些列 Yes dropna See http pandas pydata org pandas docs stable missing data
理解 scala 的 _ 与 Any/Nothing

如果一个类具有协变类型参数例如Iterable A http www scala lang org archives downloads distrib files nightly docs 2 10 1 library index ht
使用列的长度过滤 DataFrame

我想过滤一个DataFrame使用与列长度相关的条件这个问题可能很简单但我在SO中没有找到任何相关问题更具体地说我有一个DataFrame只有一个Column哪一个ArrayType StringType 我想过滤DataFrame
Scala 匿名函数中的 return 语句

为什么显式 return 语句使用return关键字在匿名函数中从封闭的命名函数返回而不仅仅是从匿名函数本身返回例如以下程序会导致类型错误 def foo String x Integer gt return x foo 我知道建

随机推荐

如何使用 cron 作业运行 python 文件

您好我创建了一个 python 文件例如file example py 该文件将输出 sensex 值假设该文件在linux系统上的路径为 Desktop downloads file example py 我通常会运行该文件pyth
为什么控制台不显示从选择器返回的 jQuery 对象的方法？

我知道如果我输入正文我得到一个 jQuery 对象然而在 chrome 的控制台上我只能看到 jQuery 对象的内部数组尽管事实上 jQuery 方法是可以访问的例如 body hide 为什么控制台没有向我显示所有可访问的
如何查询最近7天的总计？

我正在使用 SQL Server 2008 我想编写一个查询来提供给定天数的总活动量具体来说我想统计过去 7 天每天的总票数我的桌子看起来像这样 VoteID VoteDate Vote BikeID 1 2012 01 01 08
VBA中工作表变化的递归调用

我已经创建了包含多个工作表的工作簿我正在尝试使用 WorkSheet ChangeSheet1 即工作表 1 上的某些更改正在复制到工作表 2 中同样如果有任何改变Sheet2我想做出类似的改变Sheet1以及这样做时两张表上都会
envsubst 不能进行就地替换吗？

我有一个配置文件其中包含一些 ENV VARIABLE 样式的变量 This is my file It might contain EXAMPLES of text 现在我希望将该变量替换为保存在实际环境变量中的值所以我正在尝试这个
在哪里可以找到 .net CLR 和 C# 的源代码？

Microsoft net CLR 和 C 的源代码是否开放如果是在哪里可以下载浏览您可以借助以下链接下载 NET 的源代码网络海量下载器 http netmassdownloader codeplex com
NServiceBus 与 Windows ServiceBus

有人能够阐明新发布的 Windows ServiceBus 本地而不是 Azure 和 NServiceBus 之间的差异吗寻找详细的答案 Windows SB 可能缺少什么因为我熟悉 NSErviceBus 可以做什么它是真正的服
字体更改时处理运行时活动配置

某些设备配置可能会在运行时发生变化例如屏幕方向键盘可用性和语言当发生这样的变化时 Android会重新启动正在运行的Activity 我们可以使用我们自己的配置来处理这个问题 onConfigurationChanged 但是如果从
Android 权限 BIND_NOTIFICATION_LISTENER_SERVICE 不起作用

我正在 React Native 应用程序中工作我正在努力在 Android 中使用Notification Services BIND NOTIFICATION LISTENER SERVICE 我正在尝试使用读取传入的通知Notifi
pgAdmin 服务器未显示[关闭]

Closed 这个问题是无关 help closed questions 目前不接受答案这里总共有n00b 个问题我正在使用 pgAdmin 尝试管理远程 PostgreSQL 服务器我单击连接图标填写表格然后单击确定该表格消
如果变量的值在编译时已知/未知，则进行专门化

如何在编译时在实际编译和运行程序之前其参数之一的值已知未知的情况下专门化模板函数我还不知道怎么办 idea 1 include
Pygame - 如何使 hitbox 与敌人的移动一起工作？

我正在用 Pygame 制作一个 Python 游戏目前正在研究 hitbox 程序应该暂停设置play False 每当玩家与敌人碰撞时只有当我注释掉所有敌人的移动第 56 64 行时它才有效但这显然不是最好的选择我读过有
如何在点击事件上调用 Angular 组件 [Angular]

我不是 Angular 方面的专家我也遵循了互联网上的一些答案特别this https stackoverflow com questions 17636528 how do i load an html page in a div u
在 Postgres 中以周为单位分割间隔

这是另一个关于日期的 SQL 问题我正在使用 PHP 和 Postgres 构建一个日历应用程序它将显示几天几周甚至几个月的事件每个事件都有开始日期和结束日期按范围选择它们不是问题然而如果 Postgres 可以在每周的第一天
使用继承的 ES6 React 类时未触发 componentDidMount 方法

我试图在 React 中使用 ES6 类并希望所有组件都继承某些方法但是一旦我尝试扩展扩展 React Component 类的组件 componentDidMount 方法就不会触发因此什么也不会发生被渲染我正在使用的代码基础组
python 和回文

我最近写了一个循环的方法 usr share dict words并使用我的返回回文列表ispalindrome x 方法这是一些代码有什么问题吗它只会停止 10 分钟然后返回文件中所有单词的列表 def reverse a ret
不兼容的类型：HomeFragment 无法转换为 Android 中的 Fragment

我在这部分代码中遇到错误 private void displayView int position update the main content by replacing fragments Fragment fragment null
Python：球体的交集

我对编程非常陌生但我决定承担一个有趣的项目因为我最近学会了如何以参数形式表示球体当三个球体相交时有两个不同的交点除非它们仅在一个奇点处重叠球体的参数表示我的代码是根据答案修改的Python matplotlib 绘制 3d 立
如何在Redis中进行持久化存储？

关闭redis服务器后使用set存储的值被破坏在这里我找到了使用持久性存储的方法有人帮助我如何使用javascript实现这一点我想将客户端的一些值存储在 redis 数据库中并且必须在其他客户端中使用该值您需要配置 Redi
在 Spark Dataframe 中提取数组索引

我有一个带有数组类型列的数据框例如 val df List a Array 1d 2d 3d b Array 4d 5d 6d toDF ID DATA df org apache spark sql DataFrame ID strin

在 Spark Dataframe 中提取数组索引

在 Spark Dataframe 中提取数组索引 的相关文章

随机推荐

热门标签

在 Spark Dataframe 中提取数组索引的相关文章