从结构数组中选择 Spark DataFrames 中的特定列

2024-03-02

我有一个 Spark 数据框df具有以下架构：

root
 |-- k: integer (nullable = false)
 |-- v: array (nullable = true)
 |    |-- element: struct (containsNull = true)
 |    |    |-- a: integer (nullable = false)
 |    |    |-- b: double (nullable = false)
 |    |    |-- c: string (nullable = true)

是否可以只选择a, c in v from df不做map？尤其，df是从 Parquet 文件加载的，我不想要以下值c甚至可以被加载/读取。

这完全取决于您期望的输出，这从您的问题中并不清楚。让我澄清一下。你可以做

df.select($"v.a",$"v.b").show()

然而，结果可能不是你想要的，因为v是一个数组，它将为 a 生成一个数组，为 b 生成一个数组。你可能想做的是explode然后从分解的数据框中选择数组 v：

df.select(explode($"v").as("v" :: Nil )).select($"v.a", $"v.b").show()

这会将 v 展平为一个表，其中所有值都展平。无论哪种情况，火花/镶木地板should足够聪明地使用谓词下推并且根本不加载 c。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

apachesparksql

parquet

从结构数组中选择 Spark DataFrames 中的特定列的相关文章

对 Parquet 批量格式使用压缩

从 Apache Flink 1 15 版本开始您可以使用压缩功能将多个文件合并为一个 https nightlies apache org flink flink docs master docs connectors datastre
Spark 执行器 STDOUT 到 Kubernetes STDOUT

我在 Spark Worker 中运行的 Spark 应用程序将执行程序日志输出到特定文件路径 worker home directory app xxxxxxxx 0 stdout I used log4j properties将日志从
为什么 PySpark 中的 agg() 一次只能汇总 DataFrame 的一列？ [复制]

这个问题在这里已经有答案了对于下面的数据框 df spark createDataFrame data Alice 4 300 Bob 7 677 schema name High 当我尝试找到最小值和最大值时我只得到输出中的最小值 d
对于“迭代算法”，转换为 RDD 然后再转换回 Dataframe 有什么优势

我在读高性能火花作者提出以下主张虽然 Catalyst 优化器非常强大但它目前遇到挑战的情况之一是非常大的查询计划这些查询计划往往是迭代算法的结果例如图算法或机器学习算法一个简单的解决方法是将数据转换为 RDD 并在每次迭代结束时
Spark：并行转换多个数据帧

了解如何在并行转换多个数据帧时实现最佳并行性我有一系列路径 val paths Array path1 path2 我从每个路径加载数据帧然后转换并写入目标路径 paths foreach path gt val df spark re
列对象不可调用 Spark

我尝试安装 Spark 并运行教程中给出的命令但出现以下错误 https spark apache org docs latest quick start html https spark apache org docs latest q
Kubernetes WatchConnectionManager：执行失败：HTTP 403

我遇到错误Expected HTTP 101 response but was 403 Forbidden 在我使用以下命令设置新的 Kubernetes 集群之后Kubeadm当我提交下面遇到的 pyspark 示例应用程序时只有一个主
无法在 SBT 中运行 Apache Spark 相关单元测试 - NoClassDefFoundError

我有一个简单的单元测试使用SparkContext 我可以在 IntelliJ Idea 中运行单元测试没有任何问题但是当尝试从 SBT shell 运行相同的测试时我收到以下错误 java lang NoClassDefFoun
如何从spark管道逻辑模型中提取变量权重？

我目前正在尝试学习 Spark Pipeline Spark 1 6 0 我将数据集训练和测试导入为 oas sql DataFrame 对象执行以下代码后生成的模型是oas ml tuning CrossValidatorMode
Spark：出现心跳错误后丢失数据

我有一个在 Spark 集群上运行的 Python 程序有四个工作线程它处理一个包含大约 1500 万条记录的巨大 Oracle 表检查结果后发现大约有600万条记录没有插入我的写入功能如下 df write format jdbc
通过过滤对 Pyspark Dataframe 进行分组

我有一个数据框如下 cust id req req met 1 r1 1 1 r2 0 1 r2 1 2 r1 1 3 r1 1 3 r2 1 4 r1 0 5 r1 1 5 r2 0 5 r1 1 我必须观察客户看看他们有多少要求看看
更改 Spark SQL 中的 Null 顺序

我需要能够按升序和降序对列进行排序并且还允许空值位于第一个或空值位于最后一个使用 RDD 我可以将 sortByKey 方法与自定义比较器结合使用我想知道是否有使用 Dataset API 的相应方法我了解如何将 desc asc
Spark SQL 失败，因为“常量池已超过 JVM 限制 0xFFFF”

我在 EMR 4 6 0 Spark 1 6 1 上运行此代码 val sqlContext SQLContext getOrCreate sc val inputRDD sqlContext read json input try inp
Spark：如何使用crossJoin

我有两个数据框 df1有 100000 行并且df2有 10000 行我想创建一个df3这是两者的交叉连接 val df3 df1 crossJoin df2 这将产生 10 亿行尝试在本地运行它但似乎需要很长时间您认为本地可以实现
获取 int() 参数必须是字符串或数字，而不是“Column”- Apache Spark

如果我使用以下代码我会收到此异常 int argument must be a string or a number not Column df df withColumn FY F when df ID substr 5 2 isin
将 IndexToString 应用于 Spark 中的特征向量

Context 我有一个数据框其中所有分类值都已使用 StringIndexer 进行索引 val categoricalColumns df schema collect case StructField name StringType
IntelliJ：线程“主”java.lang.NoClassDefFoundError中的异常：org/apache/spark/sql/types/DataType

附言有一个类似的问题here https stackoverflow com questions 40287289 java lang noclassdeffounderror org apache spark logging 但那是在
Spark 中的 StandardScaler 未按预期工作

知道为什么 Spark 会这样做吗StandardScaler 根据定义StandardScaler StandardScaler 将一组特征标准化为均值为零标准差为 1 withStd 标志将数据缩放为单位标准差而标志 withMe
Spark 2.2 无法将 df 写入 parquet

我正在构建一个聚类算法我需要存储模型以供将来加载我有一个具有以下架构的数据框 val schema new StructType add StructField uniqueId LongType add StructField tim
在spark-kafka中使用schema将ConsumerRecord值转换为Dataframe

我正在使用 Spark 2 0 2 和 Kafka 0 11 0 并且我正在尝试在火花流中使用来自卡夫卡的消息以下是代码 val topics notes val kafkaParams Map String Object bootst

随机推荐

Rserve - 一台服务器上有多个实例？

是否可以在一台服务器上同时运行 Rserve 的多个实例例如 10 个实例意味着 10 个独立的 R 工作区通过同一台计算机上的 Rserve 监听不同端口在 Oleksandr指定的同一文档中它在第5 6页明确指出在Windows
透视变换三角点

我试图找到从一个三角形到另一个三角形的等效点理想情况下我希望能够给出三角形 A 的 3 个点和三角形 B 的 3 个点然后计算变换矩阵然后将其应用于该点以找到等效点我为此找到了一些 JavaScript 库方法但它们都使用四边
使用 JavaScript 的 Chrome 和 Safari XSLT

我有以下应用 XSLT 样式的代码 Test Xml xslTransform function xml xsl try code for IE if window ActiveXObject ex xml transformNode xs
看不到 Safari 开发者 Timeline 的 Memory Instrument

我正在尝试分析 Safari 浏览器中的 Web 应用程序内存使用情况我在几个网站上看到 Safari 的 Web Inspector Timeline 可用于分析 Web 应用程序内存但我没有看到内存选项这是我所看到的以下网站
在 rich:dataTable 中使用 a4j:repeat 或 ui:repeat 无法正确呈现单选按钮

使用时
使复合小部件可拖动时出现问题

我对 gwt n dnd 相对较新我创建了一个复合小部件当我尝试使复合小部件的对象可拖动时它会抛出异常 dragHandle 必须实现 HasMouseDownHandlers HasMouseUpHandlers HasMouseM
Expression.ToString() 有效吗？

我有一个生成的 lambda 但是当我想观看它时它就像一个普通的 lambda 它只是不显示任何内容当我打电话时expr Body ToString 我得到以下信息 var compareA 但表达式的 DebugView 工作正常 L
如何使用两个不同的节点版本运行两个不同的nodejs应用程序[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我们有两个 Node js 应用程序这两个应用程序不能在同一节点版本中运行一个应用程序只能在node4 8 3中运行另一个应用程
MapFragment 样式为 Dialog 导致 TextView 透明

这是设置我正在构建和显示样式为居中对话框的活动这是为了显示不应在设备上全屏显示的分层内容一种类型的内容是地图所以我已经成功地将 MapFragment 加载到对话框样式的 FragmentActivity 中这确实有效问题是当我
在 Python、NumPy 和 R 中创建相同的随机数序列

Python NumPy 和 R 都使用相同的算法 Mersenne Twister 来生成随机数序列因此从理论上讲设置相同的种子应该会在所有 3 个中产生相同的随机数序列但事实并非如此我认为这 3 个实现使用不同的参数导致了这种
使用 Cocoa 和 Core Data 自动保存

我正在开发一个非基于文档的核心数据应用程序我希望更改发生时能够保存这是用户对此类应用程序的期望这也是苹果公司实施的iPhoto or iTunes 一种强力方法是设置一个计时器来频繁保存然后由保存触发的方法将吞掉所有验证错误以免
Emacs 使用 Git-Rebase 将缓冲区恢复到奇怪的先前状态

我在 OS X 上使用 Emacs 23 3 1 我从终端发出 git 命令而不使用任何 Emacs 的 VC 功能我将 Emacs 设置为在修改文件时刷新这是通过我的 emacs 文件中的这些行启用的 custom set vari
使用 javascript 处理文本区域上的 Enter 键

我在页面上有 5 个文本区域我希望在第一个文本区域上按 Enter 键时发生特定事件在其他文本区域上按 Enter 键时发生不同的事件您能否建议如何实现这一目标
替代

我正在尝试修复为我编写的旧脚本我需要它运行而无需我想从脚本内部运行该函数而无需像该命令那样的内联代码抱歉我不是 JS 专家但是我该怎么做呢或者如果您使用的是 jQuery function Your code here
BITS 多域传输文件

如何在不同域的服务器之间传输文件 i e PS C Users Desktop gt Import Module bitstransfer PS C Users Desktop gt c get credential PS C Users
在R中进行线性回归时，如何有条件地删除因子的NA观察？

我正在尝试在 R 中建立一个简单的线性回归模型模型中有三个因子变量模型是 lm Exercise Econ Job Position 其中锻炼是数字因变量即锻炼的时间量经济工作职位都是因子变量经济是指一个人是否有工作
需要 T SQL 合并示例来帮助理解

下列 MERGE dbo commissions history AS target USING SELECT amount requestID AS source amount request ON target request sour
如何对齐SpriteBatch.DrawString绘制的文本？

有没有一种简单的方法可以将文本向右和居中对齐而不是默认的左对齐我使用这段代码 Flags public enum Alignment Center 0 Left 1 Right 2 Top 4 Bottom 8 public void
C# double 未按预期工作[重复]

这个问题在这里已经有答案了我知道双精度数是小数在下面的程序中输出是 1 尽管我认为它会重复 1 05 static void Main string args double d 19 18 Console WriteLine d Co
从结构数组中选择 Spark DataFrames 中的特定列

我有一个 Spark 数据框df具有以下架构 root k integer nullable false v array nullable true element struct containsNull true a integer nu

从结构数组中选择 Spark DataFrames 中的特定列

从结构数组中选择 Spark DataFrames 中的特定列 的相关文章

随机推荐

热门标签

从结构数组中选择 Spark DataFrames 中的特定列的相关文章