如果 Spark 中的数据帧是不可变的，为什么我们能够使用 withColumn() 等操作来修改它？

2024-06-26

这可能是一个愚蠢的问题，源于我的无知。我已经在 PySpark 上工作了几个星期，并没有太多的编程经验。

我的理解是，在 Spark 中，RDD、数据帧和数据集都是不可变的——我再次理解，这意味着您无法更改数据。如果是这样，为什么我们能够使用编辑 Dataframe 的现有列withColumn()?

根据 Spark 架构，DataFrame 构建在本质上不可变的 RDD 之上，因此 Dataframe 本质上也是不可变的。

关于 withColumn 或任何其他与此相关的操作，当您在 DataFrame 上应用此类操作时，它将生成一个新的数据框，而不是更新现有的数据框。

但是，当您使用动态类型语言 python 时，您会覆盖先前引用的值。因此，当您执行以下语句时

df = df.withColumn()

它将生成另一个数据帧并将其分配给引用“df".

为了验证相同，您可以使用id()rdd 的方法来获取数据帧的唯一标识符。

df.rdd.id()

将为您的数据框提供唯一的标识符。

我希望上述解释有所帮助。

Regards,

Neeraj

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

PySpark

如果 Spark 中的数据帧是不可变的，为什么我们能够使用 withColumn() 等操作来修改它？的相关文章

PySpark 使用统计信息写入 Parquet 二进制列（signed-min-max.enabled）

我找到了这张 apache parquet 票https issues apache org jira browse PARQUET 686 https issues apache org jira browse PARQUET 686被标
pickle.PicklingError：无法腌制未打开读取的文件

我在 Dataproc 上运行 PySpark 作业时收到此错误可能是什么原因这是错误的堆栈跟踪 File usr lib python2 7 pickle py line 331 in save self save reduce ob
Spark SQL 中的 SQL LIKE

我正在尝试使用 LIKE 条件在 Spark SQL 中实现联接我正在执行连接的行看起来像这样称为修订 Table A 8NXDPVAE Table B 4 8 NXD V 在 SQL Server 上执行联接 A revision
将 DStream 转换为 JavaDStream

我知道我们有一个选择RDD JavaRDD
Scala：如何获取数据框中的行范围

我有一个DataFrame通过运行创建sqlContext readParquet 文件的一个 The DataFrame由 300 M 行组成我需要使用这些行作为另一个函数的输入但我想以较小的批次进行操作以防止 OOM 错误目前
从数据块中的数组列获取数据，无需交叉连接

假设我有一张桌子 id array col 101 system x value 1 system y value 2 system z value 3 其中 array col 基本上包含一个结构数组 0 系统 x 值 1 1 系统 y
与 aws-java-sdk 链接时读取 json 文件时 Spark 崩溃

Let config json是一个小的 json 文件 toto 1 我编写了一个简单的代码来读取 json 文件sc textFile 因为文件可以在S3 本地或HDFS上所以textFile很方便 import org apache
为什么我必须明确告诉 Spark 要缓存什么？

在 Spark 中每次我们对 RDD 执行任何操作时都会重新计算 RDD 因此如果我们知道 RDD 将被重用我们应该显式地缓存 RDD 比方说 Spark 决定延迟缓存所有 RDD 并使用 LRU 自动将最相关的 RDD 保留在内存
使用 pySpark 在 Azure Databricks 中使用来自 EventHub 的事件

我可以看到 Spark 连接器和使用 Azure Databricks 中的 Scala 从事件中心消费事件的指南但是我们如何使用 pySpark 从 azure databricks 消费事件中心中的事件任何建议文档详细信息都会有
在 PySpark 中将结构数组扩展为列

我有一个来自 Google Analytics 的 Spark 数据框如下所示 id customDimensions Array
通过Listener获取Spark thrift服务器查询中读取的行数

我正在尝试为我们的 ST 服务器构建一个监控系统到目前为止诸如记录查询检索的行红色和花费的时间之类的事情都很好我已经实现了一个自定义侦听器我能够毫无问题地检索查询和时间侦听SparkListenerSQLExecutionSt
如何抑制 EMR 上运行的 Spark-sql 的 INFO 消息？

我正在 EMR 上运行 Spark 如中所述在 Amazon Elastic MapReduce 上运行 Spark 和 Spark SQL https aws amazon com articles 4926593393724923 本教
Scala Spark：将数据框中的双列转换为日期时间列

我正在尝试编写代码来将日期时间列 date 和 last updated date 转换为 mm dd yyyy 格式以进行显示它们实际上是 unix 时间转换为双精度数我该怎么做呢 import org joda time impor
Spark sql 每组前 n 个

我怎样才能获得每组的前n名比如说前10名或前3名 spark sql http www xaprb com blog 2006 12 07 how to select the firstleastmax row per group in
如何区分spark中的操作是转换还是动作？

最近在学习spark 对transformation和action操作很困惑我阅读了spark文档和一些关于spark的书籍我知道action会导致spark作业在集群中执行而transformation则不会但是spark的api
如果 Spark 中的数据帧是不可变的，为什么我们能够使用 withColumn() 等操作来修改它？

这可能是一个愚蠢的问题源于我的无知我已经在 PySpark 上工作了几个星期并没有太多的编程经验我的理解是在 Spark 中 RDD 数据帧和数据集都是不可变的我再次理解这意味着您无法更改数据如果是这样为什么我们能够使用编
仅使用 Spark ML Pipelines 进行转换

我正在开发一个项目其中可配置的管道和 Spark DataFrame 更改的沿袭跟踪都是必不可少的该管道的端点通常只是修改后的 DataFrame 将其视为 ETL 任务对我来说最有意义的是利用现有的 Spark ML Pipelin
在 Pandas UDF PySpark 中传递多列

我想计算 PySpark DataFrame 两列之间的 Jaro Winkler 距离 Jaro Winkler 距离可通过所有节点上的 pyjarowinkler 包获得 pyjarowinkler 的工作原理如下 from pyjar
Spark 有效地过滤大数据框中存在于小数据框中的条目

我有一个 Spark 程序它读取一个相对较大的数据帧 3 2 TB 其中包含 2 列 id name 和另一个相对较小的数据帧 20k 条目其中包含单个列 id 我想做的是从大数据框中获取 id 和名称如果它们出现在小数据框中我想知
具有显式 setMaster("local") 的 Spark 作业，通过 YARN 传递给 Spark-Submit

如果我有一个 Spark 作业 2 2 0 编译为setMaster local 如果我发送该作业会发生什么spark submit master yarn deploy mode cluster 我尝试了这个看起来该作业确实在 YARN

随机推荐

pySpark 映射多列

我需要能够使用多列比较两个数据帧 pySpark尝试 get PrimaryLookupAttributeValue values from reference table in a dictionary to compare them t
Terraform：错误：Kubernetes 集群无法访问：配置无效

使用 terraform destroy 删除 kubernetes 集群后我无法再创建它 terraform apply 返回以下错误消息错误 Kubernetes 集群无法访问配置无效否已提供配置尝试设置 KUBERNETE
C++向量数组运算符计算成本高？

我一直都知道 C 的丰富抽象会带来一定的计算开销但我的印象是一旦应用了正确的编译器优化这种开销几乎可以忽略不计我很好奇这种开销到底有多大所以我编写了一个简单的测试来确定这一点该测试是一个模板化函数它接受一个容器变量为容器中的
检测 UTF-8 编码文本文件中的损坏字符

我有一个使用错误的字符编码编辑的文本文件因此当我使用 UTF 8 打开它时某些字符串中有一些 mojibake 和损坏的字符哪种脚本语言能够最有效地检测这些损坏的字符 Perl 不是一个选择我基本上试图找到一种使用脚本扫描文本文件并
Laravel 5.1 完成后如何捕获作业队列详细信息？

在 Laravel 5 1 中我希望在作业完成时收到通知并提供有关作业的详细信息具体来说 user id and customer id 我正在使用Queue after方法中的方法AppServiceProvider作为 Larav
在vba中为图例设置颜色代码

我在每个工作表中都有数据透视表我必须对它们进行比较但每个工作表中图例的颜色都不同如何设置颜色例如如果我的图例条目是 ISO 我希望它始终为蓝色如果它是 LAT 我希望它在每张纸中都为红色这可以通过操纵来完成Series中的
基类和派生类构造函数的内存分配

创建派生类对象时首先为哪一个分配空间是基类构造函数还是派生类构造函数 First 分配您所询问的内存保留不同于并且先于初始化执行构造函数本质上在该内存中设置合适的值以及正式的我们的神圣标准和实践的不同之处在于大多数派生对象的
在多线程场景中正确锁定 List？

好吧我只是无法正确理解多线程场景抱歉再次问类似的问题我只是在互联网上看到许多不同的事实 public static class MyClass private static List
Heroku 找不到 Django 模板

我得到了一个TemplateDoesNotExistHeroku 查找我的 html 文件时出错文件全部在开发服务器上同步这TEMPLATE DIRS设置被设置为 TEMPLATE DIRS Users jonathanschen Py
从 Firebase Swift 检索信息的好方法

我和我的朋友正在 swift 上开发一个 IOS 项目并集成了新的 Firebase 我们能够写入 Firebase 数据库但是我们在检索数据时遇到了问题我们有一个 tableView 控制器我们希望从 Firebase 数据库填
将 JSON 数据从 Chrome 浏览器扩展发布到 MVC 控制器

我编写了一个 Chrome 浏览器扩展它使用 Ajax 将数据发送到 MVC3 控制器为了确保控制器代码正常工作我首先编写了一个 Razor 网页来原型化 ajax 代码该代码在网页中工作绑定了所有的 JSON 模型我将其发布到
向量数学，在两个向量之间的平面上查找坐标

我正在尝试沿着样条线生成 3d 管我有样条线的坐标 x1 y1 z1 x2 y2 z2 等您可以在黄色插图中看到在这些点上我需要生成圆圈其顶点将在稍后的体育场连接这些圆需要垂直于样条线两条线段的角才能形成正确的管请注意出
使用 React Native 隐藏在 TabBarIOS 后面的内容

我正在使用 React Native 构建一个 iOS 应用程序并正在实现一个TabBarIOS 选项卡上的内容似乎流到后面并被栏遮挡在 xcode 中我只是取消选中扩展边缘框但不知道如何使用 React Native 来做到这
打开街道地图（pyproj）。如何解决语法问题？

使用 pyproj 可视化开放街道地图并收到以下错误 gt AppData Local Programs Python Python36 32 lib site packages pyproj crs py 77 gt FutureWarn
如何重新启动 WPF 应用程序？

如何从代码重新启动 WPF 应用程序在 Windows 窗体中存在 Application Restart 但出于某种原因 Microsoft 决定不在 WPF 中添加此方法我讨厌 WPF 和 Windows 窗体之间的不兼容喜欢 w
将javascript日期分配给html5日期时间本地输入

DOM
用于二进制数据传输和解码的 websocket

我正在阅读规范和许多有关 websockets 使用的示例几乎所有的人都谈论使用 websockets 进行 UTF 8 或 ascii 消息传输最新的 Hybi websocket 规范要求支持二进制传输 Hybi 规范中的 REQ
在 fxml 中使用自定义控件

假设我已经对默认值进行了子类化TableView
jQuery val 未定义？

我有这个代码
如果 Spark 中的数据帧是不可变的，为什么我们能够使用 withColumn() 等操作来修改它？

这可能是一个愚蠢的问题源于我的无知我已经在 PySpark 上工作了几个星期并没有太多的编程经验我的理解是在 Spark 中 RDD 数据帧和数据集都是不可变的我再次理解这意味着您无法更改数据如果是这样为什么我们能够使用编

如果 Spark 中的数据帧是不可变的，为什么我们能够使用 withColumn() 等操作来修改它？

如果 Spark 中的数据帧是不可变的，为什么我们能够使用 withColumn() 等操作来修改它？ 的相关文章

随机推荐

热门标签

如果 Spark 中的数据帧是不可变的，为什么我们能够使用 withColumn() 等操作来修改它？的相关文章