为什么 pyspark 中没有数据帧的映射函数，而 Spark 等效项却有它？

2023-11-25

目前正在研究 PySpark。没有地图功能DataFrame，并且必须去RDD for map功能。在Scala中有一个map on DataFrame，这有什么原因吗？

Dataset.map不属于DataFrame (Dataset[Row]) API。它转换强类型Dataset[T]进入强类型Dataset[U]:

def map[U](func: (T) ⇒ U)(implicit arg0: Encoder[U]): Dataset[U]

并且在强类型中根本没有 Python 的位置Dataset世界。一般来说，Datasets是本机 JVM 对象（与RDD它没有 Python 特定的实现），它严重依赖于丰富的 Scala 类型系统（甚至 Java API 也受到严重限制）。即使Python实现了一些变体EncoderAPI，数据仍然需要转换为RDD用于计算。

相比之下，Python 实现了自己的map类似矢量化udfs的机制，应该在Spark 2.3中发布。它专注于与 Pandas API 相结合的高性能 Serde 实现。

这包括两个典型的udfs（尤其SCALAR and SCALAR_ITER变体）以及类似地图的变体 -GROUPED_MAP and MAP_ITER应用通过GroupedData.apply and DataFrame.mapInPandas(Spark >= 3.0.0) 分别。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

PySpark

为什么 pyspark 中没有数据帧的映射函数，而 Spark 等效项却有它？的相关文章

pyspark.sql.functions.window 函数的“startTime”参数和 window.start 有何作用？

示例如下 df spark createDataFrame 1 2017 05 15 23 12 26 2 5 1 2017 05 09 15 26 58 3 5 1 2017 05 18 15 26 58 3 6 2 2017 05 15
从apache Spark中的文本文件查找rdd中存储的数据大小

我是 Apache Spark 版本 1 4 1 的新手我编写了一段小代码来读取文本文件并将其数据存储在 Rdd 中有没有一种方法可以获取 rdd 中数据的大小这是我的代码 import org apache spark SparkC
如何获取使用 concat_ws 生成的结果的大小？

我正在表演groupBy在 COL1 上并使用 COL2 的串联列表concat ws 我怎样才能获得该列表中的值的计数这是我的代码 Dataset
java.lang.ClassNotFoundException：找不到类 org.apache.hadoop.fs.azurebfs.SecureAzureBlobFileSystem

我是 Spark 和 Kubernetes 世界的新手我使用 docker image tool sh 实用程序使用与 Hadoop 3 2 捆绑在一起的官方 Spark 3 0 1 构建了 Spark docker 映像我还为 Jup
向数据框添加新列的问题 - Spark/scala

我是 Spark scala 的新手我正在尝试将一些数据从配置单元表读取到 Spark 数据帧然后根据某些条件添加一列这是我的代码 val DF hiveContext sql select from select from test
将 for 循环替换为 pyspark 中的并行进程

我在脚本中使用 for 循环来为 size DF 数据帧的每个元素调用函数但这需要很多时间我尝试通过地图删除 for 循环但没有得到任何输出 size DF 是我从表中获取的大约 300 个元素的列表用于 import call
Spark s3 写入（s3 与 s3a 连接器）

我正在从事一项在 EMR 上运行的作业它在 s3 上保存了数千个分区分区为年月日我有过去 50 年的数据现在当 Spark 写入 10000 个分区时使用以下命令大约需要 1 小时s3a联系它非常慢 df repartit
使用notebook时将jar添加到pyspark

我正在尝试将 mongodb hadoop 与 Spark 集成但不知道如何使 IPython 笔记本可以访问这些 jar 这是我想做的 set up parameters for reading from MongoDB via Had
使用 Spark sql DataFrame 删除功能

我需要为我的 Spark 应用程序从 postgres 数据库加载删除特定记录为了加载我使用以下格式的 Spark 数据框 sqlContext read format jdbc options Map url gt postgres
如何在Python中检查UDF函数中pyspark数据帧列的单元格值为none或NaN以实现前向填充？

我基本上是在尝试进行前向填充插补下面是代码 df spark createDataFrame 1 1 None 1 2 5 1 3 None 1 4 None 1 5 10 1 6 None session timestamp id PR
无法使用 Spark 结构化流在 Parquet 文件中写入数据

我有一个 Spark 结构化流 val df spark readStream format kafka option kafka bootstrap servers localhost 9092 option startingOffset
使用 Spark SQL 时找不到 Spark Logging 类

我正在尝试用 Java 进行简单的 Spark SQL 编程在程序中我从 Cassandra 表获取数据将RDD into a Dataset并显示数据当我运行spark submit命令我收到错误 java lang Class
Spark 在执行 jdbc 保存时给出空指针异常

您好当我执行以下代码行时我得到以下堆栈跟踪 transactionDF write format jdbc option url SqlServerUri option driver driver option dbtable full
在地图类型中创建 DataFrame 分组列

My 数据框具有以下结构 df spark createDataFrame B a 10 B b 20 C c 30 Brand Type Amount df show Brand Type Amount B a 10 B b 20 C c
为什么spark.memory.fraction的默认值这么低？

来自Spark配置文档 https spark apache org docs latest configuration html memory management 我们了解以下有关spark memory fraction配置参数用于
将类型安全配置conf文件传递给DataProcSparkOperator

我正在使用 Google dataproc 提交 Spark 作业并使用 google Cloud Composer 来安排它们不幸的是我面临着困难我依靠 conf文件类型安全配置文件将参数传递给我的 Spark 作业我正在将
如何从本地模式下运行的 pyspark 中的 S3 读取数据？

我正在使用 PyCharm 2018 1 使用 Python 3 4 并通过 virtualenv 中的 pip 安装 Spark 2 3 本地主机上没有安装hadoop 因此没有安装Spark 因此没有SPARK HOME HADOOP
如何在cassandra中保存spark流数据

构建 sbt以下是build sbt文件中包含的内容 val sparkVersion 1 6 3 scalaVersion 2 10 5 resolvers Spark Packages Repo at https dl bintray
Spark Streaming 中是否需要检查点

我注意到 Spark 流示例也有检查点代码我的问题是检查点有多重要如果是为了容错那么在此类流应用程序中发生故障的频率是多少这一切都取决于您的用例假设您正在运行一个流作业它仅从 Kafka 读取数据并计算记录数如果您的应用程序在
使用 PySpark 从 azure blob 存储读取 csv 文件

我正在尝试使用 Microsoft Azure 上的 PySpark HDInsight 集群来做一个机器学习项目要在我的集群上进行操作请使用 Jupyter 笔记本另外我的数据一个 csv 文件存储在 Azure Blob 存

随机推荐

Windows 容器无法启动，并出现错误：“无法在网络 nat 上创建端点：HNS 失败，出现错误：无法创建端点。”

我一直在 Windows Server 2016 TP5 上尝试 Windows 容器突然我在运行带有端口映射选项的容器时开始出现错误 p 80 80 c gt docker run it p 80 80 microsoft iis c
Docker 是在 WSL 中运行还是连接回 Windows？

在 WSL 中成功安装 Docker 后如果我运行标准 Docker 命令则会出现连接错误在所有示例中是否使用 sudo 运行都会产生相同的结果 root SUR002731165154 sudo docker info Canno
在 MySQL 中持久化 java LocalDate

我正在使用 SE 8 MySQL 5 6 Connector J 5 1 JPA 2 1 编写 java 客户端应用程序当我尝试保留具有 ID int 自动增量日期 LocalDate 的实体时它抛出异常说 Internal Exce
看起来好像您正在使用 JRE 运行 sqoop - 但 JAVA_HOME 设置为 JDK

我尝试在 Ubuntu 上设置 sqoop sqoop 1 4 3 bin hadoop 1 0 0 我可以毫无问题地运行基本的 sqoop 帮助等当我运行以下命令时出现错误 sqoop import connect jdbc mysq
错误：无法创建交付客户端：订购者客户端无法连接到订购者：无法创建新连接：超出了上下文截止日期

我一直在关注 Hyperledger Fabric Multi Org 设置教程并且能够成功完成现在我想根据我想要的组织的名称来自定义它当我尝试连接网络时遇到以下错误希望有人能帮助我找出问题所在提前致谢这可能是由于 TLS 连接
有没有办法在进程之间共享核心数据存储？

我想做什么从磁盘上的核心数据存储读取数据的 UI 进程它不需要编辑数据只需读取并显示数据写入与 UI 访问的同一数据存储的命令行进程 Why 这样命令行进程就可以一直运行但用户可以退出 UI 进程并忘记该应用程序直到他们需要查看
当management.port=0时，在运行时获取Spring Boot管理端口

我正在寻找有关如何获取分配给为嵌入式 Tomcat 提供服务的端口的建议actuator设置时的终点management port财产给0在集成测试中我正在使用 Spring Boot 1 3 2 和以下内容application yml
设计一个没有标题栏的窗口 - QT Designer

当我使用QT Designer时如何声明一个没有标题的窗口如果您想删除窗口标题那么最简单的方法是在小部件的构造函数中设置窗口标志如下所示 MainWindow MainWindow QWidget parent QMainWindo
Swift WKWebView 禁用 Javascript

我在用WKWebView在我的应用程序中加载一些链接我想禁用所有烦人的JavaScript几乎所有网页上都出现的横幅有没有一个简单的函数可以做到这一点 WKWebView有一个禁用 JavaScript 的配置请检查 Apple参考
是否应始终选中单选组中的一个 HTML 单选按钮？

是否有任何标准 HTML UI 可访问性等规定应始终选择给定的一组单选按钮中的一个单选按钮我遇到了一项业务需求要求我将一组中的两个单选按钮保留为未选中状态然后使用逻辑强制用户选择一个按钮才能继续虽然我知道如何实现这一点但感觉不对
在 Excel 公式中引用动态命名范围

我在 Excel 中有一个表格其中的列标题对应于工作簿中其他位置的动态命名范围的一部分例如我有以下列标题 10 20 等以及这些动态命名范围 ExampleRange10 ExampleRange2 等我想输入一个通过连接来引用
从联系人列表中获取电子邮件地址

我通过以下方式获取联系人列表允许 android name android permission READ CONTACTS Intent intent new Intent Intent ACTION PICK ContactsCont
如何将最新的 SDWebImage API 集成到我的基于 Swift 的项目中？

我已经将 SDWebImage 与 Objective C 一起使用它对我来说非常有用但现在我正在学习 Swift 并尝试集成最新版本的 API 但我坚持每一步因为 API 位于 Objective C 中并且没有提到要使用的步骤与
显示当前时间 WPF

我发现定期显示当前时间更新的唯一方法是使用计时器当然我可以实施INotifyPropertyChanged以及一些在 UI 上使用的特殊属性但这个实现 AFAIK 也需要Timer 例如像here 有没有更好的方法来显示当前时间 Ed
迭代大小为 k 的不同子集

我有一个由 n 个整数组成的数组不一定不同我想迭代大小为 k 的所有子集但是我想排除所有重复的子集 e g array 1 2 2 3 3 3 3 n 7 k 2 那么我想要迭代的子集每次是 1 2 1 3 2 2 2 3 3 3
在一个jar中创建多个Lambda函数（Java）是否可行

我是 AWS Lambda 的新手我正在使用 AWS Eclipse 插件来开发 Lambda 函数问题是否可以对所有不同的 Lambda 函数使用单个 jar 在这个 jar 文件中我可以拥有不同 Lambda 函数的类否则我
基于 TLS 的 Java 邮件

我正在尝试通过 TLS 连接从我的程序发送电子邮件这是我的代码 final String username XXXXXX final String password XXXXX Properties props new Propertie
如何在 java swing 应用程序中暂停/睡眠/等待？

我正在使用 JLabel 创建动画 public void updateLabels label setIcon new ImageIcon new Paint getScaledImage paint currentIndexLabel
在 WPF 中显示图像而不保持文件打开

我正在 WPF 中开发一个图像管理应用程序它显示许多图像并允许用户在文件系统中移动它们我遇到的问题是显示带有
为什么 pyspark 中没有数据帧的映射函数，而 Spark 等效项却有它？

目前正在研究 PySpark 没有地图功能DataFrame 并且必须去RDD for map功能在Scala中有一个map on DataFrame 这有什么原因吗 Dataset map不属于DataFrame Dataset Row

为什么 pyspark 中没有数据帧的映射函数，而 Spark 等效项却有它？

为什么 pyspark 中没有数据帧的映射函数，而 Spark 等效项却有它？ 的相关文章

随机推荐

热门标签

为什么 pyspark 中没有数据帧的映射函数，而 Spark 等效项却有它？的相关文章