Pandas UDF 不比 Spark UDF 快吗？ [复制]

2024-02-07

我从 Pyspark 网站获取了以下 UDF，因为我试图了解是否有性能改进。我制作了很大范围的数字，但两者花费的时间几乎相同，我做错了什么？

Thanks!

import pandas as pd
from pyspark.sql.functions import col, udf
from pyspark.sql.types import LongType
import time

start = time.time()
# Declare the function and create the UDF
def multiply_func(a, b):
    return a * b

multiply = udf(multiply_func, returnType=LongType())

# The function for a pandas_udf should be able to execute with local Pandas data
x = pd.Series(list(range(1, 1000000)))
print(multiply_func(x, x))
# 0    1
# 1    4
# 2    9
# dtype: int64
end = time.time()
print(end-start)

这是 Pandas UDF

import pandas as pd
from pyspark.sql.functions import col, pandas_udf
from pyspark.sql.types import LongType
import time

start = time.time()
# Declare the function and create the UDF
def multiply_func(a, b):
    return a * b

multiply = pandas_udf(multiply_func, returnType=LongType())

# The function for a pandas_udf should be able to execute with local Pandas data
x = pd.Series(list(range(1, 1000000)))
print(multiply_func(x, x))
# 0    1
# 1    4
# 2    9
# dtype: int64

除非您的数据足够大，以至于无法仅由一个节点处理，否则不应考虑 Spark。

Pandas 在单个节点上执行所有操作，而 Spark 将数据分发到多个节点进行处理。

因此，如果您在小数据集上比较性能，则 pandas 的性能可能优于 Spark。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

PySpark

Pandas UDF 不比 Spark UDF 快吗？ [复制] 的相关文章

如何根据 Pyspark 中另一列的表达式评估有条件地替换列中的值？

import numpy as np df spark createDataFrame 1 1 None 1 2 float 5 1 3 np nan 1 4 None 0 5 float 10 1 6 float nan 0 6 floa
Spark日期格式问题

我在火花日期格式中观察到奇怪的行为实际上我需要转换日期yy to yyyy 日期转换后日期应为 20yy 我尝试过如下 2040年后失败 import org apache spark sql functions val df Seq
如何将模型结果保存到文本文件？

我正在尝试将从模型生成的频繁项集保存到文本文件中该代码是 Spark ML 库中 FPGrowth 示例的示例 Using saveAsTextFile直接在模型上写入 RDD 位置而不是实际值 import org apache spa
如何使用 PySpark 预处理图像？

我有一个项目需要为 1 设置大数据架构 AWS S3 SageMaker 的概念验证使用 PySpark 预处理图像 2 执行 PCA and 3 训练一些机器或深度学习模型我的问题是了解如何使用 PySpark 操作图像数据但无法在
更改 Spark SQL 中的 Null 顺序

我需要能够按升序和降序对列进行排序并且还允许空值位于第一个或空值位于最后一个使用 RDD 我可以将 sortByKey 方法与自定义比较器结合使用我想知道是否有使用 Dataset API 的相应方法我了解如何将 desc asc
Spark问题中读取大文件 - python

我已经使用 python 在本地安装了 Spark 并在运行以下代码时 data sc textFile C Users xxxx Desktop train csv data first 我收到以下错误 Py4JJavaError Tra
Spark：如何使用crossJoin

我有两个数据框 df1有 100000 行并且df2有 10000 行我想创建一个df3这是两者的交叉连接 val df3 df1 crossJoin df2 这将产生 10 亿行尝试在本地运行它但似乎需要很长时间您认为本地可以实现
Spark DataFrame 序列化为无效 json

TL DR 当我倾倒 Spark 时DataFrame作为 json 我总是得到类似的结果 key1 v11 key2 v21 key1 v12 key2 v22 key1 v13 key2 v23 这是无效的 json 我可以手动编辑转储
IntelliJ：线程“主”java.lang.NoClassDefFoundError中的异常：org/apache/spark/sql/types/DataType

附言有一个类似的问题here https stackoverflow com questions 40287289 java lang noclassdeffounderror org apache spark logging 但那是在
计算 pyspark df 列中子字符串列表的出现次数

我想计算子字符串列表的出现次数并根据 pyspark df 中包含长字符串的列创建一个列 Input ID History 1 USA UK IND DEN MAL SWE AUS 2 USA UK PAK NOR 3 NOR NZE 4
Spark/Gradle -- 在 build.gradle 中获取 IP 地址以用于启动 master 和worker

我在基本层面上了解 build gradle 构建脚本的各个移动部分但无法将它们全部结合在一起在 Apache Spark 独立模式下只需尝试从 build gradle 在同一个机器上启动 master 和worker 稍后将使用
纱线上的火花，连接到资源管理器 /0.0.0.0:8032

我正在我的开发机器 Mac 上编写 Spark 程序 hadoop的版本是2 6 spark的版本是1 6 2 hadoop集群有3个节点当然都在linux机器上我在idea IDE中以spark独立模式运行spark程序它运行成功
Spark 在 WholeTextFiles 上创建的分区少于 minPartitions 参数

我有一个文件夹里面有 14 个文件我在一个集群上使用 10 个执行器运行 Spark Submit 该集群的资源管理器为 YARN 我创建了我的第一个 RDD 如下所示 JavaPairRDD
如何将包含多个字段的大型 csv 加载到 Spark

新年快乐我知道以前曾提出回答过此类类似的问题但是我的问题有所不同我有大尺寸的 csv 有 100 个字段和 100MB 我想将其加载到 Spark 1 6 进行分析 csv 的标题看起来像附件sample http www roc
如何在不从 DataFrame 转换并访问它的情况下向数据集添加列？

我知道使用以下方法将新列添加到 Spark 数据集的方法 withColumn and a UDF 它返回一个 DataFrame 我还知道我们可以将生成的 DataFrame 转换为 DataSet 我的问题是如果我们仍然遵循传统的
一旦自定义 PySpark Transformer 成为安装的 ML Pipeline 中的一个阶段，如何为它设置参数？

我编写了一个自定义 ML PipelineEstimator and Transformer对于我自己的 Python 算法遵循所示的模式here https stackoverflow com a 37279526 1843329 然而
火花内存不足

我有一个文件夹里面有 150 G 的 txt 文件大约 700 个文件平均每个 200 MB 我使用 scala 来处理文件并最终计算一些汇总统计数据我认为有两种可能的方法可以做到这一点手动循环所有文件对每个文件进行计算并最终合
如何使用 Scala 从 Spark 更新 ORC Hive 表

我想更新 orc 格式的 hive 表我可以从 ambari hive 视图进行更新但无法从 sacla spark shell 运行相同的更新语句 objHiveContext sql select from table name 能
InvalidRequestException（为什么：empid 如果包含 Equal，则不能被多个关系限制）

这是关于我从 Apache Spark 查询 Cassandra 时遇到的问题 Spark 的正常查询工作正常没有任何问题但是当我使用关键条件进行查询时出现以下错误最初我尝试查询复合键列族它也给出了与下面相同的问题由以下原因引
PySpark - 系统找不到指定的路径

Hy 我已经多次运行 Spark Spyder IDE 今天我收到这个错误代码是相同的 from py4j java gateway import JavaGateway gateway JavaGateway os environ SP

随机推荐

有人使用看板吗？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
在根上重新建立基础并保留空提交

假设我有一个由三个提交组成的分支其中一个是空的 On branch test 3208910 empty 85c949c bar 0c1a615 foo 我想在根目录上重新设置它从手册页看来 root keep empty正是我所需要的
Java 格式化：保留行但修复缩进

我有以下代码 DSPOTTGuaranteedUserReachForecastModel model new DSPOTTGuaranteedUserReachForecastModel mockCache demand mockTarg
如何使用redux在react-native-router-flux中实现react-native-drawer？

我正在尝试使用 redux 在react native router flux 中实现react native drawer 尝试按照这个例子 https github com aksonov react native router flu
JavaScript 未在 jsfiddle.net 上运行

下面的代码可以在实时网站上运行但我无法让它在网站上运行jsfiddle http jsfiddle net See this http jsfiddle net mjmitche afPrc 例如谁能告诉我为什么它不起作用jsfiddl
线程创建范围和垃圾收集器

如果我们在方法范围而不是在类范围声明线程这对垃圾收集器有什么影响吗例如 scenario 1 public class Foo public Foo new Thread gt engine IsBackground true Star
为什么“java.lang.ArrayIndexOutOfBoundsException: 0”带有“main”方法参数[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我的代码哪里有错误 package My import java text SimpleDateFormat import java ut
不存在类型变量 T 的实例，因此 Flux 确认为 Mono

我正在实现 Spring webflux 演示应用程序并编写了我的演示应用程序如下所示 package com abcplusd application import com abcplusd domain Event import o

如何在 Wicket 中返回外部 URL 的链接？

我有一个带有表单的网络应用程序当我单击保存时应用程序会创建一些文件并返回一些网址如何在网页上显示此网址 Use ExternalLink 普通静态链接 new ExternalLink link http some url This
Template模板参数，为什么class强制？

如果我写的话标题几乎说明了一切 vvvvv template
如何在 libcurl 中使用成员函数指针

我正在使用 libcurl 我在类中下载文件我想查看其中的进度函数我注意到我可以通过设置一个典型的函数指针 curl easy setopt mCurl CURLOPT PROGRESSFUNCTION progress func3 但
Laravel - 工匠不工作

我知道其他问题在那里 https stackoverflow com questions 18910502 laravel artisan command not working 但它们与我的情况不同我安装了自己的 laravel 的新副
汇总错误：node_modules/react-is/index.js 未导出“isValidElementType”

我正在使用样式组件构建一个带有 rollUp 的捆绑包我的 rollup config js 如下所示 import resolve from rollup plugin node resolve import babel from ro
应用程序的强名称验证失败

我制作了一个使用 C Program Files x86 Reference Assemblies Microsoft WindowsPowerShell 3 0 System Management Automation dll 的 C 应
Angular 5：如何上传图像[重复]

这个问题在这里已经有答案了我正在使用 Angular 5 我有一个需求需要在页面上上传图片并显示该图片有没有 Angular 5 标签或 html 标签可以做到这一点我附上了它的屏幕截图用户单击上传按钮应该会出现一个弹出窗口
就地执行 numpy exp 函数

如标题所示我需要执行numpy exp在一个非常大的 ndarray 上比方说ar 并将结果存储在ar本身这个操作可以就地进行吗您可以使用可选的out的论证exp a np array 3 4 5 res np exp a a pr
管理多个 Twisted 客户端连接

我正在尝试在一种管理多个客户端连接的蜘蛛程序中使用 Twisted 我想维持一组大约 5 个同时工作的客户每个客户端的功能是连接到从列表中获取的指定 IRC 服务器进入特定频道然后将该频道中的用户列表保存到数据库中我遇到的问题更多的
从 Flutter 应用程序访问 ExpoSecureStore 存储的钥匙串值 [iOS]

我有一个 React Native 应用程序仅针对 iOS 发布它使用曝光安全存储 https docs expo io versions latest sdk securestore 从 iOS 钥匙串中写入和读取值我正在过渡到 F
创建自定义 XML 数据类型？

有没有办法为 Android 创建自定义 XML 数据类型我有课Model其中包含我的实体的所有统计数据我希望能够充气Model与 xml 中的类类似嗯就像视图一样这可能吗 Example
Pandas UDF 不比 Spark UDF 快吗？ [复制]

这个问题在这里已经有答案了我从 Pyspark 网站获取了以下 UDF 因为我试图了解是否有性能改进我制作了很大范围的数字但两者花费的时间几乎相同我做错了什么 Thanks import pandas as pd from pysp

Pandas UDF 不比 Spark UDF 快吗？ [复制]

Pandas UDF 不比 Spark UDF 快吗？ [复制] 的相关文章

随机推荐

热门标签