Spark Dataframe 在性能上比 Pandas Dataframe 有何优势？ [关闭]

2023-12-20

谁能解释一下 Spark Dataframes 在执行时间方面比 Pandas Dataframes 更好。我正在处理中等数量的数据并进行 python 函数驱动的转换

例如，我的数据集中有一列包含从 1 到 100,000 的数字，并且想要执行基本的数字操作 - 创建一个新列，该新列是现有数字列的立方体。

from datetime import datetime
import numpy as np
import pandas as pd

def cube(num):
    return num**3

array_of_nums = np.arange(0,100000)

dataset = pd.DataFrame(array_of_nums, columns = ["numbers"])

start_time = datetime.now() 
# Some complex transformations...
dataset["cubed"] = [cube(x) for x in dataset.numbers]
end_time = datetime.now() 

print("Time taken :", (end_time-start_time))

输出是

Time taken : 0:00:00.109349

如果我使用带有 10 个工作节点的 Spark Dataframe，我可以期待以下结果吗？（这是 Pandas DataFrame 所用时间的 1/10）

Time taken : 0:00:00.010935

1）Pandas的数据框不是分布式的，而Spark的DataFrame是分布式的。 -> 因此，您将无法获得 Pandas DataFrame 中并行处理的好处，并且对于大量数据，Pandas DataFrame 中的处理速度会降低。

2）Spark DataFrame 确保容错（它具有弹性），而 pandas DataFrame 则不能保证这一点。 -> 因此，如果您的数据处理在处理之间被中断/失败，那么 Spark 可以从谱系（从 DAG）重新生成失败的结果集。 Pandas 不支持容错。您需要实现自己的框架来保证这一点。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Spark Dataframe 在性能上比 Pandas Dataframe 有何优势？ [关闭] 的相关文章

为什么spark在sql查询末尾附加'WHERE 1=0'

我正在尝试使用 Apache Spark 执行简单的 mysql 查询并创建一个数据框但由于某些原因 Spark 附加 WHERE 1 0 在我想要执行的查询末尾并抛出异常说明 You have an error in your SQL
scipy.misc.imshow RuntimeError('无法执行图像视图')

我正在测试scipy misc imshow https docs scipy org doc scipy 0 15 1 reference generated scipy misc imshow html我得到了运行时错误无法执行图像查
我应该为 MySQL 使用什么 python 3 库？ [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案据我所知 MySQLdb 仍然没有移植到 Python 3 pypy 上似乎有另一个名为 PyMySQL
如何从 Lua 调用 Python 函数？

我想从我的 lua 文件运行 python 脚本我怎样才能实现这个目标 Example Python代码 sum py file def sum from python a b return a b Lua code main lua f
Windows Defender 检测 Python EXE 为木马

我制作了一个 Python 脚本将 Windows 目录以 zip 形式邮寄给我我使用 sched 模块添加了一个调度程序每小时重复一次我试图制作一个简单的同步应用程序供个人使用在 Windows 启动时启动我使用将其转换为 e
了解 asyncio 已经运行的永久循环和挂起的任务

我在理解如何将新任务挂起到已经运行的事件循环中时遇到问题这段代码 import asyncio import logging asyncio coroutine def blocking cmd while True logging in
使用 boto3 从 s3 下载时使用 filename 作为文件名

我正在使用 boto3 上传文件如下所示 client boto3 client s3 aws access key id id aws secret access key key client upload file tmp test
类型错误：需要 Future 或协程

我尝试在 asyncssh 上自动重新连接 ssh 客户端 SshConnectManager 必须留在后台并在需要时进行 ssh 会话 class SshConnectManager object def init self host u
python-polars 通过分隔符将字符串列拆分为许多列

在 pandas 中以下代码会将 col1 中的字符串拆分为许多列有没有办法在极地做到这一点 d col1 a b c d a b c d df pd DataFrame data d df a b c d df col1 str sp
pandas to_sql sqlalchemy 与 secure_transport 的连接

我正在尝试将数据发送到具有 require secure transport ON 的服务器上的 mysql 数据库当我尝试使用以下代码连接到它时 import pandas as pd import pymysql from sqlal
如何删除 pandas 数据框中的唯一行？

我遇到了一个看似简单的问题在 pandas 数据框中删除唯一的行基本上相反drop duplicates https pandas pydata org pandas docs stable generated pandas Data
如何在数据框中绘制包含三列的无向图，形成 3 种不同类型的节点（三方）？

我正在尝试使用三个不同的列表绘制网络的可视化这三个列表形成 3 种类型的节点下面的代码正在运行如图所示需要两个列表用户 ID 评分但是我希望我的图表是三部分的即 user userId review ratings prod
检查多个 pd.DataFrame 是否相等

是否有一种 Pythonic 方式无循环或递归来检查是否超过两个pd DataFrames 例如 pd DataFrames 列表彼此相等吗就像是 all x equals dfs 0 for x in dfs with dfs数据
如何修改 contenteditable 元素的innerHTML

我使用 Selenium 与 Chrome driver 和 python3 6 来测试网站我在网页中有代码片段如下 div class 3F6QL 2WovP div class 39LWd Type a message div div
使用 statsmodels.formula.api 中的 ols - 如何删除常数项？

我正在遵循第一个例子statsmodels教程 http statsmodels sourceforge net devel http statsmodels sourceforge net devel 如何指定在 ols 中不使用常数项进
Python 中的十进制到二进制半精度 IEEE 754

我只能使用以下命令将十进制转换为二进制单精度 IEEE754struct pack模块或者使用相反的方法 float16 或 float32 numpy frombuffer 是否可以使用 Numpy 将十进制转换为二进制半精度浮点数我
如何使用 pygame.mixer 重复音乐？

我创建了以下使用 pygame mixer 播放 mp3 音乐的代码然而音乐不会重复有什么想法可以让音乐重复播放吗这是代码 playlist list playlist append put music here mp3 playl
如何保持 python 3 脚本 (Bot) 运行

不是母语英语抱歉英语可能很蹩脚我也是编程新手您好我正在尝试使用 QueryServer 连接到 TeamSpeak 服务器来创建机器人经过几天的努力它有效只有 1 个问题而我却被这个问题困扰了如果您需要检查这是我正在使
在多个图表上绘制一条线

I don t know how this thing is called or even how to describe it so the title may be a little bit misleading The first a
通过 ManyToManyField = Value 对 django 查询集进行排序

如果有一些模型例如 class Tag models Model name models CharField class Thing models Model title models CharField tags models Many

随机推荐

SSH 握手抱怨缺少主机密钥

我正在尝试连接到远程主机并检查文件是否存在在这个阶段我只是尝试连接但出现错误 2017 08 01 18 16 39 unable to connect ssh handshake failed ssh required host k
如何并行化 Azure ML 服务计算集群上的工作？

我可以使用计算集群将作业提交到 Azure ML 服务它运行良好并且自动缩放与自定义环境的良好灵活性相结合似乎正是我所需要的然而到目前为止所有这些作业似乎只使用集群的一个计算节点理想情况下我希望使用多个节点进行计算但我看到的
当我在 android 中使用哈希映射时显示警告（使用新的 SparseArray）

我是 Android 开发新手在我使用的 Android 应用程序中HashMap 但我收到警告 Use new SparseArray
URL 中的段落字符？

我刚刚遇到了这个Google 应用引擎文章 http code google com googleapps appsscript articles appengine html在某些 URL 中使用有趣的反向 P 字符查看第一个代码框顶部
使用 FastObjImporter 在场景中加载并显示 obj 模型

在我的 Unity 项目中我想使用在互联网上找到的 FastObjImporter 类将 obj 放入场景中我是否必须创建一个空的 GameObject 并将已处理的 obj 分配给它尝试使用空的游戏对象 GameObject go
如何使用 Flutter 在 Android 和 iOS 上实现振动？

我正在尝试使用 Flutter 在单击按钮时实现振动我发现说实话非常困难我尝试使用以下软件包但未成功振动 https pub dev packages vibration and vibrate https pub dev packa
无法使用 Jekyll 生成任何内容

当我运行 Jekyll 时它不会生成任何内容我看到的输出 Configuration from home mbsheikh techtraits techtraits blog config yml Auto regenerating
调用纯虚函数[重复]

这个问题在这里已经有答案了可能的重复在构造函数中调用虚函数 https stackoverflow com questions 962132 calling virtual functions inside constructors 看
JAXB 是否存在内存利用率问题？

我使用 JAXB 进行 xml 解析是否存在任何性能或内存利用率问题需要注意的一件事是JAXBContext newInstance 是一个非常慢的操作这是发生大量反射和类生成的地方导致 duffymo 提到的烫发空间问题值得庆幸
如果我仅使用 JSON.Net，我可以安全地删除 C# 模型类中指定后缀的字段和属性吗

我有一个 C 应用程序我有一个从 xsd 生成的类该类如下所示 public class Transaction public bool amountSpecified get set public double amount get
Ocaml 中查找树深度的尾递归函数

我有一个类型tree定义如下 type a tree Leaf of a Node of a a tree a tree 我有一个函数可以找到树的深度如下所示 let rec depth function Leaf x gt 0 Node
并行化 tf.data.Dataset.from_generator

我有一个不平凡的输入管道from generator非常适合 dataset tf data Dataset from generator complex img label generator tf int32 tf string dat
我可以在 Excel VBA 中捕获并模拟 KeyDown 事件吗？

阿伦辛格 Arun Singh 对类似问题给出了很好的答案编辑单元格时按下按键时是否会触发任何事件 https stackoverflow com questions 11153995 is there any event that f
自动居中 vim 搜索结果

当我使用 vim 或 gvim 进行搜索时光标在窗口内的最终定位有些随机经常落在窗口的最后一行或第一行搜索突出显示有所帮助但必须在屏幕上四处寻找才能找到光标仍然很麻烦而且有点讽刺的是在 vim 在一些兆字节长的日志文件中找到下
IE11 阻止 ActiveX 运行

我们的网络浏览器插件在 IE9 和 IE10 中工作正常但在 IE11 中该插件既不被识别为附加组件也不被允许运行就好像IE11不再支持ActiveX一样当然有解决方法但是我们需要改变什么注意这个问题是作为插件的开发者提出的
Phonegap 相机返回带有黑条的照片

我正在使用 Phonegap 3 4 当我在 iPhone 上拍摄风景照片时我得到的照片顶部和底部有黑条这是我的相机配置选项 var cameraOptions correctOrientation true quality 90 de
如何更改电子邮件的 html5 模式错误消息

Html5 required 属性通常会添加错误消息请填写此字段并且可以使用以下代码轻松更改它 oninvalid setCustomValidity Custom text in another language oninput se
如何将记录插入到sql server express数据库表中？

我正在尝试将文本框值插入到名为的数据库表中site list The site list表包含两列id and site name id设置为自动递增这是我正在尝试的代码执行时没有错误但数据未显示在表中 SqlConnection c
如何验证 Google Cloud Endpoints 服务 URL 的所有权？

我已经设置了 Google Cloud Endpoints 项目并且可以调用 http https 请求 Endpoints 为我提供了可以使用的 MY API endpoints MY PROJECT cloud goog 域名我正在
Spark Dataframe 在性能上比 Pandas Dataframe 有何优势？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案谁能解释一下 Spark Dataframes 在执行时间方面比 Pandas Dataframes 更好我正在处理中等数量的数据并

Spark Dataframe 在性能上比 Pandas Dataframe 有何优势？ [关闭]

Spark Dataframe 在性能上比 Pandas Dataframe 有何优势？ [关闭] 的相关文章

随机推荐

热门标签