Pyspark 性能：dataframe.collect() 非常慢

2024-01-22

当我尝试在数据帧上进行收集时，似乎花费了太长时间。

我想从数据框中收集数据，将其转换为字典并将其插入到 documentdb 中。但是执行day_rows.collect()时性能似乎很慢

day_rows = self._sc.sql("select * from table")

rows_collect = []

if day_rows.count():
    rows_collect = day_rows.collect()

results = map(lambda row: row.asDict(), rows_collect)

为什么性能慢？

在 .collect() 之前缓存您的数据帧。这将使性能大幅提高。

df.persist() 或 df.cache()

一旦使用完毕，您就可以随时取消坚持。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

PySpark

apachesparksql

Pyspark 性能：dataframe.collect() 非常慢的相关文章

当我们在 Apache Spark 中使用时，无法找到 Set([TOPIC NAME,0])) 的领导者

我们使用 Apache Spark 1 5 1 和 kafka 2 10 0 8 2 1 以及 Kafka DirectStream API 通过 Spark 从 Kafka 获取数据我们使用以下设置在 Kafka 中创建了主题复制因子
使用列的长度过滤 DataFrame

我想过滤一个DataFrame使用与列长度相关的条件这个问题可能很简单但我在SO中没有找到任何相关问题更具体地说我有一个DataFrame只有一个Column哪一个ArrayType StringType 我想过滤DataFrame
Apache Spark 何时发生混洗？

我正在优化 Spark 中的参数并且想确切地了解 Spark 是如何对数据进行洗牌的准确地说我有一个简单的字数统计程序并且想知道spark shuffle file buffer kb如何影响运行时间现在当我将此参数设置得非常高
为什么我不需要在 Databricks 中创建 SparkSession？

为什么我不需要在 Databricks 中创建 SparkSession 集群设置的时候会自动创建一个SparkSession吗还是其他人帮我做的这仅在笔记本中完成以简化用户的工作并避免他们指定不同的参数其中许多参数不会产生任何效果
按元素聚合数组

Spark scala 相当新我想知道是否有一种简单的方法以按列方式聚合 Array Double 这是一个例子 c1 c2 c3 1 1 1 0 1 0 3 4 1 2 1 0 0 0 4 3 2 1 0 0 0 0 0 0 2 3 1
如何在 Spark 数据帧 groupBy 中执行 count(*)

我的目的是做相当于基本sql的事情 select shipgrp shipstatus count cnt from shipstatus group by shipgrp shipstatus 我见过的 Spark 数据帧的示例包括其他列
Spark 数据帧分组、排序和选择一组列的顶部行

我正在使用 Spark 1 5 0 我有一个包含以下列的 Spark 数据框 user id description fName weight 我想做的是为每个用户选择前 10 行和后 10 行基于列权重的值数据类型为 Double 如
pyspark。数据框中的 zip 数组

我有以下 PySpark DataFrame id data 1 10 11 12 2 20 21 22 3 30 31 32 最后我想要以下 DataFrame id data
Spark Dataframe 中的分析

在这个问题中我们有两个经理 M1 和 M2 在经理 M1 的团队中有两个员工 e1 和 e2 在 M2 的团队中有两个员工 e4 和 e5 以下是经理和员工的层次结构 1 M1 a e1 b e2 2 M2 a e4 b e5 我们有以下
我可以使用 dask 创建 multivariate_normal 矩阵吗？

有点相关这个帖子 https stackoverflow com questions 52337612 random multivariate normal on a dask array 我正在尝试复制multivariate norma
Spark 和 Scala 中的文本操作

这是我的数据 review text The product picture and part number match but they together do not math the description review text A
在 pyspark 中包装 java 函数

我正在尝试创建一个用户定义的聚合函数我可以从 python 调用它我试图遵循答案this https stackoverflow com questions 33233737 spark how to map python with s
如何指定spark-submit使用的Python版本？

我有两个版本的Python 当我使用 Spark submit 启动 Spark 应用程序时该应用程序使用默认版本的 Python 但是我想使用另一个如何指定spark submit使用的Python版本您可以设置PYSPARK P
具有定期更新的静态数据集的结构化流

将流媒体与静态数据集合并是结构化流媒体的一个重要功能但在每个批次中数据集都会从数据源刷新由于这些源并不总是那么动态因此在指定的时间段或批次数内缓存静态数据集会提高性能在指定的时间段批次数之后将从源重新加载数据集否则从缓存
如何在 pySpark 数据框中添加行 ID [重复]

这个问题在这里已经有答案了我有一个 csv 文件我在 pyspark 中将其转换为 DataFrame df 经过一番改造后我想在 df 中添加一列这应该是简单的行 ID 从 0 或 1 开始到 N 我将 df 转换为 rdd 并使
我们可以在 UDF 中使用关键字参数吗

我的问题是我们可以像下面那样在 Pyspark 中使用关键字参数和 UDF 吗 conv 方法有一个关键字参数 conv type 默认情况下它被分配给特定类型的格式化程序但是我想在某些地方指定不同的格式由于关键字参数这在 udf 中
将 Spark 数据帧写入 csv 文件时出现“调用 o58.csv 时发生错误”错误

使用后df write csv尝试将我的 Spark 数据帧导出到 csv 文件中我收到以下错误消息 AppData Local Programs Python Python39 lib site packages py4j protoc
Pyspark UDF AttributeError：“NoneType”对象没有属性“_jvm”

我有一个 udf 函数 staticmethod F udf array
使用 Python 用另一个嵌套 Json 更新嵌套 Json

例如我有一套完整的嵌套 JSON 我需要使用另一个嵌套 JSON 中的最新值来更新此 JSON 谁能帮我这个我想在 Pyspark 中实现这个完整的 Json 看起来像这样 email email protected cdn cgi
S3A：失败，而 S3：在 Spark EMR 中工作

我将 EMR 5 5 0 与 Spark 结合使用如果我使用一个简单的文件写入 s3s3 网址写得很好但如果我使用s3a 地址它失败了Service Amazon S3 Status Code 403 Error Code Acces

随机推荐

rCharts-如何向 NVD3 图表添加轴标签和标题

我正在探索 reCharts 我在向 Y 轴和标题添加标签时陷入困境我是 rCharts 新手这是我的示例代码 require rCharts n2 lt nPlot Hours Month group Task data cars t
jquery 的 $.ajax 中从 url 参数中删除附加 url 的方法

我正在使用 cakephp 并想使用jQuery ajax发布到我的服务器问题是 jQuery 的 ajax附加协议和主机名但还包括当前控制器因此我无法更改我粘贴的控制器有没有办法改变 url 参数 ajax 这是我的示例邮政编码
这个程序如何运作？

include
Silverlight 3 和 Silverlight 4 条件 xaml

我现在正在开发一个必须分离项目文件的项目一个符合 Silverlight 3 另一个符合 Silverlight 4 该项目创建了一个在其他几个项目中使用的用户控件不幸的是其中一个处于 SL3 状态现在无法升级这就是为什么需要 S
将目录迁移到不同的 svn 存储库

我在 svn 存储库中有代码将其称为存储库 A 现在假设我需要将内容移动到存储库 B 但存储库 B 已经对其他项目处于活动状态一段时间了是否可以将特定目录从存储库 A 移动到存储库 B 同时保留文件历史记录通常要将整个存储库迁移到新
MapView 显示在灰色瓷砖地图中未显示在 android google api 2.3.3 中

您好我正在开发一个地图视图我尝试遵循以下方式我通过单击按钮创建了一个意图添加权限和库我创建了一个覆盖项目我的模拟器的目标是GoogleApi 2 3 3 我的MapView密钥已获取并分配到mapview xml中我看到底部
Eclipse：快速搜索文件名

在 Eclipse 中工作时我经常意识到我记得类名但忘记了该类在哪个包中使用搜索不是很方便点击和按键次数过多我想知道有没有一个插件可以简化这个过程例如如果包资源管理器顶部有一个文本编辑框可以根据输入的文本过滤显示包和 ja
确定 1 到 0 转换之间的时间

我的表格显示泵的开关状态如下 Value timestamp 1 2013 09 01 00 05 41 987 0 2013 09 01 00 05 48 987 1 2013 09 01 00 05 59 987 0 2013 09
使用reduce进行分组和求和

我想返回一个按团队分组的数组其中包含 gp 胜利失败的总和我试图通过减少来实现这一点但是总数并没有相加这是我的代码 const myArr team Red gp 3 win 2 loss 1 team Black gp 3 wi
Cordova/Phonegap 社交共享

我正在寻找一种简单的解决方案用于在 cordova phonegap 应用程序内部共享我希望添加 Facebook Twitter 和电子邮件共享就像这个应用程序一样 http itunes apple com us app mars
在 Yii 中设置默认时区

我正在使用以下时区配置配置文件 timeZone gt UTC 它工作正常所有日期都根据以下内容存储在数据库中UTC 现在每个用户在他她的个人资料中都有自己的时区例如UTC 5 UTC 5 UTC 0 etc 现在我如何根据用户时区在
我如何知道使用 Azure 存储的代码是否会受到 2015 年 12 月即将删除的 API 版本的影响？ [复制]

这个问题在这里已经有答案了我有一个来自微软的电子邮件 http aka ms Qga48e据说较低版本的存储服务将于 2015 年 12 月被删除我们的应用程序使用 Azure SDK 1 8 和 2 0 我们如何确定我们是否受到此更改
如何创建一个android自动启动应用程序？

如何创建一个安卓自动启动应用程序我的应用程序显示特殊日期通知并且它必须自动启动 tnx 您可以使用报警管理器 http developer android com reference android app AlarmManager h
如何使屏幕上的按钮水平和垂直居中且等距？

我已经绞尽脑汁这里是android新手所以不难做到有一段时间试图找出如何实现这一点使用RelativeLayout或AbsoluteLayout以外的东西来创建它我有 Windows 编程背景其中设备会为您调整绝对定位并且
哈希集与树集

我一直很喜欢树真好O n log n 以及它们的整洁然而我认识的每一位软件工程师都尖锐地问我为什么要使用TreeSet 从 CS 背景来看我认为你使用什么并不重要而且我不喜欢乱搞哈希函数和存储桶在这种情况下 Java 在什么情况
REDCap 自动填充早期记录中的字段

我想用早期记录中该字段中插入的内容填充下拉菜单不带管道的形式具体来说我有一个名为杂志如果之前有人记录过日记代谢组学我希望它出现在下拉菜单或类似的菜单中如果日记是新的我会添加一个文本字段可以在其中添加新日记感谢您的帮
kotlin 嵌套线程 - “此范围内有多个具有此类名称的标签”

我有一些与此类似的 kotlin 代码 Thread Thread return Thread start start 现在我收到以下警告我知道 kotlin 对于此时要返回哪个线程感到困惑无论是外线程还是内线程但我不知道如何告诉它
如何查找哪些对象产生的垃圾最多

我的应用程序包含 80 个不同类的大约 80 个实例这些类的某些子集生成的垃圾量是不可接受的并且停止世界的暂停时间太长因为我的应用程序是实时的我想找到的是哪些类负责创建最大的number堆上对象的数量不是聚合大小而是对象的原始数
Automapper：映射到受保护的财产

我需要映射到protected使用类的属性Automapper 我有一个public此类上公开的方法用于设置属性的值该方法需要一个parameter 如何将值映射到此类目的地舱位 public class Policy private
Pyspark 性能：dataframe.collect() 非常慢

当我尝试在数据帧上进行收集时似乎花费了太长时间我想从数据框中收集数据将其转换为字典并将其插入到 documentdb 中但是执行day rows collect 时性能似乎很慢 day rows self sc sql select

Pyspark 性能：dataframe.collect() 非常慢

Pyspark 性能：dataframe.collect() 非常慢 的相关文章

随机推荐

热门标签

Pyspark 性能：dataframe.collect() 非常慢的相关文章