pyspark rdd isCheckPointed() 为 false

2023-12-12

当我向 pyspark 数据帧迭代添加 500 多列时，遇到了 stackoverflowerrors。所以，我包括了检查点。检查站没有帮助。因此，我创建了以下玩具应用程序来测试我的检查点是否正常工作。我在此示例中所做的就是通过一遍又一遍地复制原始列来迭代创建列。我坚持、检查点并每 10 次迭代进行计数。我注意到我的 dataframe.rdd.isCheckpointed() 总是返回 False。我可以验证检查点文件夹确实正在创建并填充在磁盘上。我正在 glcoud 上的 dataproc 上运行。

这是我的代码：

from pyspark import SparkContext, SparkConf
from pyspark import StorageLevel
from pyspark.sql import SparkSession
import pandas as pd
import numpy as np
import sys

APP_NAME = "isCheckPointWorking"

spark = SparkSession\
    .builder\
    .appName(APP_NAME)\
    .config("spark.sql.crossJoin.enabled","true")\
    .getOrCreate()

sc = SparkContext.getOrCreate()

#set the checkpoint directory
sc.setCheckpointDir('gs://mybucket/checkpointtest/')

#create a spark dataframe with one column containing numbers 1 through 9
df4 = spark.createDataFrame(pd.DataFrame(np.arange(1,10),columns = ["A"]))
df4.show()

#create a list of new columns to be added to the dataframe
numberList = np.arange(0,40) 
colNewList = ['col'+str(x) for x in numberList]

print(colNewList)

iterCount = 0

for colName in colNewList:

    #copy column A in to the new column
    df4 = df4.withColumn(colName,df4.A)

    if (np.mod(iterCount,10) == 0):           
        df4 = df4.persist(StorageLevel.MEMORY_AND_DISK)      

        df4.checkpoint(eager=True)

        df4.count()    
        #checking if underlying RDD is being checkpointed        
        print("is data frame checkpointed "+str(df4.rdd.isCheckpointed()))

    iterCount +=1

当我看到检查点文件夹正在填充时，尚不清楚为什么 df4.rdd.isCheckpointed() 每次都返回 False。有什么想法吗？

checkpoint方法返回一个新的检查点Dataset，它不会修改当前的Dataset。

Change

df4.checkpoint(eager=True)

df4 = df4.checkpoint(eager=True)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

pyspark rdd isCheckPointed() 为 false 的相关文章

Spark s3 写入（s3 与 s3a 连接器）

我正在从事一项在 EMR 上运行的作业它在 s3 上保存了数千个分区分区为年月日我有过去 50 年的数据现在当 Spark 写入 10000 个分区时使用以下命令大约需要 1 小时s3a联系它非常慢 df repartit
Spark shuffle 溢出指标

在 Spark 2 3 集群上运行作业时我在 Spark WebUI 中注意到某些任务发生了溢出据我所知在reduce端 reducer获取所需的分区随机读取然后使用执行器的执行内存执行reduce计算由于没有足够的执行内存一
Spark SQL中如何按列降序排序？

I tried df orderBy col1 show 10 但它是按升序排列的 df sort col1 show 10 也按升序排序我查看了 stackoverflow 发现的答案都已过时或称为 RDD https stackove
如何在 PySpark 中累计聚合一天内超过“1 小时”的窗口

我有一个如下所示的 Spark DataFrame group id event time XXXX 2017 10 25 14 47 02 717013 XXXX 2017 10 25 14 47 25 444979 XXXX 2017
Spark 输出：日志式与进度式

spark submit两个不同集群都运行 Spark 1 2 上的输出看起来不同一个是日志式即大量消息流例如 15 04 06 14 53 13 INFO TaskSetManager Starting task 262 0 i
Spark shell (spark 3.0.0) 添加包 confluence kafka 5.5.1 javax.ws.rs-api 问题

我本地的win10 WSL回到ubuntu 在ubuntu上我安装了spark3 0 0 confluence平台5 5 1 手动下载当我尝试运行spark shell或spark submit时下面是shell示例 spark sh
Pyspark dataframe：如何按组应用 scipy.optimize 函数

我有一段运行良好的代码但使用 pandas 数据帧 groupby 处理但是由于文件很大 gt 7000 万组我需要转换代码以使用 PYSPARK 数据框架这是使用 pandas dataframe 和小示例数据的原始代码 imp
如何使用 Spark-submit 命令获取提交到 Spark 集群的作业的应用程序 ID/作业 ID？

我正在使用 Spark submit 命令提交 Apache Spark 作业我想检索使用 Spark submit 命令提交的作业的应用程序 ID 或作业 ID 推荐的方式应该是什么可以解析 Spark submit 命令的输出以获取
Spark on Hive SQL 查询错误 NoSuchFieldError: HIVE_STATS_JDBC_TIMEOUT

针对 Hive 2 1 0 提交 Spark 1 6 0 SQL 应用程序时出现错误 Exception in thread main java lang NoSuchFieldError HIVE STATS JDBC TIMEOUT a
为什么spark.memory.fraction的默认值这么低？

来自Spark配置文档 https spark apache org docs latest configuration html memory management 我们了解以下有关spark memory fraction配置参数用于
如何在cassandra中保存spark流数据

构建 sbt以下是build sbt文件中包含的内容 val sparkVersion 1 6 3 scalaVersion 2 10 5 resolvers Spark Packages Repo at https dl bintray
将 Spark 添加到 Oozie 共享库

默认情况下 Oozie 共享 lib 目录提供 Hive Pig 和 Map Reduce 的库如果我想在 Oozie 上运行 Spark 作业最好将 Spark lib jar 添加到 Oozie 的共享库而不是将它们复制到应用程序
带可变参数的 Spark UDF

如文档中所示列出最多 22 个参数是唯一的选择吗 https spark apache org docs 1 5 0 api scala index html org apache spark sql UDFRegistration ht
无法在 Windows 10 中启动 Spark Master

我是 Spark 新手我正在尝试手动启动 master 在 Windows 10 中使用 MINGW64 当我这样做时 Downloads spark 1 5 1 bin hadoop2 4 spark 1 5 1 bin hadoop2
Apache Spark 和 scikit_learn 之间的 KMeans 结果不一致

我正在使用 PySpark 对数据集执行聚类为了找到簇的数量我对一系列值 2 20 进行了聚类并找到了wsse 簇内平方和每个值的值k 在这里我发现了一些不寻常的东西根据我的理解当你增加集群数量时 wsse单调递减但我得到的结
为什么我不需要在 Databricks 中创建 SparkSession？

为什么我不需要在 Databricks 中创建 SparkSession 集群设置的时候会自动创建一个SparkSession吗还是其他人帮我做的这仅在笔记本中完成以简化用户的工作并避免他们指定不同的参数其中许多参数不会产生任何效果
对 Spark 数据集中的数字字符串进行排序

假设我有以下内容Dataset productCode amount XX 13 300 XX 1 250 XX 2 410 XX 9 50 XX 10 35 XX 100 870 Where productCode is of Strin
读取不同文件夹深度的多个 csv 文件

我想递归地将给定文件夹中的所有 csv 文件读入 Spark SQLDataFrame如果可能的话使用单一路径我的文件夹结构如下所示我想包含具有一个路径的所有文件 resources first csv resources subfo
Spark 数据帧分组、排序和选择一组列的顶部行

我正在使用 Spark 1 5 0 我有一个包含以下列的 Spark 数据框 user id description fName weight 我想做的是为每个用户选择前 10 行和后 10 行基于列权重的值数据类型为 Double 如
Spark scala：大量列上的简单 UDF 会导致性能下降

我有一个包含 1 亿行和约 10 000 列的数据框这些列有两种类型标准 C i 和动态 X i 这个dataframe是经过一些处理后得到的性能很快现在只剩下2步了 Goal 需要使用 C i 列的相同子集对每个 X i 执行特定

随机推荐

使用 Python 通过 SSH 从服务器读取文件

我正在尝试使用 Python 中的 SSH 从服务器读取文件我正在使用 Paramiko 进行连接我可以连接到服务器并运行类似的命令cat filename并从服务器取回数据但我尝试读取的某些文件大小约为 1 GB 或更大如何使用P
使用 WebApi 和 ODataQueryOptions 实现 $select

我正在尝试使用 ODataQueryOptions 通过自定义 DAL 实现一些 OData 功能我的 DAL 使用设计时生成的类型化数据表通过拦截 ODataQueryOptions 的 SelectExpand 属性我可以让 DA
具有部分更新的实体框架验证

我将 Entity Framework 5 0 与 DbContext 和 POCO 实体一起使用有一个包含 3 个属性的简单实体 public class Record public int Id get set public stri
为什么从 ResourceBundle.getBundle 检索字符串时出现无法理解的字符

请告诉我如何解决这个问题 Locale locale new Locale language ResourceBundle messages ResourceBundle getBundle i18n messages locale utf
C++ 运算符歧义

请原谅我因为我对 C 相当陌生但我在运算符歧义方面遇到了一些麻烦我认为它是特定于编译器的适用于在我的桌面上编译的代码但是它无法在我的笔记本电脑上编译我想我知道出了什么问题但我没有看到一个优雅的解决方法如果我犯了一个明显的错
CMSampleBufferGetImageBuffer 中的内存泄漏

我得到了一个UIImage from a CMSampleBufferRef每 N 个视频帧进行视频缓冲例如 void imageFromVideoBuffer void UIImage image completion CMSample
如何在具有 ARM CPU 的 WinRT 设备中部署 SQLite？

我正在开发一个 C Window8 WinRT 应用程序并且正在使用 SQLite NET 以及链接在文档底部的 sqlite3 dll https github com praeclarum sqlite net 我的项目在我的计算机上
在 PHP 中以编程方式创建 Excel 图表

您知道如何通过 PHP 以编程方式在 Excel 工作表中创建图表吗我知道您可以调用 Excel COM 对象但服务器正在 Linux 计算机上运行我已经使用了优秀的 PHPExcel 库但他们不提供创建图表的选项 Thanks 尝
如何使用新的图形 API 在 FB 中显示扩展权限对话框？

我之前使用旧的 REST API 在 Facebook 中显示权限对话框现在有了新的图形 API 我能做什么我在 IFrame 应用程序中我知道我可以作弊并在单独的窗口中弹出权限 FB login function response
运行 php 脚本时 Jquery 函数说未定义

我基本上是这样做的所以当你点击一个按钮投票时现在我有客户 php
.net Core Mailkit 从数组发送附件

我正在测试 Net Core MVC 它不支持 System Net Mail 我发现的唯一替代方案是 Mailkit 效果很好但无法弄清楚如何发送我以二进制形式存储在数据库中的附件我在 MVC 5 中使用了以下内容 var mail
Eclipse CDT 不会运行已编译的 exe 文件

所以我决定安装 Eclipse CDT 作为我选择的 IDE 然而似乎一旦我开始运行需要输入的 C 程序 Eclipse 就决定停止运行控制台窗口中的文件我尝试在任务管理器中关闭该程序的所有实例并且我在计算机上找到的 exe 文件运行
在 Postgres 中复制/克隆表的最快方法是什么？

我知道我能做到CREATE TABLE tbl 2 AS select from tbl 1 但有没有更好更快更强的方法来做到这一点我现在谈论的主要是性能这些表都是非规范化的我没有任何外键约束需要担心 EDIT 或许就没有更好的办
使用“graphics.DrawString”后如何提高打印文本质量？

打印后我的文本质量有问题它不平滑和抗锯齿故事是这样的我从位图创建图形 Graphics FromImage MyBitmap and 我认为这是我的问题的起点因为我无法使用 PrintPageEvenArg e 但我别无选择之后我
Tensorflow 似乎没有看到我的 GPU

我已经在cuda 7 5和8 0上尝试过tensorflow 没有cudnn 我的GPU很旧 cudnn不支持它当我执行时device lib list local devices 输出中没有 GPU Theano 可以看到我的 GPU
Android 6.0获取MAC地址

我正在开发一个获取设备 MAC 地址的应用程序但从 Android 6 0 开始我的代码不起作用给了我一个不正确的值这是我的代码 public String ObtenMAC WifiManager manager WifiMana
Applet 类加载器无法在 applet 的 jar 中找到类

我开始问这个问题然后在提交之前找到了答案无论如何我决定发布这个问题以便其他遇到同样问题的人能够从我的错误中吸取教训我在使用小程序时遇到问题 aJApplet实际上无法实例化与小程序包含在同一 jar 中的另一个类我在 Java
键盘没有响应 resignFirstResponder

我不想显示键盘而是想在选择文本字段时显示弹出窗口视图我的代码位于底部如果键盘未显示则一切正常但是如果显示键盘然后选择文本字段则键盘不会消失第一个响应者一定在某个地方迷路了但我不知道在哪里有人有解决办法吗我的文本字段 s
Rust 中具有变化行为的有限（游戏）状态机模式？

我正在尝试用 Rust 编写一个回合制游戏但我在该语言中遇到了障碍除非我没有完全理解某些东西我是该语言的新手基本上我想更改游戏中的状态其中每个状态都有不同的行为例如我有类似的东西 struct Game state Some
pyspark rdd isCheckPointed() 为 false

当我向 pyspark 数据帧迭代添加 500 多列时遇到了 stackoverflowerrors 所以我包括了检查点检查站没有帮助因此我创建了以下玩具应用程序来测试我的检查点是否正常工作我在此示例中所做的就是通过一遍又一遍地

pyspark rdd isCheckPointed() 为 false

pyspark rdd isCheckPointed() 为 false 的相关文章

随机推荐

热门标签