在 pyspark 中缓存数据帧

2024-03-09

我想更准确地了解pyspark中数据帧的方法缓存的使用

当我跑步时df.cache()它返回一个数据帧。因此，如果我这样做df2 = df.cache()，哪个数据帧在缓存中？是吗df, df2，或两者？

我找到了源代码DataFrame.cache https://spark.apache.org/docs/latest/api/python/_modules/pyspark/sql/dataframe.html#DataFrame.cache

def cache(self):
    """Persists the :class:`DataFrame` with the default storage level (`MEMORY_AND_DISK`).

    .. note:: The default storage level has changed to `MEMORY_AND_DISK` to match Scala in 2.0.
    """
    self.is_cached = True
    self._jdf.cache()
    return self

因此，答案是：both

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

caching

PySpark

在 pyspark 中缓存数据帧的相关文章

CPU缓存：两个地址之间的距离是否需要小于8字节才能具有缓存优势？

这似乎是一个奇怪的问题假设缓存行的大小为 64 字节此外假设 L1 L2 L3 具有相同的缓存行大小 this https stackoverflow com a 15333156 8385554帖子说英特尔酷睿 i7 就是这种情况
错误：从列表创建 Spark 数据帧时 TimestampType 无法接受对象

我正在尝试从以下列表创建一个数据框 data 1 abc 2020 08 20 10 00 00 I 1 abc 2020 08 20 10 01 00 U 1 abc 2020 08 21 10 02 00 U 2 pqr 2020 08
Spark SQL / PySpark 中的逆透视

我手头有一个问题陈述其中我想在 Spark SQL PySpark 中取消透视表我已经浏览了文档我可以看到仅支持pivot 但到目前为止还不支持取消透视有什么方法可以实现这个目标吗让我的初始表如下所示 When I pivotPy
Rails 4.0 expire_fragment/缓存过期不起作用

我一直在尝试使用 Rails 的缓存功能但我无法使某些缓存片段过期尽管它们似乎已过期使用 Rails 教程网站中指出的 Russian Doll Caching 我正在使用此配置我使release controller rb 控制器
从 pandas udf 记录

我正在尝试从 python 转换中调用的 pandas udf 进行日志记录因为在执行器上调用的代码不会显示在驱动程序的日志中我一直在寻找一些选项但到目前为止最接近的选项是这个one https stackoverflow com q
避免 AngularJS 部分视图在 IE 中缓存

我正在开发一个 ASP NET MVC 应用程序它也有一些 angularJS 我有一个主页其中有不同的选项卡当您单击它们时它们会加载角度部分视图主页是这样的 div class widget div div class widg
在 SPA 中加载外部脚本和样式文件

我有一种 SPA 它使用 API 来获取数据该 SPA 有一些实例它们都使用通用样式和脚本文件所以我的问题是当我更改这些文件中的一行时我将必须打开每个实例并更新文件这对我来说真的很耗时一种方法是将这些文件放在服务器中的文件夹中
Spark：出现心跳错误后丢失数据

我有一个在 Spark 集群上运行的 Python 程序有四个工作线程它处理一个包含大约 1500 万条记录的巨大 Oracle 表检查结果后发现大约有600万条记录没有插入我的写入功能如下 df write format jdbc
Spark (Python) 中的 Kolmogorov Smirnov 测试不起作用？

我正在 Python Spark ml 中进行正态性测试看到了我的结果think是一个错误这是设置我有一个标准化的数据集范围 1 到 1 当我做直方图时我可以清楚地看到数据不正常 gt gt gt prices norm hist
为什么 data.table `:=` 的 knit 缓存失败？

这在精神上与this https stackoverflow com q 15267018 1900520问题但机制上一定不同如果您尝试缓存knitr包含一个块data table 分配然后它的行为就好像该块尚未运行并且后面的块看不到
pyspark flatmat 错误：TypeError：“int”对象不可迭代

这是我书中的示例代码 from pyspark import SparkConf SparkContext conf SparkConf setMaster spark chetan ThinkPad E470 7077 setAppNam
StackExchange.Redis Get 函数抛出 TimeoutException

我在用着StackExchange Redis与 C 和StackExchangeRedisCacheClient Get函数抛出以下异常 myCacheClient Database StringGet txtKey Text myCac
为什么在读取字典时要锁定

我对我正在阅读的一本关于线程的书 C 3 in a Nutshell 中的代码列表感到困惑在应用程序服务器中的线程安全主题中给出了以下代码作为 UserCache 的示例 static class UserCache static
控制缓存过期

通过 Google 网站管理员工具的 PageSpeed 分析器运行我的网页后它向我报告我的资源没有被缓存下面是我的 htaccess 文件中直接取自 H5BP 的代码我是否正确地假设以下过期时间设置正确但我的实现中出现了问题或者
Spark 中的 StandardScaler 未按预期工作

知道为什么 Spark 会这样做吗StandardScaler 根据定义StandardScaler StandardScaler 将一组特征标准化为均值为零标准差为 1 withStd 标志将数据缩放为单位标准差而标志 withMe
如何用C语言编写程序来测量缓存的速度？

编写一个程序并尝试比较如果可以的话测量从主存和缓存访问数据的时间如果可以的话那么如何衡量每一级缓存的速度呢您需要想出一个启发式方法强制 100 或非常接近缓存未命中希望您有缓存失效操作码和 100 缓存命中万岁这适用于
缓存一致性是否始终可以防止读取过时的值？失效队列允许吗？

在 MESI 协议中仅当将缓存行保持在独占修改状态时才写入缓存行要获取独占状态您可以向持有同一高速缓存行的所有核心发送无效请求但是是否存在一种微架构其中某些内核会在实际使缓存线无效之前做出确认响应如果确实如此那不是违反了缓存
从 pyspark.sql 中的列表创建数据框

我完全陷入了有线的境地现在我有一个清单li li example data map lambda x get labeled prediction w x collect print li type li 输出就像 0 0 59 0 0
一旦自定义 PySpark Transformer 成为安装的 ML Pipeline 中的一个阶段，如何为它设置参数？

我编写了一个自定义 ML PipelineEstimator and Transformer对于我自己的 Python 算法遵循所示的模式here https stackoverflow com a 37279526 1843329 然而
如何加速spark df.write jdbc到postgres数据库？

我是 Spark 新手正在尝试使用 df write 加速将数据帧的内容可以有 200k 到 2M 行附加到 postgres 数据库 df write format jdbc options url psql url spark d

随机推荐

Github Desktop - 作者身份未知

我正在使用 github 桌面上传一些基本网站的代码然后使用 github 页面但是每次我尝试提交到 main 时都会出现错误提示作者身份未知我知道我必须将我的姓名和电子邮件放入文件中但是其中有两个带有 JavaScript
可变参数函数 - 如何确保参数正确传递

有没有什么方法内置或代码模式来确保向可变参数函数传递正确数量的参数显然这将作为 API 的一部分包含在内我可以检查我自己的内部代码我正在考虑要求 UN32 Magic Number 作为最后一个传递的参数并检查可变参数函数的有
“tensorboard”不被识别为内部或外部命令，

刚刚开始使用 Tensorflow 但我无法在 cmd 上使用 tensorboard 命令它给出了错误命令 C Users tushar PycharmProjects gt tensorboard logdir NewTF tenso
AngularJS 和 ReactJS 之间的主要区别是什么

Closed 这个问题需要多问focused help closed questions 目前不接受答案我需要创建一个将转换为移动应用程序的网站我想要构建的内容更适合成为网站而不是应用程序因此建筑物本身应该作为网站由于我更熟悉桌面和
Camel Apache：从接收到的 XML 中提取一些值的 xpath

在我的 Camel 路由期间我查询服务器 HTTP GET 结果我收到一个 200 OK 其 XML 正文看起来类似如下
PHP websocket 连接到 node.js 服务器

我有简单的 node js websocket 服务器 var fs require fs var ws require var options secure false var Server ws createServer options
从 Graph API 中删除照片标签

我正在尝试创建一个应用程序来帮助用户删除不需要的标签我听到很多人抱怨 FB 不再允许公众访问删除图片标签也是如此吗 I get error type OAuthException message 3 Application does n
无法从存储“C:\Users\....\.android\debug.keystore”读取密钥 AndroidDebugKey：密钥库格式无效

我正在尝试在 android studio 中发布一个简单的项目所以我转到菜单 gt 构建 gt 构建 apk 但是我收到此错误 Error Execution failed for task app packageDebug gt Fa
将球体映射到立方体

这里描述了一种将立方体映射到球体的特殊方法 http mathproofs blogspot com 2005 07 mapping cube to sphere html http mathproofs blogspot com 2005
INNER JOIN 与“FROM”中的多个表名[重复]

这个问题在这里已经有答案了可能的重复 INNER JOIN 与 WHERE 子句有什么区别 https stackoverflow com questions 1018822 inner join versus where clause
检查引用完整性是否被破坏

在我的过程中我做了类似的事情 SET FOREIGN KEY CHECKS 0 LOAD DATA INFILE path to mytable txt INTO TABLE mytable SET FOREIGN KEY CHECKS
ANTLR：乘法省略“*”符号

我正在尝试创建一个用于乘法和除法的语法其中不需要包含符号我需要它来输出 AST 所以对于这样的输入 1 2 3 4 我希望 AST 是 1 2 3 4 我发现了以下内容它使用 java 代码来创建适当的节点 grammar Test
如何防止 Eclipse 自动关闭 TERMINATED lauches 控制台日志？

After应用程序启动执行终止所以它不再运行它的控制台日志保留在那里供审查直到我们开始另一次执行当发生新的执行时即使是来自 ant 自动构建所有终止的启动控制台日志都会自动关闭那么如何避免控制台日志自动关闭终止启动执行
Lua：Lua 中具有线程结构的抢占式（非协作式）多任务处理

我想知道 Lua 是否有内置的抢占式多任务处理工具我想在我的多核系统上使用并发线程我研究了协程参见 lua users org wiki CoroutinesTutorial 和 stackoverflow com questions
Angular 2. 在 Promise 中失去 this 的范围

我觉得我在这里错过了一些东西我有一项可以获取一些数据的服务我将其转换为承诺然后尝试以单独的方法处理数据一旦它命中该方法我就失去了访问我通常从 this whatever 访问的对象的能力如果我将 addJobsToTree 中的
删除重复的列对，根据两列对行进行排序[重复]

这个问题在这里已经有答案了在下面的数据框中如果行有重复对 1 4 和 4 1 被认为是同一对我只想保留一次Var1 and Var2 我想到了排序Var1 and Var2行内然后根据两者删除重复行Var1 and Var2 但是
如何使用 FreeImage 库将纹理加载到 OpenGL？

我正在使用 NeHe 教程学习 C 中的 OpenGL 但我尝试使用 FreeImage 库而不是 Glaux 或 SOIL 来完成它们我认为使用 FreeImage 的好处是它的最后一次更新是在去年 10 月而 SOIL 已经有 5
AJAX更新DOM后如何重新初始化（召回）FancyBox？

我正在使用 widgetkit 插件 Joomla CMS 用于灯箱由于 widgetkit 使用 fancybox 来显示灯箱我在这里发布一个问题当我不使用 AJAX 技术来更新 Joomla 网站的内容时 FancyBox 效果很
scipy.optimize.curve_fit，TypeError：不支持的操作数类型

我已经进行了搜索问题似乎类似于Python scipy 或 pow 不支持的操作数类型 list 和 list https stackoverflow com questions 9156208 python scipy unsuppor
在 pyspark 中缓存数据帧

我想更准确地了解pyspark中数据帧的方法缓存的使用当我跑步时df cache 它返回一个数据帧因此如果我这样做df2 df cache 哪个数据帧在缓存中是吗df df2 或两者我找到了源代码DataFrame cache h

在 pyspark 中缓存数据帧

在 pyspark 中缓存数据帧 的相关文章

随机推荐

热门标签

在 pyspark 中缓存数据帧的相关文章