Spark中“RDD可以存储在内存中”是什么意思？

2024-01-09

Spark的介绍中说

RDD 可以在查询之间存储在内存中，无需复制 http://spark.apache.org/research.html.

据我所知，您必须使用手动缓存 RDD.cache() or .persist().如果我不采取任何措施，如下所示

   val file = sc.textFile("hdfs://data/kv1.txt")
   file.flatMap(line => line.split(" "))
   file.count()

我不将RDD“文件”持久化在缓存或磁盘中，在这种情况下，Spark可以运行得更快吗比MapReduce？

Spark 将逐个分区地计算计算的每个阶段。它将暂时在内存中保存一些数据以完成其工作。它可能必须将数据溢出到磁盘并通过网络传输才能执行某些阶段。但这些都不是（必然）持久的。如果你count()一切又要从头开始。

这并不是 Spark 比 MapReduce 运行得更快的情况；而是 Spark 运行速度比 MapReduce 快。可能会是slower对于这样一个简单的操作。事实上，加载到内存中并没有什么好处。

更复杂的示例，例如重要的管道或对 RDD 的重复访问，将显示出持久化在内存甚至磁盘上的好处。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

MapReduce

apachespark

Spark中“RDD可以存储在内存中”是什么意思？的相关文章

Spark 数据框添加带有随机数据的新列

我想向数据框中添加一个新列其值由 0 或 1 组成我使用了 randint 函数 from random import randint df1 df withColumn isVal randint 0 1 但我收到以下错误 spark
pyspark中的稀疏向量RDD

我一直在使用 mllib 的功能通过 Python Pyspark 实现此处描述的 TF IDF 方法 https spark apache org docs 1 3 0 mllib feature extraction html http
在Python Spark中查看RDD内容？

在 pyspark 中运行一个简单的应用程序 f sc textFile README md wc f flatMap lambda x x split map lambda x x 1 reduceByKey add 我想使用 forea
使用列值作为 Spark DataFrame 函数的参数

考虑以下数据框 letter rpt X 3 Y 1 Z 2 可以使用以下代码创建 df spark createDataFrame X 3 Y 1 Z 2 letter rpt 假设我想重复每行列中指定的次数rpt 就像这样questio
Spark：如何从spark shell运行spark文件

我正在使用CDH 5 2 我能够使用火花外壳运行命令如何运行包含 Spark 命令的文件 file spark 有没有办法在没有 sbt 的情况下在 CDH 5 2 中运行编译 scala 程序在命令行中您可以使用 spark sh
Spark - java.lang.OutOfMemoryError：请求的数组大小超出 VM 限制

我正在尝试对 Cloudera 的 Spark 2 1 0 中的数据帧进行 groupBy 操作该集群位于总 RAM 约为 512GB 的 7 节点集群上我的代码如下 ndf ndf repartition 20000 by user
在 Spark 中分发 scikit learn 分类器的推荐方法是什么？

我已经使用 scikit learn 构建了一个分类器现在我想使用 Spark 在大型数据集上运行 Predict proba 我目前使用以下方法对分类器进行腌制 import pickle pickle dump clf open cl
如何在 Spark 中创建空数据帧

我有一组基于 Avro 的配置单元表我需要从中读取数据由于Spark SQL使用hive serdes从HDFS读取数据因此比直接读取HDFS慢很多因此我使用数据块 Spark Avro jar 从底层 HDFS 目录读取 Avr
Spark：Aggregator和UDAF有什么区别？

在Spark的文档中 Aggregator 抽象类聚合器 IN BUF OUT 扩展可序列化用户定义聚合的基类可以是在数据集操作中用于获取组中的所有元素并将它们减少到单个值用户定义的聚合函数是抽象类 UserDefinedAgg
idea sbt java.lang.NoClassDefFoundError: org/apache/spark/SparkConf

我是spark的初学者我使用 linux idea sbt 构建了一个环境当我尝试快速启动Spark时我遇到了问题 Exception in thread main java lang NoClassDefFoundError org
在 Spark Dataframe 中提取数组索引

我有一个带有数组类型列的数据框例如 val df List a Array 1d 2d 3d b Array 4d 5d 6d toDF ID DATA df org apache spark sql DataFrame ID strin
如何使用列的平均值将列添加到 DataFrame

有没有更好的办法 val mean df select avg date first getDouble 0 df withColumn mean lit mean 我认为避免采取行动是值得的可以使用以下方法避免额外的操作broadcas
以有效的方式从 BigQuery 读取到 Spark 中？

使用时BigQuery 连接器 https cloud google com hadoop examples bigquery connector spark example要从 BigQuery 读取数据我发现它首先将所有数据复制到 G
获取 emr-ddb-hadoop.jar 将 DynamoDB 与 EMR Spark 连接

我有一个 DynamoDB 表需要将其连接到 EMR Spark SQL 才能对该表运行查询我获得了带有发行标签 emr 4 6 0 和 Spark 1 6 1 的 EMR Spark Cluster 我指的是文档使用 Spark 分
在 kubernetes 上安装 PySpark 软件包时出现 Spark-Submit：ivy-cache 文件未找到错误

我一整天都在与它斗争我能够安装并使用带有 Spark shell 或连接的 Jupiter 笔记本的包 graphframes 但我想使用 Spark Submit 将其移动到基于 kubernetes 的 Spark 环境我的火花版
过滤字符串上的 Spark DataFrame 包含

我在用火花1 3 0 http spark apache org releases spark release 1 3 0 html and 火花阿夫罗1 0 0 https github com databricks spark avro
如何使用 PySpark 预处理图像？

我有一个项目需要为 1 设置大数据架构 AWS S3 SageMaker 的概念验证使用 PySpark 预处理图像 2 执行 PCA and 3 训练一些机器或深度学习模型我的问题是了解如何使用 PySpark 操作图像数据但无法在
如何读取一次流数据集并输出到多个接收器？

我有 Spark 结构化流作业它从 S3 读取数据转换数据然后将其存储到一个 S3 接收器和一个 Elasticsearch 接收器目前我正在做readStream一次然后writeStream format start 两次这
Spark SQL 失败，因为“常量池已超过 JVM 限制 0xFFFF”

我在 EMR 4 6 0 Spark 1 6 1 上运行此代码 val sqlContext SQLContext getOrCreate sc val inputRDD sqlContext read json input try inp
如何将 Pyspark Dataframe 标题设置到另一行？

我有一个如下所示的数据框 col1 col2 col3 id name val 1 a01 X 2 a02 Y 我需要从中创建一个新的数据框使用 row 1 作为新的列标题并忽略或删除 col1 col2 等行新表应如下所示 id na

随机推荐

将 Windows Phone 8 SDK 添加到 Visual Studio 2012

我的互联网连接非常糟糕并且我有 Windows Phone 8 SDK 文件但没有安装文件有没有办法将 Windows 8 SDK 添加到 Visual Studio 而无需下载安装文件不明白你的意思您需要安装现有的 Visual
VueJS - 单击时交换组件

在我的应用程序中我有很多按钮当我按下按钮时我想加载一个模板替换所选按钮模板 Vue component component 1 Vue component component 2 Buttons div div
哪些浏览器支持 Xpath 2.0？

我最近一直在使用 XPath 并且一直在搜索有关哪些浏览器支持 XPath 2 0 的信息但运气不佳我能找到的最好的是查询技术对照表 http en wikipedia org wiki Comparison of layout eng
我可以同时使用 DataContract 和 Serialized 吗？

我正在从事 WCF 服务我的所有类都已使用 Serializable 属性进行序列化但由于 k BackingField 属性命名问题我使用了 DataContract 和 DataMember 属性所以我可以同时使用这两个属性如
C# 列表和枚举器的属性

我有以下问题我有一个列表并将字符串项目添加到该列表中然后我从列表中创建一个枚举器当我用循环遍历列表时MoveNext 当我直接访问枚举器时它会起作用当我使用枚举器属性访问枚举器时它不起作用这MoveNext 命令不会增加索引
将 OpenCV 与 Django 结合使用

我想在我的 Django 应用程序中使用 OpenCV 由于 OpenCV 是一个库我认为我们可以像任何其他库一样使用它当我尝试使用导入它时import cv2在 Django 的视图中它工作正常但是当我尝试在 Django 视图中
页面顶部固定浮动 div 中的 Bootstrap 警报

我有一个使用 Bootstrap 的 Web 应用程序 2 3 2 公司政策如果不对多个 Web 应用程序进行大量测试我们就无法升级到 3 0 我们在此应用程序中有几个长页面需要验证表单和表格然而由于实用和美观的原因我们需要在页面
为什么 stripe Checkout 中没有帐单地址

我正在使用 Stripe Checkout 进行信用卡收费但我在弹出窗口中没有看到帐单地址为什么他们不需要帐单地址为什么当我准备使用信用卡付款时我访问的任何其他网站都会要求提供帐单地址 Stripe Checkout 中已弃用帐单
以字符串形式访问对象属性并设置其值

我有一个实例Account班级每个帐户对象都有一个所有者引用等我访问帐户属性的一种方法是通过访问器例如 account Reference 但我希望能够使用动态字符串选择器访问它例如 account PropertyName 就像
读取某些元素名称中包含“-”的 XML 提要

我正在尝试读取元素名称中包含的 xml feed 可以在此处找到源我是 php 新手所以我可能会忽略一些基本的东西我正在使用 SimpleXML 来读取提要这是我用来解决我的问题的一些基本代码我阅读了预测和最低温度没有任何问题
基于 DateTime 创建自定义 GroupDescription

我正在对一些数据进行分组 PropertyGroupDescription 在大多数情况下都工作正常但是如果该属性是 DateTime 并且我不想将多个日期分组为一组例如每组 30 天或其他我将需要一个新的 GroupDescrip
字节码操作模式

字节码操作有哪些合法用途以及人们如何在实践中实现这些基于字节码操作的解决方案 Update 我应该更清楚地表明这个问题实际上是关于人们使用什么模式和技术在字节码操作的帮助下使他们的代码飞起来像已经提到的面向方面的编程或动态构建代理对象和
如何使用 Python 从出站 Twilio 呼叫中检索信息？

我是 Twilio 的新手正在尝试弄清楚如何从我使用 Python 3 成功拨打的出站呼叫中检索数据我希望能够检索诸如收件人按下的按钮之类的信息在阅读了一点 Twilio 文档然后有点迷失后我想我了解了 Twilio 的工作原理
@Viewchild看不到matSort

在我的 Angular 应用程序中我的 ViewChild 实例无法填充 HTL matSort 我的组件 ts import MatSort from angular material export class MyClassCompo
卤素键盘输入示例和取消订阅事件？

如何取消订阅除 HandleKey 之外的其他操作的键盘事件键盘输入示例 https github com slamdata purescript halogen blob master examples keyboard input sr
缓冲区溢出 - 普通用户中的 SegFaults

下面是我的代码包括易受攻击的程序 stack c 和我的漏洞利用程序 exploit c 这段代码适用于教授为 Windows 用户发送的预打包 Ubuntu 9 我有一个朋友在他的计算机上测试了它但在我在 iMac 上运行的 Ubun
如何从 Android 设备访问本地 REST api？

我的计算机上本地运行着一个 spring REST api 我想使用这个 api 进行 android 开发这是我的获取请求 public static String sendGet final String url StringBuil
是否可以通过动态 LINQ 进行注入？

使用动态 LINQ 库 link http weblogs asp net scottgu archive 2008 01 07 dynamic linq part 1 using the linq dynamic query librar
jquery文档主体一键事件

有人可以帮我解决这个问题吗我有一个按钮单击它会显示某个 div 这个 div 有几个后代现在我想要的是当我单击文档中的其他位置时但在这些后代中却没有这个div消失了我的想法是使用 not 选择器如下所示 button cli
Spark中“RDD可以存储在内存中”是什么意思？

Spark的介绍中说 RDD 可以在查询之间存储在内存中无需复制 http spark apache org research html 据我所知您必须使用手动缓存 RDD cache or persist 如果我不采取任何措施如下所

Spark中“RDD可以存储在内存中”是什么意思？

Spark中“RDD可以存储在内存中”是什么意思？ 的相关文章

随机推荐

热门标签

Spark中“RDD可以存储在内存中”是什么意思？的相关文章