Spark 中的 Hadoop DistributedCache 功能

2023-11-21

我正在寻找类似于Spark中Hadoop的分布式缓存的功能。我需要一个相对较小的数据文件（带有一些索引值）出现在所有节点中，以便进行一些计算。有什么方法可以在 Spark 中实现这一点吗？

到目前为止，我的解决方法包括将索引文件作为正常处理进行分发和减少，这在我的应用程序中大约需要 10 秒。之后，我将指示它的文件保留为广播变量，如下所示：

JavaRDD<String> indexFile = ctx.textFile("s3n://mybucket/input/indexFile.txt",1);
ArrayList<String> localIndex = (ArrayList<String>) indexFile.collect();    

final Broadcast<ArrayList<String>> globalIndex = ctx.broadcast(indexVar);

这使得程序能够理解变量的含义全球指数包含。到目前为止，这个补丁可能对我来说没问题，但我认为这不是最好的解决方案。对于更大的数据集或大量变量，它仍然有效吗？

注意：我使用的是在位于多个 EC2 实例的独立集群上运行的 Spark 1.0.0。

请看一下SparkContext.addFile()方法。猜猜这就是您正在寻找的东西。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop

apachespark

distribute

distributedcache

Spark 中的 Hadoop DistributedCache 功能的相关文章

如何删除spark输出中的compactbuffer

下面是我在spark shell中运行的程序但是当我将输出保存在HDFS中时我得到带有compactbuffer的输出如何删除spark输出中的compactbuffer Program val a sc textFile datag
无法在 Hadoop Map-Reduce 作业中加载 OpenNLP 句子模型

我正在尝试将 OpenNLP 集成到 Hadoop 上的 Map Reduce 作业中从一些基本的句子分割开始在地图函数中运行以下代码 public AnalysisFile analyze String content InputS
Talend 和 Apache Spark？

我对 Talend 和 Apache Spark 在大数据生态系统中的定位感到困惑因为 Apache Spark 和 Talend 都可以用于 ETL 有人可以用一个例子解释一下吗 Talend 是一种基于工具的大数据方法通过内置组件支
创建上下文后将 jar 文件添加到 pyspark

我正在笔记本上使用 pyspark 并且不处理 SparkSession 的创建我需要加载一个包含一些我想在处理 rdd 时使用的函数的 jar 您可以使用 jars 轻松完成此操作但在我的特定情况下我无法做到这一点有没有办法访问sp
collect_list() 是否保持行的相对顺序？

想象一下我有以下 DataFrame df id featureName featureValue id1 a 3 id1 b 4 id2 a 2 id2 c 5 id3 d 9 想象一下我运行 df groupBy id agg coll
Apache hadoop 版本 2.0 与 0.23

Hadoop 的版本和发行版太多让我很困惑我有几个问题 Apache Hadoop 1 x 是从 0 20 205 开始的 Apache Hadoop 2 0 是从 0 22 还是 0 23 开始根据这个blogpost http b
java.lang.ClassNotFoundException：找不到类 org.apache.hadoop.fs.azurebfs.SecureAzureBlobFileSystem

我是 Spark 和 Kubernetes 世界的新手我使用 docker image tool sh 实用程序使用与 Hadoop 3 2 捆绑在一起的官方 Spark 3 0 1 构建了 Spark docker 映像我还为 Jup
通过spark-shell以静默模式执行scala脚本

需要通过spark shell以静默模式执行scala脚本当我使用时spark shell i file scala 执行后我进入scala交互模式我不想进入那里我尝试执行spark shell i file scala 但我不知道
Spark s3 写入（s3 与 s3a 连接器）

我正在从事一项在 EMR 上运行的作业它在 s3 上保存了数千个分区分区为年月日我有过去 50 年的数据现在当 Spark 写入 10000 个分区时使用以下命令大约需要 1 小时s3a联系它非常慢 df repartit
在S3中捕获Kubernetes Spark驱动程序和执行程序日志并在历史服务器中查看

我正在 Kubernetes 上使用 Spark submit cli 运行 Spark 3 0 0 和 Hadoop 2 7 如下所示 spark submit master k8s https api k8s my domain com
使用notebook时将jar添加到pyspark

我正在尝试将 mongodb hadoop 与 Spark 集成但不知道如何使 IPython 笔记本可以访问这些 jar 这是我想做的 set up parameters for reading from MongoDB via Had
如何在Python中检查UDF函数中pyspark数据帧列的单元格值为none或NaN以实现前向填充？

我基本上是在尝试进行前向填充插补下面是代码 df spark createDataFrame 1 1 None 1 2 5 1 3 None 1 4 None 1 5 10 1 6 None session timestamp id PR
如何找到 JAR：/home/hadoop/contrib/streaming/hadoop-streaming.jar

我正在练习有关 Amazon EMR 的复数视角视频教程我被困住了因为我收到此错误而无法继续 Not a valid JAR home hadoop contrib streaming hadoop streaming jar 请注意
Spark 中的 RDD 和 Dataframe 有什么区别？ [复制]

这个问题在这里已经有答案了嗨我对 apache Spark 比较陌生我想了解 RDD 数据帧和数据集之间的区别例如我正在从 s3 存储桶中提取数据 df spark read parquet s3 output unattribu
Hadoop Windows 设置。运行 WordCountJob 时出错：“任何本地目录中都没有可用空间”

我正在按照此视频教程尝试在我的计算机上设置 hadoop 如何在 Windows 10 上安装 Hadoop https www youtube com watch v zujpglKP0Nw 我已经成功设置它从 sbin 目录执行 st
Pyspark - 根据条件重置累积和列

我有以下数据框 id date reset cumsum 1001 2023 04 01 false 0 1001 2023 04 02 false 0 1001 2023 04 03 false 1 1001 2023 04 04 fal
Spark-shell 使用不同版本的 Scala。使用 homebrew 安装 scala 和 apache-spark

我使用 homebrew 安装了 scala 和 apache spark 它安装了 scala 2 12 4 和 apache spark 2 2 0 但是如果您结帐spark shell version它使用不同的 scala 版本
为什么spark.memory.fraction的默认值这么低？

来自Spark配置文档 https spark apache org docs latest configuration html memory management 我们了解以下有关spark memory fraction配置参数用于
Spark 与 Webhdfs/httpfs

我想通过 httpfs 或 Webhdfs 将文件从 HDFS 读入 Spark 类似的东西 sc textFile webhdfs myhost 14000 webhdfs v1 path to file txt 或者理想情况下 sc
带可变参数的 Spark UDF

如文档中所示列出最多 22 个参数是唯一的选择吗 https spark apache org docs 1 5 0 api scala index html org apache spark sql UDFRegistration ht

随机推荐

Google Apps 脚本电子表格评论自动化

今天我有一个关于 Google Apps 脚本的问题特别是电子表格我已经看过文档了here 是的有关a的文档Sheet在电子表格中但我一直无法找到我要找的东西这是西奇 1 当在 Google 电子表格中编辑单元格时我的函数会设置
安装和运行 rcpp 时出错

我对 R 还很陌生所以对一个愚蠢的问题表示歉意我正在尝试让 rcpp 运行但我陷入了 R 的无限循环要求我重新安装 RTools 我大致遵循了以下代码这篇博文虽然第一次休息时我手动安装了所有东西随后我又重新安装了几次我正在运行
Java：负数右移

我对负数的右移操作感到非常困惑这是代码 int n 15 System out println Integer toBinaryString n int mask n gt gt 31 System out println Integer
通过特定位置和经度获取屏幕坐标（android）

我有一个增强现实的应用程序其中存储了地铁加油站名胜古迹等信息以及相应的纬度和经度现在根据设备的方向我将在设备的相机视图中显示每个站点的标记类似于 Layar 和 Wikitude 找了三天没有间断也没有找到人解释如何解决这个
为什么 kinect 颜色和深度无法正确对齐？

我已经研究这个问题很长一段时间了并且我的创造力已经结束所以希望其他人可以帮助我指明正确的方向我一直在使用 Kinect 并尝试将数据捕获到 MATLAB 幸运的是有很多方法可以做到这一点我目前正在使用http www mathwo
所有系统引用都缺少 Visual Studio 2013 NuGet Async

我在 Visual Studio 2013 中设置了一个解决方案团队项目并且有一段时间为 NET Framework 4 0 安装了一个可用的 NuGet Microsoft Bcl 异步包今天当打开项目时无法找到所有默认的 NE
在@RequestParam中绑定列表

我以这种方式从表单发送一些参数 myparam 0 myValue1 myparam 1 myValue2 myparam 2 myValue3 otherParam otherValue anotherParam anotherValue
如何在选中时覆盖 Material UI 开关组件的样式？

我想控制开关组件的颜色无论是在选中还是未选中时默认情况下它是红色的我希望当开关状态为球形旋钮时为黄色checked true我希望它是灰色的什么时候checked false I must通过使用来实现样式createMuiTh
如何更改 Material-UI 滑块颜色

我想更改 Material UI Slider 组件颜色我尝试更改CSS样式但它不起作用然后我尝试了中给出的解决方案this问题并应用了此代码但它不起作用获取Mui主题 const muiTheme getMuiTheme slid
Ruby 中的 Array.prototype.splice

有朋友问我用Ruby最好最高效的方式来达到JavaScript的效果spliceRuby 中的方法这意味着不对数组本身或副本进行迭代从索引开始处开始删除长度项并可选插入元素最后在数组中返回删除的项这是误导性的请参阅下面的
创建android子项目时出错

我通过安装了 cordova e Phonegapnpm install g 科尔多瓦 and npm install gphonegap分别然后我通过创建了一个 HelloWorld 应用程序cordova 创建 HelloWorld
Android 4.0 中的 RemoteControlClient 是什么？

我了解 StackOverflow 的规则因此提前为提出这样的问题表示歉意主观问题我尝试过文档但它说的是这样的 RemoteControlClient 允许公开要使用的信息通过能够显示元数据艺术品和媒体的远程控制传输控制按钮远程
如何从 CefSharp 3 在本机浏览器中打开链接

我需要在 CefSharp 3 的本机浏览器中打开链接我需要在 CefSharp 3 的 chromium 浏览器中运行除表单之外的整个应用程序当我单击表单的链接按钮例如注册按钮它有一个指向注册表单的链接时我需要在本机浏览器
带有 Flask 的 pyCUDA 给出 pycuda._driver.LogicError: cuModuleLoadDataEx

我想在flask服务器该文件直接使用即可正确运行python3但当使用相应的函数调用时失败flask 这是相关代码 cudaFlask py import pycuda autoinit import pycuda driver as d
删除行后如何消除 rowid 编号中的间隙？

Table tmp CREATE TABLE if not exists tmp id INTEGER PRIMARY KEY name TEXT NOT NULL 我插入了5行 select rowid id name from tmp
如何检查嵌套引用中是否为 null

寻找一些最佳实践指导假设我有一行这样的代码 Color color someOrder Customer LastOrder Product Color 其中 Customer LastOrder Product 和 Color 可以是n
RODBC 和 Microsoft SQL Server：截断长字符串

我正在尝试使用 R RODBC 从 Microsoft SQL Server 数据库查询变量 RODBC 正在将字符串截断为 8000 个字符原始代码截断为 255 个字符根据 ODBC 文档 library RODBC con st
如何使用 Fish Shell 管理我的节点版本

我昨天开始使用fish作为我的shell 今天我尝试使用yarn和tailwind在终端中运行我的NextJs应用程序但出现了有关节点版本的错误我检查了一下然后发现当前版本是10 19 0 在我的 zsh shell 中我安装了 N
UIAlertController - 将自定义视图添加到操作表

当我们尝试附加屏幕截图中的图像时我正在尝试制作如 iOS 上的消息应用程序中所示的操作表我意识到在新的 UIAlertController 中我们无法容纳任何自定义视图我有什么办法可以做到这一点吗我的代码看起来很标准 let al
Spark 中的 Hadoop DistributedCache 功能

我正在寻找类似于Spark中Hadoop的分布式缓存的功能我需要一个相对较小的数据文件带有一些索引值出现在所有节点中以便进行一些计算有什么方法可以在 Spark 中实现这一点吗到目前为止我的解决方法包括将索引文件作为正常处理进

Spark 中的 Hadoop DistributedCache 功能

Spark 中的 Hadoop DistributedCache 功能 的相关文章

随机推荐

热门标签

Spark 中的 Hadoop DistributedCache 功能的相关文章